Student · AI/LLM Engineering Learner
Haochen
Categories
分类导航
Statistics
站点统计
6Total Posts
5.3kEstimated Words
3Categories
Last Updated
Recent writing
最新文章
Megatron-LM 的 ckpt format 探析
从一次 teacher checkpoint 加载报错出发,梳理 Megatron-LM 中 torch legacy 与 torch_dist checkpoint 格式的差异。
NCCL 是什么:多 GPU 训练的通信基础
理解 All-Reduce、Broadcast、Reduce-Scatter 以及 NCCL 在大模型训练中的作用。
Megatron-LM、DeepSpeed 和 Accelerate 的区别
比较三个训练工具在抽象层级、侵入程度、目标规模和能力重心上的差异。
ZeRO 原理:把模型状态切到多张 GPU 上
用通俗例子理解 ZeRO Stage 1/2/3、参数通信、激活值和重算的关系。
分布式训练基础:DP、TP、PP 与 Rank
从数据并行、张量并行、流水线并行和 Rank/Node 概念入门分布式训练。