Blog

NCCL 是什么：多 GPU 训练的通信基础

理解 All-Reduce、Broadcast、Reduce-Scatter 以及 NCCL 在大模型训练中的作用。

Apr 12, 2026
Megatron-LM、DeepSpeed 和 Accelerate 的区别

比较三个训练工具在抽象层级、侵入程度、目标规模和能力重心上的差异。

Apr 11, 2026
ZeRO 原理：把模型状态切到多张 GPU 上

用通俗例子理解 ZeRO Stage 1/2/3、参数通信、激活值和重算的关系。

Jan 10, 2026
分布式训练基础：DP、TP、PP 与 Rank

从数据并行、张量并行、流水线并行和 Rank/Node 概念入门分布式训练。

Jan 9, 2026
分布式训练中的显存占用怎么算

用混合精度、参数、梯度和优化器状态拆解大模型训练的显存来源。

Jan 9, 2026