一份面向训练系统的工程笔记索引。

按主题放分布式训练、Megatron-LM、显存优化和通信基础。查概念时可以先看专题和标签,再进具体文章。

distributed training megatron checkpoint systems notes
文章
6
Technical 分类
估算字数
5.3k
按 Markdown 正文计算
标签
14
按概念索引
最近更新
按文章日期
4

Parallel Training

并行策略、Rank 组织和多 GPU 通信基础。

4 篇相关笔记
3

Megatron Practice

Megatron-LM checkpoint、torch distributed 和工程格式。

3 篇相关笔记
2

Memory Systems

ZeRO、混合精度、激活重算与训练显存预算。

2 篇相关笔记