PaddleFleetX
latest
飞桨分布式概览
整体介绍与内容概览
使用指南
安装PaddlePaddle
Collective训练
1. 快速开始
2. 数据并行
3. 性能优化
4. 大模型训练优化
ParameterServer训练
启动分布式任务
高阶内容
服务型弹性蒸馏训练
弹性训练
分布式训练搭建方案
公有云配置
Kubernetes 部署
附录
性能基准
FAQ
PaddleFleetX
Docs
»
Collective训练
Edit on GitHub
Collective训练
¶
Collective多卡分布式训练
¶
1. 快速开始
1.1. Collective训练快速开始
1.2. 版本要求
1.3. 操作方法
1.4. 运行示例
2. 数据并行
2.1. 简介
2.2. 原理介绍
2.3. 操作实践
2.4. 数据并行使用技巧
2.5. 参考文献
3. 性能优化
3.1. 设计综述
3.2. OP融合(计算,通信)
3.3. 通信重叠
3.4. 通信拓扑优化
3.5. 通信频率优化
3.6. 自动混合精度训练
3.7. 其他(调节资源的配比、增大bs等)
4. 大模型训练优化
4.1. 前向重计算
4.2. Gradient Merge
4.3. 使用LARS / LAMB 优化分布式超大batch 训练
4.4. 飞桨大规模分类库使用介绍
4.5. 使用Sharding 训练超大模型
4.6. 模型并行
4.7. 流水线并行
4.8. 飞桨4D混合并行训练使用指南
4.9. GPT模型训练
Read the Docs
v: latest
Versions
latest
stable
Downloads
html
epub
On Read the Docs
Project Home
Builds
Free document hosting provided by
Read the Docs
.