PaddleFleetX
latest

飞桨分布式概览

  • 整体介绍与内容概览

使用指南

  • 安装PaddlePaddle
  • Collective训练
    • 1. 快速开始
    • 2. 数据并行
    • 3. 性能优化
    • 4. 大模型训练优化
  • ParameterServer训练
  • 启动分布式任务

高阶内容

  • 服务型弹性蒸馏训练
  • 弹性训练

分布式训练搭建方案

  • 公有云配置
  • Kubernetes 部署

附录

  • 性能基准
  • FAQ
PaddleFleetX
  • Docs »
  • Collective训练
  • Edit on GitHub

Collective训练¶

Collective多卡分布式训练¶

  • 1. 快速开始
    • 1.1. Collective训练快速开始
    • 1.2. 版本要求
    • 1.3. 操作方法
    • 1.4. 运行示例
  • 2. 数据并行
    • 2.1. 简介
    • 2.2. 原理介绍
    • 2.3. 操作实践
    • 2.4. 数据并行使用技巧
    • 2.5. 参考文献
  • 3. 性能优化
    • 3.1. 设计综述
    • 3.2. OP融合(计算,通信)
    • 3.3. 通信重叠
    • 3.4. 通信拓扑优化
    • 3.5. 通信频率优化
    • 3.6. 自动混合精度训练
    • 3.7. 其他(调节资源的配比、增大bs等)
  • 4. 大模型训练优化
    • 4.1. 前向重计算
    • 4.2. Gradient Merge
    • 4.3. 使用LARS / LAMB 优化分布式超大batch 训练
    • 4.4. 飞桨大规模分类库使用介绍
    • 4.5. 使用Sharding 训练超大模型
    • 4.6. 模型并行
    • 4.7. 流水线并行
    • 4.8. 飞桨4D混合并行训练使用指南
    • 4.9. GPT模型训练
Next Previous

© Copyright 2020, PaddlePaddle Revision a68cd53c.

Built with Sphinx using a theme provided by Read the Docs.