整体介绍与内容概览

欢迎关注大规模深度学习技术

近十年来,深度学习技术不断刷新视觉、自然语言、语音、搜索、推荐等领域各种任务的记录。这其中的原因,用一个关键词描述就是“大规模”。大规模的数据使得模型有足够的知识可以记忆,大规模参数量的模型使得模型本身有能力记忆更多的数据,大规模高性能的算力(以GPU为典型代表)使得模型的训练速度有百倍甚至千倍的提升。数据、模型、算力的发展催生了大规模深度学习这个领域,如何进行多机任务的拆分、如何配置集群训练资源、如何平衡训练速度和收敛速度、如何训练单机无法训练的模型、弹性训练与容错等都是这个方向重点研究的问题。

飞桨分布式训练提供的核心价值

  1. 源自产业实践的经验:

  • 飞桨的分布式训练技术源自百度的业务实践,是经过超大规模业务数据检验过的训练框架。

  • 飞桨分布式训练经过实践检验的应用领域包括自然语言处理,计算机视觉,搜索,推荐等。

  1. 完备的并行模式:

  • 数据并行:针对产业界最常用的数据并行模式,飞桨针对实际业务需求重点打磨多项技术,包括;飞桨提供集合通信架构和参数服务器架构两种方式,支持工业实践中常见的同步训练和异步训练的机制,并提供收敛效果有保障的分布式优化算法。

  • 流水线并行:面向异构硬件,流水线并行能够将模型计算部分拆分到不同硬件并充分流水线化,从而大规模提升异构硬件的整体利用率。

  • 模型并行:对于超大规模分类问题,飞桨提供计算与存储同时并行的模型并行,解决单GPU无法解决的问题。

  1. 面向云端场景的并行训练组件:

  • 飞桨针对集群网络环境、硬件设备比较低配的场景提供多种实用的并行策略和优化算法。

  • 针对云端算力具有弹性的特点,飞桨也始终在探索弹性深度学习的应用。

开始你的分布式训练之旅

  • 整体内容:我们推荐您直接根据主页,按照章节顺序逐个浏览学习,如果有任何疑问都可以在PaddleFleetX提交issue提问

  • FAQ:对于高频出现的问题,我们会定期整理相关内容到FAQ

  • 快速上手:如果想最低成本的了解飞桨的分布式训练,我们推荐阅读GPU多级多卡(Collective)训练快速开始参数服务器训练快速开始

  • GPU多机训练:如果您已经开始使用GPU进行多机多卡训练,Collective训练包含了诸多飞桨多机多卡的训练能力,建议阅读。

  • 参数服务器:信息检索、推荐系统领域常用的并行训练方式,参数服务器训练包含了飞桨参数服务器的训练能力,建议阅读。

  • 公有云环境实践:如果您在公有云上跑自己的GPU多卡任务,性能不佳,优化低配网络的分布式GPU训练(DGC)是调优性能的好方法

  • 弹性训练:如果对如何利用云端弹性资源进行大规模蒸馏训练有兴趣,可以阅读EDL 服务型弹性蒸馏

RoadMap

  • 敬请期待