分享热点新闻
打造优质自媒体!

百度飞桨分布式培训行业的第一个4D混合并行策略可以培训1000亿人工智能模型

要说这几年人工智能这条街上谁是最漂亮的孩子,那就是深度学习,尤其是“大数据”、“大模型”、“大计算能力”的说法不断。随着工业应用对AI模型效果的要求越来越高,数据和参数规模越来越大,分布式训练,即使用多台机器完成大数据和大模型的训练任务,已经成为开发者必须关注的技术。

各大深度学习框架也经常在分布式训练中发力,展示肌肉,展示成果。作为国内首个开源、自主研发、功能齐全的行业级深度学习平台,飞桨在分布式培训方面一直保持着强劲的产出,不仅有能力支持行业内最早的万亿级稀疏参数模型的培训,最近还创新性地提出了4D混合并行策略,培训数千亿个密集参数模型。

那么,飞桨?的分布式培训技术有多强呢

百度飞桨分布式培训行业的第一个4D混合并行策略可以培训1000亿人工智能模型 科学快报 第1张

(百度丰富的商业场景)

飞桨分布式培训技术在提供给外界之前,已经广泛应用于百度内部业务。早在2018年,飞桨纯CPU参数服务器模型就可以支持万亿参数尺度模型的训练,解决搜索推荐场景面临的数据量大、特征维数高、稀疏性等问题。

随着模型网络的日益复杂,对计算能力的要求也越来越高。在数据量不变的情况下,暴露了CPU计算性能差的弱点。面对这个问题,飞桨引入了纯GPU参数服务器来提高计算性能,只用一个多卡GPU设备来训练只能由100台CPU机器训练的模型,既节约了成本,又保证了集群的稳定性和可扩展性。

经过这次技术升级,飞桨变得越来越勇敢。考虑到在纯GPU参数服务器下,当模型网络层复杂时,GPU利用率很难得到充分利用,飞桨框架2.0版创新性地引入了业界首个通用异构参数服务器功能,可以同时使用不同硬件进行混合异构训练。兼容多种CPU、AI专用芯片(如昆仑, XPU 百度)、GPU(如V100、P40、K40),允许用户在异构硬件集群中部署分布式训练任务,实现不同计算能力芯片的高效使用,为用户提供更高吞吐量、更低资源消耗的训练能力。

百度飞桨分布式培训行业的第一个4D混合并行策略可以培训1000亿人工智能模型 科学快报 第2张

(飞桨全景)

飞桨分布式训练不仅支持参数服务器模式训练万亿级稀疏参数模型,而且对于网络复杂、参数密集的自然语言处理和变异系数模型也很方便。其优势体现在百度的“语义理解技术”和平台文心文心”.厄尼采用分布式训练中的集体通信方式,通过较少的节点间通信轮次完成全局节点的模型参数传输,大大提高了通信效率,在同步并行训练的多GPU扩展能力上取得了重大突破。目前,飞桨集体沟通模式可以支持厄尼在文心,的2300亿参数训练,其分片-DP策略帮助厄尼在文心的多任务评分刷新了GLUE列表。

百度飞桨分布式培训行业的第一个4D混合并行策略可以培训1000亿人工智能模型 科学快报 第3张

(飞桨帮助文心的厄尼更新胶水清单)

文心,的厄尼作为百度在各大榜单上夺得榜首的“利器”,由于飞桨厄尼在文心的1000亿级模型的强力支持,在性能上具有优势,计算复杂,占用T级内存资源进行训练。为了用更少的机器高效地训练,必须采取一系列优化措施。飞桨创新性地提出了4D混合并行策略,进一步优化了训练性能和视频记忆比例,再次达到了技术的前沿。

4D混合并行策略可以结合各种并行策略的优势,将分布式培训技术与业务紧密结合。飞桨的R&D人员通过模型并行策略、分组参数切片组合、流水线并行策略和数据并行策略的多层叠加发挥合力,催生了业界首个4D混合并行策略。通过测试验证,创新提出的4D混合并行策略的训练速度确实高于三维混合并行策略,效果也非常明显。

自设计之初,飞桨,就开始研究分布式训练技术来处理大规模参数模型的训练任务。如今,飞桨已经开始研究下一代分布式技术,以兼容超大规模密集参数和稀疏参数模型的训练。

工业智能基础技术基地飞桨输出应用于各行各业的实际业务场景,在城市、工业、能源、通信等领域发挥了重要作用。相信百度将继续在技术上创新进步,探索分布式训练技术的边界,拓展AI赋能的领域,为智能时代的发展做出贡献。