分享热点新闻
打造优质自媒体!

飞桨帮助高校进行前沿科学研究 支持OpenKS的大规模分布式训练和图形计算

4月24日,浙江大学召开OpenKS知识计算引擎开源项目会议,宣布浙大及其合作伙伴开发的OpenKS知识计算引擎取得重大进展。中国工程学院潘云鹤,院士、国家新一代人工智能战略咨询委员会负责人、浙江大学计算机科学学院教授表示,此次发布的OpenKS作为知识计算引擎项目的基础软件架构,定义和丰富了知识计算的内涵,是我国在大数据人工智能方向上的又一有益尝试。

飞桨帮助高校进行前沿科学研究 支持OpenKS的大规模分布式训练和图形计算 科学快报 第1张

“概化领域知识学习与计算引擎”是浙江大学牵头的科技创新2030“新一代人工智能”的第一个重大项目。与北京大学, 北京航空航天大学、哈尔滨理工大学、西北工业大学、之江实验室等顶尖学术机构以及百度等行业龙头企业共建。目的是建立一套能够服务于知识密集型行业共同需求的知识计算工具、算法和系统,帮助这些行业快速构建行业知识地图,提供与行业相关的智能规划和决策支持。经过各研究小组的深入研究和学科间的密切合作,我们共同开发了OpenKS知识计算引擎的算法库,可用于支持各行业知识服务系统的建设。

基于百度, 飞桨的OpenKS可以实现模型的大规模分布式训练和图形计算,解决从数据到知识、从知识到决策三大问题。OpenKS集成了大量的算法和解决方案,为知识学习和计算提供了一系列多层次的接口标准,各机构的R&D人员可以使用这些标准统一打包、集成和服务算法模型的研究成果,支持企业和社区开发者根据不同的场景调用和进一步开发接口服务。各行各业都可以在引擎中选择算法,快速构建行业系统应用,以满足不断变化的决策需求。当行业和需求发生变化时,系统可以及时提供计算能力和算法支持,缩短行业智能转型的时间。

飞桨帮助高校进行前沿科学研究 支持OpenKS的大规模分布式训练和图形计算 科学快报 第2张

以工程科技教育行业为例,目前我国工程人才严重短缺。但工程科技门类多,知识体系复杂,知识点之间联系复杂,教材层次不同,导致自学门槛较高。而且学生背景不同,学习目的不同,也导致统一培训效率较低。OpenKS知识计算引擎包括知识提取算法API、知识表示学习API、分布式知识计算API和知识地图应用API,可以为工程科学和教育行业构建知识地图,并基于地图为不同学生设计个性化的教育路线,满足差异化学习的需求。

深度学习框架助力OpenKS智能化加速

知识地图技术的研发需要海量的数据、巨大的计算能力和复杂的模型算法,而知识地图底层平台的建设则要求技术要求高、周期长、投资大、收益慢。基于深度学习框架进行人工智能科学实验或产品研发,可以避免在知识地图系统的构建中重复构建轮子。

百度飞桨从2016年开始开源,是国内第一个自主研发、功能齐全、开源的行业级深度学习平台。基于百度飞桨平台,OpenKS可以实现模型的大规模分布式训练和图形计算,解决从数据到知识、从知识到决策三大问题。

飞桨帮助高校进行前沿科学研究 支持OpenKS的大规模分布式训练和图形计算 科学快报 第3张

飞桨帮助高校进行前沿科学研究 支持OpenKS的大规模分布式训练和图形计算 科学快报 第4张

http://www

面对超大规模的知识地图训练,随着地图比例尺和数据量的增加,对训练框架的要求越来越高。对于分布式知识计算,OpenKS系统采用飞桨超大规模深度学习模型训练技术,支持数百亿张地图的分布式存储和检索,支持数百个节点数据针对数万亿个稀疏参数的并行训练,从而学习大规模知识地图。

对于知识地图的应用,如知识问答,模型复杂,OpenKS采用飞桨集通信多机多卡训练;在知识推荐任务中,训练数据比较大,稀疏特征较多。OpenKS不仅使用了飞桨万亿稀疏参数服务器,还引入了纯GPU参数服务器来提高稀疏模型的计算性能。只能用100个CPU机训练的模型,只用一个多卡GPU设备就可以训练,既节约了成本,又保证了集群的稳定性和可扩展性。同时,在知识地图应用场景中,如知识地图问答和推荐,飞桨不仅提供了相应的算法,还为推荐场景提供了工业数据处理和万亿稀疏模型训练能力。

飞桨帮助高校进行前沿科学研究 支持OpenKS的大规模分布式训练和图形计算 科学快报 第5张

考虑到在纯GPU参数服务器下,当模型网络层复杂时,GPU利用率很难得到充分利用,飞桨框架2.0版创新性地引入了业界首个通用异构参数服务器功能,可以同时使用不同硬件进行混合异构训练。兼容多种CPU、AI专用芯片(如昆仑, XPU 百度)、GPU(如V100、P40、K40),允许用户在异构硬件集群中部署分布式训练任务,实现不同计算能力芯片的高效使用,为用户提供更高吞吐量、更低资源消耗的训练能力。

对于大规模密集参数模型,飞桨分布式训练技术也与业务紧密结合。通过模型并行策略、分组参数切片组合、流水线并行策略和数据并行策略的多层叠加,行业第一个4D混合并行策略诞生了。通过测试验证,创新性提出的4D混合并行策略的训练速度确实高于3D混合并行策略,进一步优化了训练性能和视频存储比,再次达到技术前沿。

飞桨助力OpenKS实现模型大规模分布式训练

针对图学习算法的通用性和性能的挑战,OpenKS将飞桨图学习PGL作为知识表示学习和知识存储的重要模块之一。在知识地图表示学习中,需要在线高性能的图形引擎查询,因此将面临大规模异构关系存储和在线高性能查询的问题。OpenKS使用PGL的大规模分布式异构图形引擎为知识表示学习提供在线服务,以支持不断增长的知识关系。

此外,高效的图神经网络算法也是先进知识地图的保证。PGL是业界第一个提出通用消息并行传输机制的图神经网络框架。它本身支持异构图形消息聚合和其他功能,并内置各种高效的图神经网络模型。因此,OpenKS项目集成了PGL的GCN、TransE、TransR等多种图形表示学习算法,采用PGL的高效消息传递接口作为图神经网络的编程接口之一。

飞桨帮助高校进行前沿科学研究 支持OpenKS的大规模分布式训练和图形计算 科学快报 第6张

2019年,百度飞桨深度学习平台开通分布式图形学习框架PGL,这是业内首个提出通用消息并行传输机制、支持数百亿规模巨图的工业级图形学习框架。对分布式图形存储和分布式采样的本地支持是图形学习的独特之处,可以方便地存储图形特征(如边特征等)。)在不同的服务器上通过上层Python接口,并且还支持通用的分布式采样接口。不同子图的采样是分布式的,分布式训练是基于PaddlePaddle Fleet API完成的,从而在大规模图学习的基础上加速计算

PGL是基于飞桨动态图新升级的,大大提高了易用性。它本机支持异构图,涵盖30种图学习模型,包括图语义理解模型ERNIESage等。经过大量实际工业应用验证,能够全程服务于工业应用项目,为开发者提供充分的实用案例投影进行技术选择。此外,基于飞桨深度学习框架的分布式Fleet API,可以建立分布式图形存储和学习算法,实现灵活高效的构建前沿大规模图形学习算法。

飞桨PGL助力OpenKS实现图计算

未来,在机遇与挑战并存的大背景下,飞桨将继续在技术上创新进步,探索分布式培训技术的边界,拓展AI赋能领域,与开发者共同成长进步,为产学研的智能化进程做出贡献

 展望

开放源码项目地址:https://github.com/ZJU-OpenKS/OpenKS

如果你想更多地了解飞桨,请参考以下文件。

飞桨官网地址:https://www.paddlepaddle.org.cn/

飞桨开源框架项目地址:

https://github.com/PaddlePaddle/Paddle捷信:

https://gitee.com/paddlepaddle/Paddle大街:号