分享热点新闻
打造优质自媒体!

云人工智能芯片模式预计将被微软,·阿里和IPU改变:从图形处理器中迁移出来不那么困难

英伟达在云AI培训芯片市场的份额超过90%,这让新的竞争对手把枪口对准了这家广受欢迎的AI公司。据称,人工智能的性能比英伟达,的新图形处理器产品好得多,但它并没有真正突破英伟达的护城河

相比硬件性能超越英伟达,显然更难赶上软件生态。但微软亚洲研究院的NNFusion项目和阿里云的HALO开源项目都在努力降低从GPU迁移到新硬件平台台的难度和成本,另外,在几个重要的AI机型上性能超过英伟达最新A100 GPU的IPU,未来几年云AI芯片市场格局可能会发生变化。

云人工智能芯片模式预计将被微软,·阿里和IPU改变:从图形处理器中迁移出来不那么困难 科学快报 第1张

微软和阿里的云开源项目降低了迁移图形处理器的难度

目前AI的落地还是以互联网和云计算为主。因此,技术巨头们很快发现,迁移到新平台不能只看峰值计算能力。Graphcore高级副总裁兼中国,总经理卢涛,说:“当客户考虑购买一套新的台,软硬件平台时,他们首先考虑的是他们能获得多少收入。第二个考虑是要花多少钱,这就涉及到软硬件的迁移成本。”

GPU确实是技术巨头的不错选择,但是考虑到成本、功耗以及自身业务的特点,他们还是有动力去开发或者迁移到其他高性能芯片。此时,软件成为快速低成本迁移的关键。

在将现有AI模型迁移到新的AI加速器时,现在普遍的做法是在TensorFlow中编写一些后端集成的新硬件,这给社区和AI芯片公司带来了负担,也增加了迁移的难度和成本。

云人工智能芯片模式预计将被微软,·阿里和IPU改变:从图形处理器中迁移出来不那么困难 科学快报 第2张

微软亚洲研究院的NNFusion和阿里云的HALO开源项目都希望从AI编译的角度避免重复性的工作,让用户在GPU和其他AI加速器之间,尤其是GPU和IPU之间尽可能平稳的迁移。

云人工智能芯片模式预计将被微软,·阿里和IPU改变:从图形处理器中迁移出来不那么困难 科学快报 第3张

云人工智能芯片模式预计将被微软,·阿里和IPU改变:从图形处理器中迁移出来不那么困难 科学快报 第4张

也就是说,NNFusion和HALO跨AI框架而上,不仅可以集成TensorFlow生成的模型,还可以集成PyTorch或其他框架生成的模型。向下的用户只能通过NNFusion或者HALO的界面在不同的AI芯片上训练或者推理。

这种调度框架不仅可以降低迁移的难度和成本,还可以提高性能。根据2020年OSDI(计算机科学顶级学术会议之一)发布的研究成果,研究人员在英伟达和AMD的GPU上做了各种测试,还有Graphcore IPU,LSTM在IPU的训练模式改进了3倍。

当然,这些好处仍然需要开源社区和硬件提供商之间的密切合作,比如Graphcore与微软亚洲研究所和阿里云的合作。

增加搬到IPU的便利性

“我们与阿里云光环和微软核融合密切合作。这两个项目支持的最重要的平板台是GPU和IPU。”卢涛说,“目前阿里云HALO的GitHub中已经有了一个完整的IPU支持代码odla_PopArt,下载开源代码已经可以在IPU使用了。”

没有主流机器学习框架的支持,可以方便地使用IPU。Graphcore最近发布了本月针对IPU和白杨SDK 1.4的PyTorch产品版本。PyTorch是AI研究员社区最热门的机器学习框架,和TensorFlow是两个世界。

PyTorch对IPU的支持引起了机器学习大神Yann LeCun的注意。这种支持之所以引起广泛关注,是因为它对IPU的广泛应用具有积极意义。

云人工智能芯片模式预计将被微软,·阿里和IPU改变:从图形处理器中迁移出来不那么困难 科学快报 第5张

人工智能算法科学家、GraphCore 中国项目总工程师金琛,说:“在PyTorch的代码中,我们引入了一个叫做PopTorch的轻量级接口。通过这个接口,用户可以基于他们当前的PyTorch模型进行轻量级封装,然后可以在IPU和CPU上无缝运行这个模型。”

也可以更好的与HALO和NNFusion开源社区合作。金琛说:“不同的框架会有不同的中间表示格式,即IR(中间表示)。我们希望把不同的IR格式转换成我们通用的PopART计算图,这也是兼容性最关键的一点。”

据悉,IPU支持TensorFlow,就像TPU一样,通过TensorFlow XLA后端访问TensorFlow框架,相当于将一个TensorFlow计算图转换成XLA计算图,然后通过访问XLA计算图将其沉入PopART的计算图中,再通过编译生成可以在IPU执行的二进制文件。

金琛认为,“每个级别地图的转换是一个非常关键的因素,需要一些定制工作,因为一些通用算子也是基于IPU开发的,这是我们的特殊工作。”

除了增加对不同人工智能框架的支持和人工智能框架中的定制算子,还增强了对模型覆盖的支持并降低了迁移成本。

金琛介绍说,对于培训模型的迁移,如果是迁移一个不太复杂的模型,开发人员可以在一周内完成,而对于一个更复杂的模型,则需要两周时间。如果是迁移推理模型,一般只需要1-2天就可以完成。

IPU挑战GPU,云芯片市场还是变革

在AI时代,软硬件集成的重要性更加突出。卢涛说:“人工智能处理器公司大致可以分为三类。一个是在说PPT的公司,一个是有芯片的公司,一个是真正接近或者有软件的公司。”

软件上有进步的Graphcore,硬件的性能是否也能给用户足够的切换动力?本月,Graphcore发布了基于MK2 IPU的IPU-M2000的几种模型的训练基准,包括典型CV模型ResNet、基于包卷积的ResNeXt、EfficientNet、语音模型、BERT-Large等自然语言处理模型,以及MCMC等传统机器学习模型。

云人工智能芯片模式预计将被微软,·阿里和IPU改变:从图形处理器中迁移出来不那么困难 科学快报 第6张

云人工智能芯片模式预计将被微软,·阿里和IPU改变:从图形处理器中迁移出来不那么困难 科学快报 第7张

有一些很大的改进。例如,与A100 GPU相比,IPU-M2000的ResNet50吞吐量可提高2.6倍,ResNeXt101可提高3.6倍,高效网可提高18倍,深度语音3可提高13倍。

值得一提的是,IPU-波德64列车伯特-拉奇比台DGX-A100快5.3倍,比台DGX-A100快1.8倍。一辆IPU-POD64和三辆DGX-A100的动力和价格基本相同。

强调IPU在训练BERT-Large方面的成就,不仅因为这是继英伟达GPU和谷歌, TPU之后发布的第三款AI芯片,也因为BERT-Large模型对当前芯片落地的意义。

卢涛说:“今天,伯特大型模型是工业和研究的一个很好的基准,在未来至少一年内它将是一个在线模型水平。”

不过这个成绩目前还不是MLPerf发布的结果,正式结果需要等Graphcore明年上半年正式参加MLPerf性能测试。Graphcore最近宣布加入了MLCommons,MLPerf的管理组织。

“我认为我们加入MLCommons和提交MLPerf表明,IPU将处于GPU的核心领域和GPU的前沿PK,这表明IPU不仅可以做GPU做不到的事情,还可以在GPU最擅长的领域实现更好的TCO。性能相当甚至更好。”卢涛说。

微软亚洲研究院、阿里云和Graphcore都在一起把GPU推向IPU。什么时候破?