| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 云计算>

阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022

2022-05-05 17:03 作者:Aaron 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间

近日,阿里云机器学习平台PAI与香港大学吴川教授团队合作的论文”Efficient Pipeline Planning for Expedited Distributed DNN Training”入选INFOCOM(IEEE International Conference on Computer Communications) 2022,论文提出了一个支持任意网络拓扑的同步流水线并行训练算法,有效减少大规模神经网络的训练时间。

作为分布式机器学习的一种主流训练方式,流水线并行通过同时进行神经网络计算与中间数据通信,减少训练时间。一个典型的同步流水线并行方案包含模型切分设备部署与微批量(micro-batch)执行调度两个部分。

以下的两个图给出了一个6层神经网络模型在4块GPU上进行同步流水线并行训练的示例。由图表1所示,模型被切分成三个片段,其中第二个片段由于其计算量较大,被复制到两个GPU上通过数据并行的方式训练。图表2表示模型的三个微批量的具体训练过程,其中,由于第二个片段以数据并行方法在GPU2和GPU3上训练,在全部微批量训练完成后通过AllReduce算子同步模型片段参数。

图表1模型切分设备部署

图表2微批量执行调度

然而,设计高效的流水线并行算法方案仍然存在诸多挑战,例如深度学习模型各异,每层的训练时间也不相同,因此难以找到最优的模型切分部署方案;当前的流水线并行算法局限于同质化的GPU间网络拓扑,而现实机器学习集群具有复杂的混合GPU间网络拓扑(例如,单个机器上的GPU可以通过PCIe或者NVLink连接,跨机通信可以基于TCP或者RDMA),导致现有方案无法使用等,以上问题导致实际训练中的GPU使用效率低。

针对以上难点,团队提出了一个近似最优的同步流水线并行训练算法。算法由三个主要模块构成:

1) 一个基于递归最小割的GPU排序算法,通过分析GPU间网络拓扑确定GPU的模型部署顺序,保证最大化利用GPU间带宽;

2) 一个基于动态规划的模型切分部署算法,高效率找到最优的模型分割与部署方案,平衡模型在每个GPU上的运算时间与模型切片间的通信时间;

3) 一个近似最优的列表排序算法,决策每个微批量在各个GPU上的执行顺序,最小化模型的训练时间。

从理论上对算法做出详尽分析,给出了算法的最坏情况保证。同时,在测试集群中实验证明团队的算法相对PipeDream,可以取得最高157%的训练加速比。

INFOCOM是计算机网络三大顶级国际会议之一,涉及计算机网络领域的各个方面,在国际上享有盛誉且有广泛的学术影响力。此次入选意味着阿里云机器学习平台PAI在分布式深度学习模型训练优化领域的工作获得国际学界的广泛认可,进一步彰显了中国在分布式机器学习系统领域有着核心竞争力。

阿里云机器学习PAI是面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,一站式的机器学习解决方案,全面提升机器学习工程效率。

【对“阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
头条
阿里云推出RDMA增强型等多款新品 人工智能场景性能提升30% 阿里云推出RDMA增强型等多款新品 人工智能场
2021年12月21日消息,阿里云发布多款基于自研神龙架构的弹性计算新品,包括RDMA增强型……
·谷歌如何在2030年之前全部使用无碳能源运作数
·苹果iCloud遭遇集体诉讼同意赔偿用户1480万美
·数据中心节能减排迫在眉睫,液冷技术与AI能效
·中国加快重点领域项目建设 打造10个国家数据
·阿里云推出RDMA增强型等多款新品 人工智能场
图文
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022
阿里云机器学习平台PAI与香港大学合作论文
Buff叠满!黑科技为联宝科技EA-B400保驾护航
Buff叠满!黑科技为联宝科技EA-B400保驾护
神策 2019 数据驱动大会举办,大数据行业矩变升级
神策 2019 数据驱动大会举办,大数据行业矩
新升级 联通智游文旅大数据平台一键搞定文旅问题
新升级 联通智游文旅大数据平台一键搞定文
热点
·神策 2019 数据驱动大会举办,大数据行业矩变
·读懂农业大数据 县域农业大脑AI挑战赛发布
·新升级 联通智游文旅大数据平台一键搞定文旅
·联通大数据“药品智慧监管追溯平台”亮相数字
·应对大规模数据集群治理,联通大数据这么做
旧闻
·联通云分布式云 加速算网一体实践(图)
·以开放应未来,新华三智能联接AD-NET引领开放
·阿里云推出“磐久”云原生服务器系列 能效和
·私有云市场进入上升期,极空间Z系新品诠释硬
·金山云亮相数博会,携手中科院软件所、拜特科
广告
硅谷精选
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM
Buff叠满!黑科技为联宝科技EA-B400保驾护航
Buff叠满!黑科技为联宝科技EA-B400保驾护航
特斯联与重庆市大数据发展局达成战略合作,加速重庆数智化升级
特斯联与重庆市大数据发展局达成战略合作,加速重庆数
联宝科技以边缘计算为“匙” 解锁智慧城市密码
联宝科技以边缘计算为“匙” 解锁智慧城市密码
拓展混合办公云边界 Poly博诣Studio X系列终端获腾讯会议认证
拓展混合办公云边界 Poly博诣Studio X系列终端获腾讯
融云首席科学家任杰:写在融云 8 周年
融云首席科学家任杰:写在融云 8 周年
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2021 硅谷网. 版权所有. All Rights Reserved. <备案号:京ICP备12003855号-2>