| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 智能>

阿里云机器学习平台PAI论文训练框架Whale入选USENIX ATC'22

2022-07-12 15:40 作者:Aaron 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

近日,阿里云机器学习平台PAI主导的论文《Whale: Efficient Giant Model Training over Heterogeneous GPUs》,高效大模型训练框架Whale入选USENIX ATC'22。Whale通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练框架。

USENIX Annul Technical Conference (USENIX ATC),是计算机系统领域国际顶级学术会议 (CCF-A),自1992年举办第一届USENIX ATC会议以来,至今已成功举办30多届,在学术和工业界都有巨大的影响力。USENIX ATC2022将于2022年7月11日召开。此次入选意味着阿里云机器学习平台PAI自研的深度学习分布式模型训练系统达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。

Whale是阿里云机器学习PAI平台自研的高效、通用、硬件感知的大模型分布式训练框架,现已开源,开源后的名称是EPL(Easy Parallel Library)。Whale通过统一的策略抽象来实现各种分布式策略的表达,并通过硬件感知和自动计算图改写及优化完成高效的分布式模型实现。

随着模型参数规模飞速增长,模型效果也在逐步提高,但同时也为训练框架带来更大的挑战。当前的业界分布式训练框架只支持少量的并行策略,缺乏一个统一的抽象来支持所有的并行策略及其混合策略。同时实现复杂的并行策略需要大量的模型代码改造和对底层系统的理解,大大增加了用户的使用难度。由于集群中异构GPU计算能力和显存的差异,静态的并行化策略无法充分利用异构资源实现高效训练。

针对这些问题,Whale抽象并定义了两个分布式原语(replicate和split) 。用户可以通过在模型上添加几行原语标记,即来表达和转换各种并行化策略及其组合,极大降低了分布式框架的使用门槛。Whale runtime将用户的标记信息融合到计算图中,自动完成模型的并行化优化。同时Whale提供了基于硬件感知的自动化分布式并行策略,优化在异构GPU集群上分布式训练性能。Whale的设计很好地平衡了模型用户的干预和系统优化机会,让每一个算法工程师都能轻松高效训练分布式大模型任务。借助Whale,阿里达摩院M6模型使用512张V100 GPU在10天内即可完成10万亿多模态预训练模型。

Whale起源于阿里内部业务,在阿里内部已经支持图像、推荐、语音、视频、自然语言、多模态等业务场景。并且能无感支持模型规模横向扩展,最大完成了10万亿规模的M6模型训练。同时Whale已经集成在阿里云机器学习平台PAI中,大家可以在阿里云PAI平台上使用Whale。机器学习平台PAI是面向开发者和企业的AI工程化平台,提供了覆盖数据准备、模型开发、模型训练、模型部署的全流程服务。

Whale(EPL)开源地址(https://github.com/alibaba/EasyParallelLibrary),欢迎大家来试用和给出建议。

论文名称:Whale: Efficient Giant Model Training over Heterogeneous GPUs

论文作者:贾贤艳,江乐,王昂,肖文聪,石子骥,张杰,李昕元,陈浪石,李永,郑祯,刘小勇,林伟

开源链接:https://github.com/alibaba/easyparallellibrary

论文链接:https://www.usenix.org/conference/atc22/presentation/jia-xianyan

【对“阿里云机器学习平台PAI论文训练框架Whale入选USENIX ATC'22”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·阿里云机器学习平台PAI与华东师范大学论文入选SI
头条
微软宣布将停止销售基于面部图像猜测情绪技术 微软宣布将停止销售基于面部图像猜测情绪技术
微软当地时间周二宣布,将停止销售基于面部图像猜测人们情绪的技术,而且将不再提供不……
·微软宣布将停止销售基于面部图像猜测情绪技术
·深度学习撞墙?LeCun与Marcus到底谁捅了马蜂
·阿里AI再突破,新研究成果斩获国际顶会杰出论
·苹果前机器学习总监离职后重回谷歌旗下公司
·达摩院大模型M6突破10万亿参数,超大模型首次
图文
阿里云机器学习平台PAI论文训练框架Whale入选USENIX ATC22
阿里云机器学习平台PAI论文训练框架Whale入
脑虎科技:从0-1的探索 当脑机接口走过科学幻想之后
脑虎科技:从0-1的探索 当脑机接口走过科学
ZAO隐私风险 你的脸已经不仅仅是你的脸了
ZAO隐私风险 你的脸已经不仅仅是你的脸了
九号机器人,这次想用AI运载机器人送快递送外卖
九号机器人,这次想用AI运载机器人送快递送
热点
·AI又出了偏门应用:用算法“脱掉”女性衣服
·ZAO隐私风险 你的脸已经不仅仅是你的脸了
·美的AIR空间站|你用过能管理空气的空调吗?
·新橙派果汁机器人引爆中国独角兽孵化合作大会
·民宿房东的辛酸史 用安伴门锁实现了合规运营
旧闻
·邦盛科技中标华兴银行全行级实时智能平台项目
·Dynatrace人工智能帮助多数CIO解决企业云复杂
·70%主播用上了AI助手 天猫618直播黑科技曝光
·人工智能深度赋能金融 科技风口呼唤领军人才
·急先蜂外卖全国首创人工智能监管,守护食品安
广告
硅谷精选
阿里云机器学习平台PAI论文训练框架Whale入选USENIX ATC22
阿里云机器学习平台PAI论文训练框架Whale入选USENIX A
脑虎科技:从0-1的探索 当脑机接口走过科学幻想之后
脑虎科技:从0-1的探索 当脑机接口走过科学幻想之后
微软宣布将停止销售基于面部图像猜测情绪技术
微软宣布将停止销售基于面部图像猜测情绪技术
深度学习撞墙?LeCun与Marcus到底谁捅了马蜂窝
深度学习撞墙?LeCun与Marcus到底谁捅了马蜂窝
落户天津五年,一个“津漂”青年眼中的行业智能化巨变
落户天津五年,一个“津漂”青年眼中的行业智能化巨变
央视聚焦618物流配送,泰坦机器人探索室内外无人配送新模式
央视聚焦618物流配送,泰坦机器人探索室内外无人配送
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2021 硅谷网. 版权所有. All Rights Reserved. <备案号:京ICP备12003855号-2>