| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 云计算>

Volcano:云原生高性能批量计算平台(图)

2021-12-07 16:26 作者:佚名 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

云原生时代,Kubernetes(K8s) 已经成为云原生应用编排、管理的事实标准,越来越多的应用选择向 Kubernetes 迁移。

在 CAE 仿真、动漫渲染、物理化学、石油勘探、生命科学、气象环境等需要进行大规模数据计算的领域,HPC(高性能计算) 作为传统的分布式计算模式,有着广泛的应用。在这些相关领域的从业者中,也有很多人希望能将 HPC 应用迁移到容器中运行,通过 Kubernetes 强大的功能来进行作业管理。开源的 Volcano 项目就是一个很好的解决方案。

Volcano 是一个基于 Kubernetes 的云原生批量计算平台,也是 CNCF 的首个容器批量计算项目,主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。它提供面向高性能负载的调度策略、完善的作业生命周期管理、异构硬件管理、面向高性能负载的性能优化等能力,目前在很多领域都已落地应用。

业界在使用一些计算框架进行大规模运算时,由于不同框架对作业管理、并行计算等要求不同,导致在高计算密度情况下,资源需求波动大,缺乏高级调度能力。同时也导致了后续部署运维复杂等问题。

Volcano 面向主流计算框架提供统一的批量调度平台,提高资源利用率。同时还提供通用的作业管理、队Fair-share,Gang ,bin-pack 、preempt、reservation等高级调度算法,简化运维管理。目前 Volcano 已经支持几乎所有的主流计算框架,包括 MindSpore、TensorFlow、Kubeflow、MPI、PyTorch、飞桨、Spark、Flink、HOROVOD 等。

Volcano 支持的部分计算框架

Volcano 整体架构

Volcano 利用声明式的 CRD 定义 API,主要有 3 个核心的 API:Volcano Job、PodGroup、Queue。

Volcano Job 是对高性能作业通用定义,PodGroup 提供了 Job 中 Task 的管理能力,Queue为作业排队、公平调度提供了基础。

Volcano 的架构

Volcano 核心组件主要包含三个:Admission、ControllerManager、Scheduler 。

Admission 对 Volcano CRD API 提供校验能力;

ControllerManager 负责对 Volcano CRD 进行资源管理;

Scheduler 对作业供丰富的调度能力。

Volcano区概况

Volcano 起源于 kube-batch 项目,这个项目最初的目的是解决 Kubernetes 中的分组调度问题。随着 AI 和大数据服务开始要求 Kubernetes 提供更强大、更灵活的调度,kube-batch 与各种场景特定的实践相结合,提供了更丰富的调度能力,同时增加了作业管理、数据管理、运行时管理、异构硬件管理等,形成了一个统一的批处理系统,并被重新命名为Volcano。2020 年 4 月,Volcano 项目由华为云正式贡献给 CNCF,成为 CNCF 迎来的首个容器批量计算项目。

在开源开放、厂商中立的社区治理下,目前 Volcano 在代码托管平台上已获得了 2k+ star,430+ fork,有 290+ 来自国内外的开发者参与代码贡献。Volcano 社区拥有 9位 Maintainer,12 位 Reviewer,有超过 50家业与科研机构参与项目合作,合作伙伴包括华为、腾讯、百度、爱奇艺、滴滴出行、京东、建信金融科技等。在未来,Volcano 将在企业数字化、云原生转型过程中发挥越来越重要的作用。

若想了解更多 Volcano 项目的技术原理与实践干货,敬请关注 12 月 9 日 - 10 日举办的 KubeCon + CloudNativeCon + Open Source Summit China 2021。届时将有来自华为云的资深云原生技术专家,为广大开发者带来精彩的 Volcano 技术分享:

 

 

议题:基于Volcano的离在线业务混部技术探索

演讲嘉宾:

王雷博/华为云批量计算服务架构师

吴雷/华为云原生开源团队核心成员&Volcano社区Maintainer

议题简介:为了保证服务SLA,集群需要大量冗余资源,这将导致集群资源利用率低下,资源浪费严重。为了提高资源利用率,Volcano将在线服务和离线批处理作业混合在同一集群上。kubelet使调度器感知到已分配资源和实际已有资源量的差距。Volcano还提供了资源超卖能力,可将已分配给低优先级作业的空闲资源加以复用。在操作系统维度,Volcano还通过cgroup提供任务隔离,以确保关键的在线服务QoS。

KubeCon + CloudNativeCon + Open Source Summit China 2021 由云原生计算基金会 CNCF 主办。作为云原生领域的顶级技术盛会,历年的 KubeCon + CloudNativeCon + Open Source Summit China 都汇聚了国内外最活跃的开源云原生社区、最先进的技术代表与行业的最佳落地实践,推动云原生计算领域的知识更新和技术进步。本届大会的议程安排已全面上线,更多详情请查看大会官网。

【对“Volcano:云原生高性能批量计算平台(图)”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
头条
阿里云深耕自研技术 发布倚天、磐久、神龙4.0等重磅产品 阿里云深耕自研技术 发布倚天、磐久、神龙4.0
硅谷网讯 ,2021年10月20日,2021云栖大会上,阿里云发布了倚天、磐久、神龙4.0、龙蜥……
·阿里云深耕自研技术 发布倚天、磐久、神龙4.0
·2021云栖大会|阿里云将加速数据中心清洁能源
·2021年第二季度全球云服务支出超过 470 亿美
·网贷再迎监管风暴 这次中枪的是大数据风控
·卧底大数据营销公司:起底“隐私背后的生意”
图文
Volcano:云原生高性能批量计算平台(图)
Volcano:云原生高性能批量计算平台(图)
引领变革,自由构建 实现现代化应用的规模化部署
引领变革,自由构建 实现现代化应用的规模
神策 2019 数据驱动大会举办,大数据行业矩变升级
神策 2019 数据驱动大会举办,大数据行业矩
新升级 联通智游文旅大数据平台一键搞定文旅问题
新升级 联通智游文旅大数据平台一键搞定文
热点
·神策 2019 数据驱动大会举办,大数据行业矩变
·读懂农业大数据 县域农业大脑AI挑战赛发布
·新升级 联通智游文旅大数据平台一键搞定文旅
·联通大数据“药品智慧监管追溯平台”亮相数字
·应对大规模数据集群治理,联通大数据这么做
旧闻
·UCloud优刻得荣获可信云超融合、混合云、政务
·全媒体融合标杆案例——黑龙江省哈尔滨新区大
·边缘计算领头羊云帆发布VDC+HEC架构:应对消
·云祺为巴西最大门制造商Pormade备份数据
·友盟+洞察:疫情期数据图表背后的七个方法、
广告
硅谷精选
Volcano:云原生高性能批量计算平台(图)
Volcano:云原生高性能批量计算平台(图)
引领变革,自由构建 实现现代化应用的规模化部署
引领变革,自由构建 实现现代化应用的规模化部署
云赋能 网极简 | 新华三Cloudnet助力中小企业数字转型迈入新一程
云赋能 网极简 | 新华三Cloudnet助力中小企业数字转型
万物互联时代的边缘计算 让CDN行业充满想象空间
万物互联时代的边缘计算 让CDN行业充满想象空间
CRI-RM 助力浪潮AIStation提升云原生工作负载性能
CRI-RM 助力浪潮AIStation提升云原生工作负载性能
有了这些云技术,能够再造一个《鱿鱼游戏》爆款?
有了这些云技术,能够再造一个《鱿鱼游戏》爆款?
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2021 硅谷网. 版权所有. All Rights Reserved. <备案号:京ICP备12003855号-2>