趋动科技:论软件定义GPU对AI数据中心优化的必要性
今天AI数据中心为企业提供了深度学习开发、测试和生产所需的软硬件环境。然而,GPU作为高价值硬件,却并没有做到像SDN网络、分布式存储一样的数据中心级统一运维、管理和使用。这导致了GPU当前在数据中心的尴尬现状:利用率低、成本高、分配和管理困难。
彻底解决这些痛点的方法需要借鉴软件定义存储解决存储问题、软件定义网络解决网络问题、用软件定义算力来解决GPU问题。采用软件定义算力理念的GPU池化技术,站在整个数据中心的高度,以GPU虚拟化为基础,突破了传统GPU虚拟化技术只能支持GPU共享的限制,融合了GPU共享、聚合和远程使用等多种硬核能力,打造全能型软件定义GPU。通过把物理GPU抽象成类似于分布式存储,可以通过网络在数据中心内全局统一运维和管理、任意使用的抽象资源,GPU池化技术解决了当前用户的痛点。正如当年软件定义存储刚出现的时候,有一种观点认为软件定义存储性能不如硬件存储,不适合重要应用,GPU池化技术推动的软件定义GPU也遭遇了同样的认识误区,一些片面的观点认为GPU池化技术会引入性能损失,不适合于深度学习。从技术的发展来看,深度学习能够、也应该拥抱GPU池化技术,二者应互相配合,才能为用户提供更适合云的解决方案。
随着深度学习如火如荼地在各企业的落地,很多企业都通过自建私有云或者使用公有云的模式,拥有了自己的AI数据中心,对内或对外提供深度学习的开发、测试和生产环境。在AI数据中心里,算力通常由GPU等加速芯片来提供。由于GPU成本很高,带GPU的计算资源和不带GPU的计算资源的成本相差很大,因此如何优化一个AI数据中心的运营是各个企业的基础架构部门、平台部门和应用部门特别关心的话题。
优化一个数据中心,首先看组成现代计算机系统的三大件:计算、网络和存储。现代的数据中心运营用软件定义网络(SDN)做网络资源抽象,用分布式存储做存储资源抽象。这些今天看起来顺理成章的技术,也曾经历虚拟网络不如物理网络性能高抖动小,分布式存储不如本地存储性能好延迟低且还浪费网络带宽的质疑。直到今天这些经过抽象后的资源性能仍然不如直接使用物理硬件,但是最后其征服整个业界的本质原因就是资源的全局统一运维、管理和使用。“计算“作为三大件之一也不例外。特定地,对于服务于深度学习的AI数据中心,“计算”更多地是围绕着GPU。对GPU资源做数据中心范围内的资源抽象,使其成为和SDN网络、分布式存储一样的全局统一运维、管理和使用的资源,是优化AI数据中心的必然思路,也是行之有效的方法。
AI数据中心的痛点
趋动科技已经服务于互联网、金融、教育、电信、交通运输等多个行业的头部客户。下面是我们看到的很多客户在运营AI数据中心中遇到的痛点:
1) GPU资源静态分配。各个小组/部门使用GPU的负载差异非常大,但是由于应用分管、组织架构等的原因GPU资源无法轻易在部门之间流动,造成GPU资源无法被高效利用。
2) 开发场景GPU利用非常低。在开发的过程中,程序员可能在写代码,可能在调试bug,甚至可能空闲了去干别的事情。这时候GPU资源大部分处于空闲,但是传统独占GPU资源的模式使得GPU资源无法给别人使用。而开发人员并没有主动释放资源的动力。
3) 开发场景GPU使用体验差。有部分企业通过任务提交系统一定程度解决开发场景GPU利用低的问题。但是这种模式下开发人员的体验差,他们需要保存环境、打包镜像、提交任务并且等待完成。这种模式会浪费比GPU更昂贵的深度学习算法工程师的时间和注意力。如果是在调试bug,这种模式对工程师是个噩梦。
4) 从应用侧看GPU资源不够用,从运维侧看GPU利用率低。独占GPU的模式使得宝贵的GPU资源很快就被各种场景分配出去了,应用方总抱怨GPU资源不够,但是平台方看GPU的利用率确实不高。
5) CPU、GPU的配比困难。服务器按批次采购,平台/运维要求机器的型号配置是相对固定的。但是应用的类型却多种多样,且未来还在不断变化,不同应用需要的CPU、GPU配比是不一样的。固定的配比容易造成资源的浪费。
6) 同一个任务负载存在波峰波谷、不同任务负载差异大两个复杂维度使得GPU的分配特别困难,难以高效使用。
从痛点可以看到,虽然实体上是一个数据中心的运营,但是一个企业的运营说到底是围绕着人、业务和企业制度来运作的。看一个技术对企业带来的价值,最终还需要体现到这几个方面。以数据中心云化为例,之所以其成为最佳的实践,是因为该技术对采购、运维、研发、生产、风控等整个链条的人和部门组织架构都产生了深刻的影响;对安全、可控、效率等业务需求和企业制度同样产生深刻的影响。
上面提到的痛点实际上很好涵盖了一个企业运作的多个方面。分析完客户实际中遇到的痛点,我们发现产生痛点的一个根本原因在于,GPU资源作为高价值的硬件资源,但却不具备像SDN网络、分布式存储那样数据中心级别的统一运维、管理和使用的一等公民身份。因此用户迫切需要一种技术来消除这种差距。
解决痛点的方向——GPU池化技术
彻底解决这一痛点的方法需要借鉴软件定义存储解决存储问题、软件定义网络解决网络问题、用软件定义算力来解决GPU问题。采用软件定义算力理念的GPU池化技术,站在整个数据中心的高度,以GPU虚拟化为基础,突破了传统GPU虚拟化技术只能支持GPU共享的限制,融合了GPU共享、聚合和远程使用等多种硬核能力,打造全能型软件定义GPU。
趋动科技的OrionX 产品是世界范围领先的数据中心级GPU池化软件,关注深度学习服务在企业内的全链条优化,通过先进的技术解决客户的实际痛点。
OrionX并非一个传统的GPU虚拟化软件。传统的GPU虚拟化只支持本地GPU共享,而OrionX可以把GPU当作像分布式存储那样作为全局统一运维、管理和使用的抽象资源,其能力是传统GPU虚拟化的超集,支持GPU共享、聚合和远程使用等多项硬核技术。
OrionX把物理GPU资源抽象成可以通过网络在数据中心内任意服务器都可以直接使用的通用资源,对软件保持近似于物理GPU的兼容性,支持常用的深度学习框架(TensorFlow, PyTorch,PaddlePaddle等),支持深度学习的训练/推理/未来更多计算模式,支持追求极致性能的手写CUDA代码的应用,可以充分利用成熟的深度学习的生态和社区力量。
OrionX支持开发、测试、生产各个环节,可以隔离,可以混合部署,保持统一使用模式,并且支持不同环节的不同优化策略。
OrionX支持本地共享/远程共享、本地独占/远程独占、跨物理节点多合一各种灵活的用法,支持动态配置资源,每一种功能都有实际对应的使用场景。
OrionX GPU资源池内的GPU算力即取即用,对其他上层软件保持资源管理的透明性,做到资源的有效利用。
OrionX对如何提供虚拟GPU,哪些底层细节需要隐藏,哪些真实参数需要暴露都有科学的考虑和设计,并留有丰富的接口和配置,允许平台层甚至应用层做定制化和优化,甚至二次开发,例如任务的排队、优先级的定义、亲和性等,甚至深度学习框架本身都可以利用OrionX GPU资源池提供的能力去做非常有用的优化。
OrionX GPU池化软件的效率
正如当年软件定义存储刚出现的时候,有一种观点认为软件定义存储性能不如硬件存储,不适合重要应用,GPU池化技术推动的软件定义算力也遭遇了同样的认识误区,一些观点认为GPU池化软件会引入性能损失,不适合于深度学习。针对深度学习的两类最重要的任务我们来分析这种观点的片面性:
训练任务
《Characterizing Deep Learning Training Workloads on Alibaba-PAI》[1] 分析了阿里一个训练集群上的负载特征(见下图):从任务数量上看,约59%的任务是单卡小任务;从GPU资源消耗上看,虽然81%的GPU是被分布式训练任务占用(单机多卡也算分布式),但是这其中有一半的资源是被小于8个GPU的任务所占用(1台物理服务器可满足);只有0.7%数量的任务是使用超过128个GPU(需要16台或更多物理服务器)。
这个分析表明,训练任务是非常多样化的,其规模有大有小。因此,整个数据中心的优化目标,应该兼顾训练任务的整体吞吐率,以及GPU资源的整体利用率。提升多个训练任务的整体性能,而非强调单个任务的性能,是实践中常见的选择,现在业内有非常多的研究工作都围绕此开展。深度学习框架是很多训练任务依赖的一类基础软件,其设计目标之一是提升单个训练任务的性能。GPU池化软件的目标是通过充分利用数据中心内所有GPU资源,从而达到多任务的整体最优。这二者不矛盾。框架和池化软件可以互相配合,在达成多任务整体最优的情况下,尽量让每个任务的运行更加优化。同时,GPU池化软件可以通过技术手段尽量减少自身引入的性能损失。例如,OrionX GPU池化软件对于典型的TensorFlow、PyTorch训练任务可以达到98%以上的效率,即和物理GPU相比小于2%的性能损失。在和框架做共同优化的情况下,性能损失还能更低。
推理任务
和训练任务动辄小时、天、甚至周量级的完成时间不同,推理任务的完成时间要低得多。典型的在线推理业务,端到端的延迟需求一般在数百毫秒级别,包括了客户端到运营商网络、运营商网络到数据中心以及在数据中心内做各种处理的时间。这类实时性要求高的推理任务,需要GPU池化软件引入的额外延迟非常小。下面是趋动科技的OrionX GPU池化软件在推理任务上引入的额外延迟的数据:
即便在最为苛刻的,延迟最低的batch size 1的推理测试中,使用本地物理GPU做一次resnet152的推理延迟为 13.3 毫秒,而使用OrionX GPU池化方案通过RDMA网络使用远程虚拟GPU,延迟为14.1毫秒。GPU资源经过OrionX GPU池化之后,带来的0.8毫秒的额外延迟仅占数百毫秒的业务要求不足1%。这个数据充分说明了,趋动科技的OrionXGPU池化软件引入的额外延迟非常小,足以支持高实时性的在线推理业务。
总结
AI无疑是一个火热的词汇,但是放在整个计算机领域,应用的重要性不改变其技术的本质,其从硬件到软件的设计思路并没有什么特殊的地方,没有哪个设计思路是计算机发展史上的新鲜事。经历行业长期实践经验,数据中心云化是大势所趋。一个应用要上云,不是让云来适应应用,而是应用必须要适应云,否则只能被更适应云的竞争者所替代。GPU池化软件把物理GPU抽象成类似于分布式存储的,可以通过网络在数据中心内全局统一运维和管理、任意使用的抽象资源,是AI业务上云的必然选择。今天认为GPU池化软件会引入性能损失,不适合于深度学习的看法,和当年认为软件定义存储性能不如硬件存储,不适合重要应用的看法一样,有着相似的片面性。深度学习能够,也应该拥抱GPU池化技术,二者互相配合,为用户提供更好的,更适合云的解决方案。
谈到应用和云,就不得不提“云原生”。这是另外一个有意思的话题。感兴趣请关注我们下一期的技术分享。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
精彩推送
- 趋动科技:论软件定义GPU对AI数据中心优化的必要性
- 专访三聚阳光总裁张建纲:打通知识产权服务“最后一公里”
- 科技创新为金融监管赋能-郑商所交割智慧监管平台落成
- 九十三度老白茶 | 怎样冲泡的白茶才更好喝?
- 15年IPO经验,企业上市引路人—资深上市专家、保荐人王作维
- 人民法庭引导依法制定村规民约 依法治理高价彩礼、干预婚姻自由
- 奥运赛场上出现“河南加油” 中国男子三人篮球队用胜利为河南加油
- 网上辱骂河南受灾群众 一女子受到公安机关查处
- 11点出结果!2021年郑州市区普通高中招生正式开始录取
- 郑州暴雨后电动车销售店门前旧车成排 修车店外修车排队
- 救援队呼吁网红和明星为救援让路 避免引起粉丝围观占据通道
- 卫辉积水问题两天解决 三天内全面解决
- “烟花”登陆带来新一轮大范围降雨 河南做好持续战斗准备
- 河南强降雨已致69人遇难 京广快速路隧道排查发现6名遇难者
- 悦合国际广场重整成功!绿庭投资2.5亿盘活超百亿债权
- 战略合作再升级,梯影传媒与叶茂中打造冲突营销百人课
- 科创板二周年报告 前沿生物将开启从1到10新征程!
- 九十三度老白茶 | 白茶存多久好喝?应该怎么存?
- 智盈大师容易操作,帮助股民玩转股市
- 助力年轻人“有思有为”,华夏银行信用卡斩获IAI金融营销奖2021金奖
- 三聚阳光受邀出席2021中国知识产权高峰论坛(CIPF)
- “夏季下饭王”花落谁家?中国劲酒与你一探究竟
- 上海市房地产交易中心进一步规范存量房房源核验及信息发布工作
- 厦门市存量非住宅类房屋临时改建为保障性租赁住房
- A股近50家上市房企披露半年业绩预告 近半中小型房企预告亏损
- 整机商“低价竞争”偏离风电行业应有的发力方向
- 光伏产业链部分厂家开工率降至50% 电池片价格已经开始出现下行趋势
- 海上风电场陆续到达使用年限 如何退役“难倒”多国
- 5月新能源乘用车批发销量达到19.6万辆 呈现强势增长的良好态势
- 芯片短缺的情形可能还会持续两年 全球“缺芯”加剧连锁反应渐显
- 出口货柜持续困扰着外贸企业 全球供应链畅通稳定运行面临巨大挑战
- 废旧电池回收行业进程加快 有效回收利用废旧磷酸铁锂电池成为业内不断探讨的话题
- 极统筹智能网联汽车产业发展与数据安全保护 加快推动行业数据分类分级建设
- 尽管FF的CEO急于将公司“翻篇” 但FF早已深深打下创始人贾跃亭的烙印
- 坚持把解决好“三农”问题作为全党工作重中之重 全面推进乡村振兴
- 自动化需求日益增强 机器人已经在全球范围内迎来爆炸式的发展
- 新兴产业快速发展有利于收入的回稳和提升
- 电力生产两年平均增长较为平稳 天然气生产增长较快
- 增强房地产调控协同联动 切实增加住宅用地和租赁住房用地供应规模
- 顶级医院100强出炉 专科建设和学术科研是影响顶级医院竞争力的重要因素
- 2021年各地关注稳定粮食种植面积、提高粮食单产和品质
- 2020年最具幸福感城市公布 ,拉萨、长沙第七次登上最具幸福感城市榜单
- 我国家庭呈现单身化趋势 “一人食”成为年轻群体主要就餐方式
- 2020中国城市夜经济十大影响力城市重庆获好评
- 发挥能源储备作用:加强储煤设施建设 提升电煤库存水平
- 2021年一季度电商零售行业投融资有两起投资事件达百亿以上
- 中国汽车产业进入结构调整关键时期 更加具备国际竞争能力
- 上半年快递业务量突破500亿件 各月增速均在20%以上
- 网约车补贴大战重启 正当消费者直呼“抓紧时间薅羊毛”
- 欧盟碳关税政策预计从2023年开始实行 将对温室气体排放量高的企业带来重大挑战
- 动力电池行业快速扩张 供应链安全成动力电池行业最大挑战
- 部分数据中心将其产生的余热直排 多种因素导致余热难回收
- 缺“芯”成中国汽车界的烦心事 中国汽车销量5月同比环比均下滑
- 从技术创新到产业链全局 激光设备行业亟须“破圈”
- 2021年全球汽车市场展望:缺芯将使2021年全球汽车净产量减少390万辆
- 铜价上涨或拉升绿电成本 铜供不应求的风险不断增加
- 人工智能的数据挖掘分析能力不断提升 发展面临哪些安全问题?
- 支撑高端制造 我国开发多种碳纤维复合材料
- 冷链物流爆发性增长之下头部集聚效应进一步凸显
- 我国茶叶消费市场的增长较为缓慢 运行态势总体趋于平稳
- 加大国内铁矿资源勘查开发力度 提高国产矿的自给率
- 全球海上工程施工能力并未跟上海上风电快速发展的脚步
- 通辽某风电场发生一起高空坠落事故 风电安全事故频发引发行业反思
- 进口木浆上涨上游企业涨价 造纸业亟待摆脱依赖进口的被动局面
- 长期处于盈亏线甚至亏损边缘 多晶硅价格一路看涨始终维持高位价格回到10年前
- 我国风电整机商正面临着新一轮“洗牌” 为抢占市场空间超预期降价
- 钢材现货和期货价格猛涨 国内造船业压力倍增
- 中国视听产品出口陷困局 上游材料和装备发展不平衡问题值得担忧
- 我国酶制剂在产量和消费量上增长速度快 全球实现规模化生产的酶制剂有60多种
- 我国外贸进出口总值连续13个月保持同比正增长
- 小浪底引黄工程全线贯通仪式在7号洞口举行 年总供水量逾两亿立方米
- 工业经济恢复发展韧性充分彰显 产业升级持续推进新动能加快培育壮大
- 家电市场品牌全球化的一个关键因素就是创造让全球消费者认知的品牌
- 我国煤炭上半年市场多维共振 价格呈“V”型走势
- 破解“芯”难题:加大车用半导体的技术攻关 打造中国汽车芯片创新生态
- 6月份我国经济保持稳定恢复 全社会用电量持续增长
- 2021年中经济进入收获期 二季度国内生产总值增长1.3%
- 前六月全国吸收外资6078.4亿元人民币 同比增长28.7%
- 推动绿色生产和运营 绿色发展是可持续发展的必要条件
- 2020年中国边缘云计算市场规模91亿元 预计到2030年市场规模接近2500亿元
- 开展国际消费中心城市培育建设 进一步扩大旅游文化体育健康养老教育培训等领域消费
- 6月70个大中城市商品住宅销售价格涨幅整体呈现稳中有落态势
- 韩国上半年计算机和计算机相关出口增长6.2% 达到73.1亿美元的历史新高
- 2021年上半年欧盟乘用车销量同比增25.2% 大多数国家强劲增长
- 我国经济结构调整进入收获期 财税政策支持高新技术产业发展的效果显现
- 国务院部署抓紧抓实防汛救灾工作 确保人民生命财产安全
- 上半年支撑工业经济持续稳定恢复的积极因素不断积累 经济恢复的可持续性进一步增强
- 加速培育竞争优势 稳步提高我国供应链现代化水平
- 中国人民银行发布2021年6月份金融市场运行情况
- 上半年楼市表现“亮眼” :信贷政策的回归正常 未来房价涨幅有望放缓
- 2020年中国境内137家乘用车企业共生产/进口乘用车1983.02万辆
- 来碗康师傅,让我们向着梦想前行
- 艺术照进生活 FAENZA进驻UCCA等全球30家艺术机构
- 艺术照进生活 FAENZA进驻UCCA等全球30家艺术机构
- 天神娱乐酝酿起诉前管理层 追责资产出售延误损失
- 扬红色精神,谱健康新篇 ,中宏生物大型公益活动圆满举行
- 汇聚人才 助力海归 2021“海智摇篮”顺利起航
- 新华财经|宜信公司创始人唐宁:“企、传、投”等企业家服务大有可为
- 恒指收跌0.13% 电池、汽车及有色金属板块涨幅居前
- 5000万保证金打水漂 官方决定取消宋都股份的竞得资格