大干快上,大模型加速数据中心行业洗牌

转载
369 天前
2585
AI梦工厂

文章转载来源:AI梦工厂

原文来源:钛媒体

作者:张帅

图片来源:由无界 AI生成

大模型,是数据中心产业十年一遇的变革。

相比于以GPT为代表的大模型带来的现象级热度,数据中心产业太不「性感」了。长久以来,数据中心产业较为成熟,但是重资产、长周期、年折旧额高的属性,注定了它不是一门互联网式的快生意,也缺少激动人心的故事。

但不论是互联网,还是如今的大模型,数字世界都得依靠物理基础。简而化之,AI产业的最上层是各种应用,如人脸识别、工业大脑、智能客服,当然还有ChatGPT,支撑这些应用的则是云计算平台,承载了大模型和算力调度等软件功能,数据中心在更下一层,“风、火、水、电”基础设施,加上芯片、服务器等,海量数据的存储和计算都在此发生。

上层应用技术,直接影响底层数字基础设施,数据中心层级的变化往往容易被忽略,实际上,通信、互联网、云计算和大模型的发展,分别对应机房、数据中心、云数据中心、智算中心(AIDC)的不同形态,尤其是大模型代表的人工智能技术,可能比此前所有的影响加起来还要大。

中国信息通信研究院云计算与大数据研究所所长何宝宏表示,“今天的数据中心仍然是传统技术和创新技术混合,再过大概十年,我们会进入数据中心原生的时代,这些技术是土生土长专用于数据中心,比较有代表性的如液冷技术、智算中心的飞速发展。”

2023年,数据中心行业之间的交流频率明显多了起来,在产业变换的关键节点,一面是客户需求驱动下的“大干快上”,另一面则是未被厘清的新技术路线,大模型让数据中心厂商隐约嗅到了行业洗牌的味道。


“数据中心大干快上,就等GPU了”


过去一年,中国数据中心产业开启了一场算力进化的新征程,国家政策点名了方向。2023年10月份,工信部六部委印发《算力基础设施高质量行动计划》,首次提出了算力中心相关的概念和发展要求,将通用数据中心、智算中心、超算中心都纳入了算力基础设施的内涵。

其中明确到2025年,算力规模要超过300EFLOPS,智能算力占比达到35%以上,重点行业的核心数据、重要数据的灾备覆盖率要达到百分之百,每个重点领域要打造30个应用标杆等。

与此同时,数据中心全面智算化,截至2023年上半年,全国在用的数据中心总规模超过760万标准机架,算力总规模达到了197EFLOPS,已经位居全球第二。新增的算力设施中,智能算力的占比超过了50%,成为了增长的新热点。

根据科智咨询最新统计的数据,2023年1月份到12月份初,全国立项规划建设的智算中心的项目数量达到118个,其中规划算力大于1000P的项目16个,大于500P以上的26个,大于100P以上的项目56个。

而对于大部分数据中心服务商来说,今年的主旋律就是一边大干快上新建智算中心,一边等AI算力卡,更准确地说,是主要依赖GPU供应市场份额90%的英伟达,否则只能选择性能和产能不足的其他供应商。

数据中心服务的核心是服务器,其架构设计也是围绕服务器,当服务器发生任何一种变化,数据中心就要相应做出调整,结合客户预算和需求做兼容或创新的改变。大模型火爆之前,纯GPU服务器的数据中心很少,充其量就是大规模数据中心有少数几个GPU服务器机房,而且由于GPU的成本高昂,只有大型互联网等企业才有相应储备。

一位数据中心业内人士提到,“2023年是算力大元年,全行业都在抢GPU卡,而且是疯狂地抢,因为受到贸易政策的影响,现在进入到暂缓供应的阶段,目前大家还是在积极部署数据中心,预计未来一段时间行业会有非常大的发展空间。”

“理论上客户需求的紧迫性走在我们前面,但是客户也受限于上游GPU的供应,能不能按计划拿到足量的算力卡是关键。我们与算力客户先做算力中心规划设计,先把符合需求的算力中心楼建造出来,分阶段交付机电等,让客户有卡就能立马上架”,普洛斯数据中心平台产品部副总裁韩玉说。

韩玉透露,今年接到的需求中,超过七成以上都是智算中心的需求,由于大模型对算力的需求异常旺盛,大模型厂商对数据中心建设的时间表也一再压缩。

在2014年左右,云数据中心的建设从空地开始,到机电交付是11个月,在2019年,行业领先的水平大概能做到9个月左右,今天数据中心可以做到从空地开始建设,到测试完成上架大概在7个半月左右。

以普洛斯今年交付的某项目为例,该客户布局大模型之后需要自己的智算中心,4月下订单,8月底安装完,9月底做验收,10月份整个项目已经投入运营,数据中心整体建筑采用了大量预制模块,包括钢结构的预制楼、预制制冷模块、电力组合标准模块、预制机柜及通道密封预制化,从而实现快速交付。


大模型如何改变数据中心


为了满足大模型的训练需求,智算中心有几大明显的变化,首先是服务器和机柜功率显著提高,传统x86架构的通用计算服务器,标准形态是2U2节点或4节点,一台服务器功率600W—900W,四十多U的机柜空间里插12—15台服务器,其余部分是交换机、电源等模块。到了智算时代,一台GPU服务器八张GPU卡加两个CPU,至少10千瓦、12千瓦起步。

以前一台服务器里既有CPU,又有内存和硬盘,今天的GPU服务器更像一种纯算力的堆叠,在一定规模下,大模型训练效率随着GPU数量增加而提高,前提是网络时延足够低。

智算中心的第二大变化,便是短距离传输,降低网络时延。韩玉表示,通用服务器架构设计需要算力经网卡互联造成转换速率较慢,英伟达实现了CPU直连GPU的直接通信的架构设计,算力效率数量级提升,更高功率、更短距离、更低时延、更可靠的GPU互联,是大模型训练的基础。

“今天的智算业务集群里,网络成本超过20%,短距离高可靠性的低延时,是大家愿意投入去创新优化的环节,因为足够有性价比。”他说。

第三,目前智算中心还未完全定型,架构设计要具备高度兼容性。合盈数据CTO 周天宇提到,芯片、功率密度、风液混合,三者均存在变数,一个数据中心 的寿命如果以20年计,基础设施如何应对由于芯片,不同制冷方式带来的散热挑战,也是行业面临的共性问题。

周天宇说,美国芯片禁令一次次严峻,从V系列到A系列,再到H系列,加上国产芯片以华为为代表的昇腾910B,一纸禁令就可能导致某款芯片断货,数据中心要能兼容不同类型、不同品牌、不同系列的芯片,不同芯片的采用直接影响服务器的功率密度,而高功率密度呼唤更高效率的制冷方案。

前述人士认为,国外要封锁中国的AI算力,只能是短期封锁,国内一些集成电路厂商或者GPU厂商正在加速发展,大概需要1—2年的时间缓冲,原来数据中心适应的是国外GPU服务器,现在开始考虑适应国内GPU和CPU服务器,机遇远远大于挑战。

科华数据股份有限公司高级副总裁邹建忠也表示,机柜功率密度越大,芯片液冷散热的比重就会越高,结合南北方的天气因素,北方气候条件比较好,对液冷需求相对没那么高,南方则必须要有液冷,政策严格限制PUE在1.2到1.3左右,传统风冷方案远远没办法满足,只要功率密度上升,液冷是必经之路。

大模型训练消耗了高昂的电力成本,而推理对于算力的需求可能是训练的10倍。从电力成本的角度考量,无论是面向训练还是推理,行业内形成了基本共识,支持大模型训练的智算中心,大家基本上倾向于到相对偏远、电费比较低的地方,推理还是放在离城市比较近的区域,更多是环一线城市。

韩玉解释道,云计算中心的业务本身就需要很短的数据交互和灾备切换,大量业务在做实时计算,大模型所在的智算中心则不同,当一家大模型厂商有上亿用户,用户问的问题分类相同,推理和计算需求大致相同的基本都算过了,只需要很小的网络接入的服务就可以,计算和推理可以适度解耦,后台专注大模型大需求算力,前台推理分布布局。


新型智算中心的建设逻辑


“如果今天我们想做新一代的智算中心,一定不要想着‘穿旧鞋走新路’,一定要有新的思维、新的方法来应对智算中心的需求和发展。”周天宇道出了行业的集体思考。

智算中心的建设牵一发而动全身,十几兆瓦的传统数据中心,已经算大规模数据中心,有时需要一两年,甚至两三年才放满服务器,但是今天在建的智算中心,十几兆瓦是起步,算力集群规模越来越大,就算是七十兆瓦的智算中心,十几万张GPU就能吃光电力。

传统云计算中心承载的是同城两点之间可漂移的云业务,今天的算力集群完全不同,很多数据中心已经把网络连到了推算一体,单一数据中心体量特别大。

据悉,美国纯CPU的数据中心机柜在15千瓦左右,GPU机柜平均在25千瓦,国内很多大厂单个机柜的密度能上升到70—100千瓦,风液兼容是比较大的趋势。随着AIGC时代的到来,美国一个数据中心园区能达到200兆瓦—500兆瓦,单栋数据中心考虑到网络、GPU、光纤等因素,数十兆瓦规模更多。

“我们遇到最新需求是要在一个园区里直接做一个5万卡的大集群、60兆瓦的一个单体,跟云计算分成几个楼和若干集群是完全不一样的概念,结果就是单机功率很高,单元区越来越大。这时候优先需求维度是算力效率怎么最大化和算力最佳性价比,其次才是优化PUE。解决方案就是堆高功率密度和集中空间,结合最短光纤直连。所以智算时代,基础设施弹性就是最大的挑战。”韩玉说。

为了满足高密度兼容弹性需求,普洛斯智算中心的建筑模型在规划阶段,就把建筑外部空间到机柜内部空间,做成几个模式组合,比如说40个10千瓦或者10个40千瓦服务器,怎么在一个空间里承载,在更短距离实现收敛,同时兼容风冷和液冷的不同制冷方式,冷水系统也可做到全预制化,上下均可堆叠,液冷机柜可以前布线也可以后布线,并在建筑上方预留出制冷空间,解决风冷或者液冷的扩展问题。

邹建忠提到,板式液冷和浸没式液冷,是行业不同的创新方向,取决于现阶段客户评估的收益,过去的英伟达H800等芯片原生不支持液冷也就没有大批应用,如果新机房长期功耗特别大,浸没式液冷会更合适,但是如果从投资收益来看,前期投资太高,浸没式液冷的投资收益并不好。

钛媒体了解到,也正是因为成本高等原因,行业普遍倾向于用板式液冷作为过渡,目前20千瓦左右的机柜占主流,板式液冷能够较好满足散热需求,阿里云此前大力推进浸没式液冷,但从今年开始,加大了对板式液冷的投入,根本原因也是行业没有达成共识,阿里云自身要付出的成本高昂。

不过浸没式液冷依旧在小规模试验,例如,字节跳动在东南亚就采用浸没式液冷来保证服务器的稳定性,虽然单体功耗不高,但是东南亚气候炎热,浸没式液冷的投入产出比有所提高,板式液冷和浸没式液冷无所谓领先与否,还是要结合应用场景具体选择。

数据中心产业已经很久没有如此热闹,既有挑战封锁的跃跃欲试,也有迎接新技术浪潮的兴奋感,无可否认的是,未来很长一段时间,数据中心将被大模型重塑。