文章转载来源:AIcore
来源:量子位
AI算力从没有任何一个时刻,比现在更受瞩目。
大模型趋势发生以来,大模型的数量、规模,在短短几月内突增。
百亿千亿级别大模型飙升至数十个,万亿参数大模型已正式诞生。
在这样的量级变化下,算力需求呈现出剧烈变化。
模型层公司几乎在不计一切代价抢购算力服务,英伟达市值一度突破万亿美元,云计算市场被加速重塑……
毫无疑问,算力之于AIGC产业发展,是如同水电、石油一样的基础能源。
在AIGC时代序幕拉起后,该如何理解算力产业,就显得尤为重要。
企业需要怎样的算力?算力产业会因AIGC兴起发生哪些变革?当下算力市场构成究竟如何?
《AIGC算力全景与趋势报告》为此而来,帮助大家理解这些问题。
在报告中,量子位智库系统性解析了AIGC算力构成、产业链条,还进一步指出了AIGC算力的五新趋势及三大阶段发展预测。
核心观点包括:
具体细节,我们逐一来看。
分析当下产业现状来看,产业主体主要包括:
在计算类芯片中,目前业内有两种主流路线来满足AIGC产业的算力需求。
一种是以英伟达为代表的GPU路线,称为通用芯片。
另一种是以华为、寒武纪为代表的ASIC路线,称为专用芯片路线。
目前,这两种路线上汇集了不同类型的玩家,它们承担的计算任务也有区别。
通用芯片路线下,能够完成多样化计算任务,并且适合大规模并行计算。
即通用芯片(GPU)更适合AIGC目前所需算力。
专用路线的优势体现在特定场景中的更优能效比。由于专用芯片设计被用来执行专门或定制化任务,其在特定场景中能够达到相较于通用芯片更优的能效比和计算效率。
正因为专用芯片在特定场景中能够释放出更大的计算效率,其也成为互联网等云厂商自研芯片时选择的技术路线。
通常,互联网云厂商的自研芯片主要服务于自家产品,强调在自身生态中将芯片性能最大化释放。
AIGC对于高性能计算的需求,使得AI服务器成为服务器领域业务增长最快的细分种类。
大模型训练,例如GPT-3,需要大量的计算资源和内存,通常涉及使用数千甚至数万块GPU来加快训练速度。
由于这些计算对芯片性能要求非常高,需要使用专门的硬件和软件来支持大规模并行计算和高速数据传输。
AI服务器是专门为处理人工智能工作负载而设计的服务器,使用专门硬件加速器(如GPU、TPU等),以及高速网络连接和存储,以提供高性能计算能力。
相比之下,CPU(通用服务器)通常不能满足AIGC对极大算力的需求,其计算能力、内存和存储容量通常较低。另外,CPU通常不具备专门的硬件加速器,无法提供高速计算。
因此,大型模型训练需要依靠AI服务器集群来提供算力服务。
根据量子位智库的调研显示,今年AIGC爆发后,国产服务器厂商普遍业务增量在30%以上。
近日,TrendForce也将2022-2026年AI服务器出货量年复合增长率上调至22%。在AI服务器业务量激增的背后,最大的买家依然是互联网公司。
2022年,AI服务器采购占比中,字节跳动、腾讯、阿里巴巴、百度等大厂成为主要采购方。今年,大模型研发的火热更是带动下游互联网大厂购买需求,使其依旧是AI服务器最大的买方。
MaaS模式最早由阿里提出,随后互联网大厂、人工智能企业(如商汤)均已引入MaaS模式。
此外,互联网大厂、华为等企业已经将自研芯片用于MaaS底座构建中。
2023年,国内头部云厂商相继推出自己的MaaS平台,基于大模型基座,为计算资源有限、缺乏专业经验的企业提供一站式MaaS服务。
对于云厂商来讲,MaaS服务的主要目的在于帮助客户快速构建行业专属大模型。基于此,云厂商之间的竞争维度转变为算力基础设施、通用大模型能力、AI平台/工具能力。
从计算设备分布来看,在服务器和AI服务器市场中,北京、广东、浙江、上海、江苏位居前五,(服务器和AI服务器)市场份额总计分别达到75%和90%(2021年数据)。
从供给角度看,目前智算中心多分布在东部和中部省份,而AIGC业务需要处理海量数据导致东部算力资源成本过高。
将大模型训练等对计算要求高的任务移至西部地区,形成“东数西训”,能够有效降低成本,实现算网资源综合成本最优。
具体来讲,针对算力需求供需不平衡等问题,需要通过算力调度将东部的算力和数据处理任务转移至成本较低的西部地区。其中,优化东西部之间互联网络和枢纽节点间直连网络是提升算力调度水平的关键。
从需求角度看,AIGC算力需求主要来自于研发AIGC大模型的厂商,主要分布在京津冀地区、长三角及大湾区。
大模型趋势给算力提出新要求,催生底层硬件新转变。我们从芯片和服务器两个层面看起:
目前在高性能芯片中,英伟达A100占据绝对优势,而A100在中国只有存量没有增量,市场将给予国产GPU厂商更多机会。
此外,在芯片代工层面,目前7nm及以上制程没有对应的国产代工厂可以承接,GPU厂商多数选择成熟制程+先进封装的方案来实现较高的性能指标。
在服务器集群层面,通过多卡多机并行计算、高性能网络实现高性能计算。
由于英伟达构建的硬件产品+CUDA生态在10年内很难突破,未来在高性能GPU受限的情况下,分析师预计硬件层将会有两种主要解决方案,一种是发展GPU+片间互联技术,实现大规模并行计算。
另一种是跳出冯·诺依曼架构,发展存算一体架构,将计算单元与存储单元融合,实现数量级的计算能效提升。
软件层面,稀疏计算和构建高性能网络是目前两种解决方案。
稀疏化计算的创新体现在算法层面,通过删除无效或冗余的数据(此类数据通常数量庞大),大幅减少数据的计算量,从而加快计算速度。
构建高性能网络的目的在于减少大模型训练时长。通过构建高性能网络,为每个计算节点超高通信带宽,带来数倍通行性能的提升,从而缩短大模型训练时长。
AI大模型对算力需求呈指数级增长,使得具有更高配置的AI服务器成为AIGC算力的主要载体。
相比于传统服务器,AI服务器的计算、存储以及网络传输能力能达到更高的水平。
例如,NVIDIA DGX A100服务器 8 个 GPU+2 个 CPU 的配置远高于传统服务器 1~2 个 CPU 的配置。
在我国,智算中心是为人工智能(大模型)提供算力资源的公共基础设施平台,其算力机组以AI训练服务器和AI推理服务器为主。
随着大模型趋势演进,未来AI服务器的主要需求将从训练侧向推理侧倾斜。根据IDC的预测,到2026年,AIGC的算力62.2%将作用于模型推理。
更进一步,AI大模型趋势给算力行业带来全新机遇,新范式、新产品、新基建正在涌现。
MaaS(模型即服务)在算力、算法和应用层中嵌入大模型,以智能底座集成应用并统一对外输出。
MaaS的本质是将行业内通用的基础技术提炼整合成服务,满足各类应用场景需求。
在商业化过程中,大模型能力以及配套的中间件工具,会成为企业对于云计算厂商的新考量维度。
云计算服务能力的判别式从算力水平转向「云智一体」能力,在算力基础设施之外,核心竞争力转变为把算力、模型和场景应用打造成标准化产品的能力。
AI模型一体机将软硬件深度融合,根据企业不同需求,将对应的产品或解决方案提前部署在AI服务器上,打包形成一整套解决方案。
AI模型一体机的成本优势主要体现在以下三点:
算力租赁模式可以有效降低大模型研发门槛,对于研发垂类行业的小模型企业来说,没有购买足够AI服务器的实力,公共算力基础平台将帮助中小型企业搭建其自身所需模型。
企业无需购买服务器,通过浏览器便可访问算力中心,使用算力服务。
对于中小企业来讲,无需依赖云厂商所构建的大模型底座进行二次开发,而是通过租用公有算力平台的算力资源,研发垂类行业小模型。
综上,量子位智库对AIGC未来发展进行预测,可分为三个阶段:
目前AIGC模型层的企业多数处在预训练阶段,对于芯片的需求来源主要为GPU。
在初期阶段,高性能GPU厂商将成为最大收益方。
然而目前国产GPU厂商距离英伟达有较大差距,率先受益方为存量市场中的优势方。
因此,国产AI服务器厂商是此阶段的强势供给方。目前,国内在AI服务器领域已经出现供不应求的局面。
中期阶段(5年内),在算力层是一个由训练向推理倾斜的过程。
在此阶段,推理芯片将成为主要需求方。相比于GPU的高算力高功耗以及对应的算力浪费,推理芯片更注重芯片的算效比,对于功耗和成本有更优的把控。此外,这个阶段也会是创新型芯片的机会。
分析师预计存算一体芯片、类脑芯片、硅光芯片将有更多市场机会。
在推理阶段,相较于训练阶段的云计算,边缘计算将有更多机会。
首先,推理阶段对应的应用趋于多样化,多样化的需求使云计算会产生更多的算力浪费且计算效率不高。
其次,边缘计算能够为大模型推理提供足够算力。
在此阶段,AI服务器厂商的红利期逐渐见顶,需求将转向成本更低的通用服务器;芯片也从GPU转向NPU/ASIC/FPGA/CPU等多种形式并存。国产创新型芯片路线中,看好存算一体架构的发展。
芯片的底层创新优势开始显现,存算一体、光子芯片、类脑芯片等具备真正革新技术的芯片厂商在市场中的作用增强。
AIGC算力所需的芯片种类更加多元。
这个阶段的企业对算力的考量更加综合,不仅考虑算力大小,功耗和成本可能超过算力大小成为各模型层公司关心的指标。
点击下方链接:
来源:AIcore
发布人:暖色
声明:该文观点仅代表作者本人,不代表火讯财经立场。火讯财经系信息发布平台,仅提供信息存储空间服务。
如文章涉及侵权, 请及时致函告之,本站将第⼀时间删除⽂章。邮箱:840034348@qq.com