耗电又耗水,谁能拯救AI能耗之伤?

转载
523 天前
3393
AI梦工厂

文章转载来源:AI梦工厂

原文来源:陈根谈科技

图片来源:由无界 AI‌ 生成

今天,以ChatGPT为代表的AI大模型在给人类社会带来巨大变革的同时,也因为能耗问题饱受争议。

经济学人最新发稿称:包括超级计算机在内的高性能计算设施,正成为能源消耗大户。根据国际能源署估计,数据中心的用电量占全球电力消耗的1.5%至2%,大致相当于整个英国经济的用电量。预计到2030年,这一比例将上升到4%。

人工智能不仅耗电,还费水。谷歌发布的2023年环境报告显示,其2022年消耗了56亿加仑(约212亿升)的水,相当于37个高尔夫球场的水。其中,52亿加仑用于公司的数据中心,比2021年增加了20%。

面对巨大能耗成本,人工智能(AI)想要走向未来,经济性已经成为ChatGPT亟待解决的现实问题。而如果要解决能耗问题,任何在现有技术和架构基础上的优化措施都将是扬汤止沸,在这样的背景下,前沿技术的突破或是才破解AI能耗困局的终极方案。


人工智能正在吞噬能源


从计算的本质来说,计算就是把数据从无序变成有序的过程,而这个过程则需要一定能量的输入。

仅从量的方面看,根据不完全统计,2020年全球发电量中,有5%左右用于计算能力消耗,而这一数字到2030年将有可能提高到15%到25%左右,也就是说,计算产业的用电量占比将与工业等耗能大户相提并论。

2020年,中国数据中心耗电量突破2000亿度,是三峡大坝和葛洲坝电厂发电量总和(约1000亿千瓦时)的2倍。

实际上,对于计算产业来说,电力成本也是除了芯片成本外最核心的成本。

如果这些消耗的电力不是由可再生能源产生的,那么就会产生碳排放。这就是机器学习模型,也会产生碳排放的原因。ChatGPT也不例外。

有数据显示,训练 GPT-3 消耗了1287MWh(兆瓦时)的电,相当于排放了552吨碳。对于此,可持续数据研究者卡斯帕-路德维格森还分析道:“GPT-3 的大量排放可以部分解释为它是在较旧、效率较低的硬件上进行训练的,但因为没有衡量二氧化碳排放量的标准化方法,这些数字是基于估计。另外,这部分碳排放值中具体有多少应该分配给训练ChatGPT,标准也是比较模糊的。需要注意的是,由于强化学习本身还需要额外消耗电力,所以ChatGPT在模型训练阶段所产生的的碳排放应该大于这个数值。”仅以552吨排放量计算,这些相当于126个丹麦家庭每年消耗的能量。

在运行阶段,虽然人们在操作ChatGPT时的动作耗电量很小,但由于全球每天可能发生十亿次,累积之下,也可能使其成为第二大碳排放来源。

Databoxer联合创始人克里斯·波顿解释了一种计算方法,“首先,我们估计每个响应词在A100 GPU上需要0.35秒,假设有100万用户,每个用户有10个问题,产生了1000万个响应和每天3亿个单词,每个单词 0.35 秒,可以计算得出每天A100 GPU运行了29167个小时。”

Cloud Carbon Footprint列出了Azure数据中心中A100 GPU的最低功耗46W和最高 407W,由于很可能没有多少ChatGPT处理器处于闲置状态,以该范围的顶端消耗计算,每天的电力能耗将达到11870kWh。

克里斯·波顿表示:“美国西部的排放因子为 0.000322167 吨/kWh,所以每天会产生3.82吨二氧化碳当量,美国人平均每年约15吨二氧化碳当量,换言之,这与93个美国人每年的二氧化碳排放率相当。”

虽然“虚拟”的属性让人们容易忽视数字产品的碳账本,但事实上,互联网早已成为地球上最大的煤炭动力机器之一。伯克利大学关于功耗和人工智能主题的研究认为,人工智能几乎吞噬了能源。

比如,谷歌的预训练语言模型T5使用了86兆瓦的电力,产生了47公吨的二氧化碳排放量;谷歌的多轮开放领域聊天机器人Meena使用了232兆瓦的电力,产生了96公吨的二氧化碳排放;谷歌开发的语言翻译框架-GShard使用了24兆瓦的电力,产生了4.3公吨的二氧化碳排放;谷歌开发的路由算法Switch Transformer使用了179兆瓦的电力,产生了59公吨的二氧化碳排放。

深度学习中使用的计算能力在2012年至2018年间增长了30万倍,这让GPT-3看起来成为了对气候影响最大的一个。然而,当它与人脑同时工作,人脑的能耗仅为机器的0.002%。


不仅耗电,而且费水


人工智能除了耗电量惊人,同时还非常耗水。

事实上,不管是耗电还是耗水,都离不开数字中心这一数字世界的支柱。作为为互联网提供动力并存储大量数据的服务器和网络设备,数据中心需要大量能源才能运行,而冷却系统是能源消耗的主要驱动因素之一。

真相是,一个超大型数据中心每年耗电量近亿度,生成式AI的发展使数据中心能耗进一步增加。因为大型模型往往需要数万个GPU,训练周期短则几周,长则数月,过程中需要大量电力支撑。

数据中心服务器运行的过程中会产生大量热能,水冷是服务器最普遍的方法,这又导致巨大的水力消耗。有数据显示,GPT-3在训练期间耗用近700吨水,其后每回答20-50个问题,就需消耗500毫升水。

弗吉尼亚理工大学研究指出,数据中心每天平均必须耗费401吨水进行冷却,约合10万个家庭用水量。Meta在2022年使用了超过260万立方米(约6.97亿加仑)的水,主要用于数据中心。其最新的大型语言模型“Llama 2”也需要大量的水来训练。即便如此,2022年,Meta还有五分之一的数据中心出现“水源吃紧”。

此外,人工智能另一个重要基础设施芯片,其制造过程也是一个大量消耗能源和水资源的过程。能源方面,芯片制造过程需要大量电力,尤其是先进制程芯片。国际环保机构绿色和平东亚分部《消费电子供应链电力消耗及碳排放预测》报告对东亚地区三星电子、台积电等13家头部电子制造企业碳排放量研究后称,电子制造业特别是半导体行业碳排放量正在飙升,至2030年全球半导体行业用电量将飙升至237太瓦时。

水资源消耗方面,硅片工艺需要“超纯水”清洗,且芯片制程越高,耗水越多。生产一个2克重的计算机芯片,大约需要32公斤水。制造8寸晶圆,每小时耗水约250吨,12英寸晶圆则可达500吨。

台积电每年晶圆产能约3000万片,芯片生产耗水约8000万吨左右。充足的水资源已成为芯片业发展的必要条件。2023年7月,日本经济产业省决定建立新制度,向半导体工厂供应工业用水的设施建设提供补贴,以确保半导体生产所需的工业用水。

而长期来看,生成式AI、无人驾驶等推广应用还将导致芯片制造业进一步增长,随之而来的则是能源资源的大量消耗。


谁能拯救AI能耗之伤?


可以说,今天,能耗问题已经成为了制约AI发展的软肋。按照当前的技术路线和发展模式,AI进步将引发两方面的问题:

一方面,数据中心的规模将会越来越庞大,其功耗也随之水涨船高,且运行越来越缓慢。

显然,随着AI应用的普及,AI对数据中心资源的需求将会急剧增加。大规模数据中心需要大量的电力来运行服务器、存储设备和冷却系统。这导致能源消耗增加,同时也会引发能源供应稳定性和环境影响的问题。数据中心的持续增长还可能会对能源供应造成压力,依赖传统能源来满足数据中心的能源需求的结果,可能就是能源价格上涨和供应不稳定。当然,数据中心的高能耗也会对环境产生影响,包括二氧化碳排放和能源消耗。

另一方面,AI芯片朝高算力、高集成方向演进,依靠制程工艺来支撑峰值算力的增长,制程越来越先进,其功耗和水耗也越来越大。

那么,面对如此巨大的AI能耗,我们还有没有更好的办法?其实,解决技术困境的最好办法,就是发展新的技术。

一方面,后摩尔时代的AI进步,需要找到新的、更可信的范例和方法

事实上,今天,人工智能之所以会带来巨大的能耗问题,与人工智能实现智能的方式密切有关。

我们可以把现阶段人工神经网络的构造和运作方式,类比成一群独立的人工“神经元”在一起工作。每个神经元就像是一个小计算单元,能够接收信息,进行一些计算,然后产生输出。而当前的人工神经网络就是通过巧妙设计这些计算单元的连接方式构建起来的,一旦通过训练,它们就能够完成特定的任务。

但人工神经网络也有它的局限性。举个例子,如果我们需要用神经网络来区分圆形和正方形。一种方法是在输出层放置两个神经元,一个代表圆形,一个代表正方形。但是,如果我们想要神经网络也能够分辨形状的颜色,比如蓝色和红色,那就需要四个输出神经元:蓝色圆形、蓝色正方形、红色圆形和红色正方形。

也就是说,随着任务的复杂性增加,神经网络的结构也需要更多的神经元来处理更多的信息。究其原因,人工神经网络实现智能的方式并不是人类大脑感知自然世界的方式,而是“对于所有组合,人工智能神经系统必须有某个对应的神经元”。

相比之下,人脑可以毫不费力地完成大部分学习,因为大脑中的信息是由大量神经元的活动表征的。也就是说,人脑对于红色的正方形的感知,并不是编码为某个单独神经元的活动,而是编码为数千个神经元的活动。同一组神经元,以不同的方式触发,就可能代表一个完全不同的概念。

可以看见,人脑计算是一种完全不同的计算方式。而如果将这种计算方式套用到人工智能技术上,将大幅降低人工智能的能耗。而这种计算方式,就是所谓的“超维计算”。即模仿人类大脑的运算方式,利用高维数学空间来执行计算,以实现更高效、更智能的计算过程。

打个比方,传统的建筑设计模式是二维的,我们只能在平面上画图纸,每张图纸代表建筑的不同方面,例如楼层布局、电线走向等。但随着建筑变得越来越复杂,我们就需要越来越多的图纸来表示所有的细节,这会占用很多时间和纸张。

而超维计算就像给我们提供了一种全新的设计方法。我们可以在三维空间中设计建筑,每个维度代表一个属性,比如长度、宽度、高度、材料、颜色等。而且,我们还可以在更高维度的空间里进行设计,比如第四维代表建筑在不同时间点的变化。这使得我们可以在一个超级图纸上完成所有的设计,不再需要一堆二维图纸,大大提高了效率。

同样地,AI训练中的能耗问题可以类比于建筑设计。传统的深度学习需要大量的计算资源来处理每个特征或属性,而超维计算则将所有的特征都统一放在高维空间中进行处理。这样一来,AI只需一次性地进行计算,就能同时感知多个特征,从而节省了大量的计算时间和能耗。

另一方面,找到新的能源资源解决方案,比如,核聚变技术。核聚变发电技术因生产过程中基本不产生核废料,也没有碳排放污染,被认为是全球碳排放问题的最终解决方案之一。

2023年5月,微软与核聚变初创公司Helion Energy签订采购协议,成为该公司首家客户,将在2028年该公司建成全球首座核聚变发电厂时采购其电力。并且,从长远来看,即便AI通过超维计算灯实现了单位算力能耗的下降,核聚变技术或其他低碳能源技术的突破可以依然使AI发展不再受碳排放制约,对于AI发展仍然具有重大的支撑和推动意义。

说到底,科技带来的能源资源消耗问题,依然只能从技术层面来根本性地解决。技术制约着技术的发展,也推动着技术的发展,自古以来如是。