图灵奖得主LeCun:为什么未来几年AI更可能变得像狗一样聪明,而不是人类?

转载
413 天前
6496
AIGC

文章转载来源:AIGC

文章来源:机器之能

图片来源:由无界 AI生成

AI 正在超越人类。上周,英伟达 CEO 黄仁勋本在《纽约时报》年度 DealBook 峰会上宣称。

如果将通用人工智能 ( AGI ) 定义为能够以与人类智能「相当有竞争力」的方式完成测试的计算机,那么,「在未来五年内,我们将会看到这样的 AI 。」

话音落下不久,Meta 首席人工智能科学家、深度学习先驱、图灵奖得主 LeCun 就在公开场合反驳了黄仁勋的说法。

在上周纪念 Meta 基础人工智能研究团队( FAIR )成立 10 周年的活动中,LeCun 重申了他对 AI 在不久将来达到先进或人类水平智能的怀疑。

「我认识黄仁勋」,他说。「如果说 AI 是一场战争,他们就是在提供战争需要的武器。」很明显,LeCun 是指英伟达可以从 AI  炒作中赚取巨额利润。

「如果你认为 AGI 已经是大势所趋,你就必须购买更多的 GPU。」「只要 OpenAI 等公司的研究人员继续追求 AGI,他们就需要更多英伟达的芯片。」

LeCun 认为,未来几年,AI 更有可能变得像「猫」或「狗」一样聪明。

按照这个说法,即使最乐观地按边牧(目前最聪明的狗)来算,AI 也只有 6-8 岁孩子的智力水平。

按照这个预测,即使最乐观地按照边牧(目前最聪明的狗)来计算,也相当于6-8岁孩子的水平。

ChatGPT 对大型语言模型迷恋和倚重的出发点在于,研究人员相信被用来训练基础大模型的语言是一种非常特殊的信息来源。

与声音、光、震动等直接的物理信息不同,语言的信息异常密集,它以字节为单位,将人类对这个世界重要认知都编码进来,因此也是最为有效的数据之一。任何试图理解这个世界的智能体都希望更多地吸收语言。

「假如你想变得非常擅长预测下一个单词,真想做好的话,就得明白别人在说什么。这是唯一的办法。所以,通过训练一些东西,让它非常擅长预测下一个单词,你实际上是在强迫它理解。

深度学习之父 Hinton 在《纽约客》专访时解释过他为什么担心 AI 。系统学会了「自动补全」,「但你没有想清楚拥有一个真正好的自动补全意味着什么。」

比如,驱动 OpenAI 聊天机器人的 GPT 可以理解单词和想法的含义。他解释说,通过分析人类写作,像 GPT 这样的大型语言模型可以学习世界是如何运作的,从而产生一个能够思考的系统。

「这就像毛毛虫变成蝴蝶。」他比喻道,幼虫代表训练模型的数据,蝴蝶代表着从数据中创造的 AI 。

2018年图灵奖得主、Meta首席 AI 科学家 Yann LeCun

但 Le Cun 并不认同。「文本是一个非常糟糕的信息来源,」他解释说,人类可能需要 2 万年才能阅读完目前用于训练现代语言模型的文本体量。

「用相当于两万年的阅读材料来训练一个系统,它们仍然不明白,如果 A 和 B 相同,那么,B 和 A 也相同。」

目前,大家对语言模型和文本数据的关注,并不足以创造出研究人员几十年来一直梦想的那种先进的类人 AI 系统。

早在 6 月,LeCun 就在  Viva Tech 大会上就表达过类似的观点,像 ChatGPT 这样经过大型语言模型训练的 AI 甚至不如狗或猫聪明,它的能力是「有限的」。

他解释说,AI 接受过语言训练,所以能通过律师资格考试,但它不知道怎么把盘子放进洗碗机——这是 10 岁孩子都会的事。

这些系统仍然非常有限,它们对现实世界的根本现实没有任何了解,因为它们纯粹是接受大量文本的训练。他当时说道,「大多数人类知识与语言无关……因此 AI 无法捕捉到人类的部分经验。

在上周的10 周年纪念活动中,LeCun 重申,「还有关于这个世界更为基础性的东西,但这些模型没有通过它们得到训练。」

需要说明的是,LeCun 也声明自己并非怀疑论者, 「我总是说,人类水平 AI 可以在几十年内实现。」如果我认为不能在未来十年取得重大进展,我就不会有今天的成就。

但 LeCun  强调,实现这一点比大多数人想象的要难,并非 「指日可待」。

我所说的「并非指日可待」,是指「显然『不会在未来 5 年内实现』,这与 AI 行业许多人的看法相反。」

而且,他和 Meta 也不会用强化学习( RL )来解决这个问题。自监督学习( SSL )、世界模型和规划将是实现人类水平 AI 的关键。

因此,LeCun 和其他 Meta AI 高管一直在深入研究如何实现 transformer 模型的定制化,以处理各种数据,包括音频、图像和视频信息。

他们认为,这些 AI 系统越能发现这些不同类型数据之间可能隐藏的数十亿个相关性,越有可能实现更奇妙的壮举。

他们现在的一些研究包括人们戴上数字增强现实眼镜后,如何更好学习打网球的软件。比如,用户能够看到视觉提示,告诉他怎么正确握住球拍,完美摆动手臂。

驱动这类数字网球助手,需要各种 AI 模型——不仅需要处理文本和音频,还需要混合三维视觉数据。

这些所谓的多模态 AI 系统代表了下一个前沿领域,但它们的发展并不便宜。即便是 Meta 也需要 16,000 个 Nvidia A100 GPU 来训练 Llama 。

未来他们也要继续开发这些复杂的 AI 模型。对此,LeCun 表示 GPU 仍然是 AI 的黄金标准。不过,未来的计算机芯片可能不会被称为 GPU,他说。

「你将看到新的芯片,它们不是图形处理单元( GPU ),而只是神经的深度学习加速器(neural, deep learning accelerators)。」

参考链接
https://www.cnbc.com/2023/12/03/meta-ai-chief-yann-lecun-skeptical-about-agi-quantum-computing.html