StabilityAI首席信息官:真正开放AI的转折点是现在

转载
725 天前
8578
奇幻空间

文章转载来源:奇幻空间

真正开源的人工智能才是未来,但是有些人试图将其扼杀在摇篮里,因为他们暗地里想把所有的力量都保留在自己手中。

来源:Future History

作者:Daniel Jeffries

编者按:本文作者Daniel Jeffries,是Stability AI(研发Stable Diffusion的公司) 的首席信息官。

我们正处于一个转折点。

在几十年的承诺从未兑现之后,人工智能终于从研究实验室中呼啸而出,进入了现实世界。它能预测每一种已知蛋白质的形状并革命性改变了药物发现方式。它在围棋和DOTA 2中获胜。在苹果手表上,人工智能可以发现潜在的心脏病发作风险,这样人们就可以在捂着胸口晕倒之前更早的去看医生。它在中国繁忙的公路和乡村道路上行驶,在旧金山,很快也会在其他地方行驶。

但即使有了所有这些突破,大多数最大和最重要的模型仍然是严格保密的,不惜一切代价被锁在紧闭的门后。我们可以读到关于最新、最大的超级模型和其惊人结果的论文,但我们自己不能使用完全的训练好的模型,无法下载它们的权重(weights)。我们最多只能使用受限的API,这些API几乎不暴露其功能,并极大地限制了我们可以使用它们做的事情。

但随着Stable Diffusion的发行,这一切都改变了,这是一款AI艺术生成引擎,在互联网上掀起了风暴。这是第一个以开源形式发布的真正先进的模型,该模型在超级计算机上使用4000个A100s芯片进行训练。

它标志着人工智能的下一个转折点:开放基础模型(foundation models)的时代。

现在,我们不再把这些强大的模型藏在少数强大的组织的墙后面,而是把最先进的模型交到每个人手中。它已经释放了前所未有的新创造力的爆发,几乎每天都有新工具问世。有如此多的工具和新的商业想法,几乎不可能跟上所有这些,还有大量潜在的商业应用程序,如可以推动医学研究的合成大脑扫描图像原型,按需的室内设计,令人难以置信的强大好莱坞风格的电影效果,视频游戏的无缝纹理,新型快速动画,可以推动大量新的流媒体内容,动态动画视频和书籍,概念艺术,应用于Figma和Photoshop的插件,以及更多。这一切都发生在一个月内。

该模型发布仅两周后,有进取心的程序员将模型与图像生成、面部平滑和提示分割结合在一个简单的UI中:

父亲们正在把简单的儿童绘画在几秒钟内变成杰作,向孩子们展示如果他们坚持画画和磨练自己的手艺,会有哪些可能。

(源代码)

其他公司则将Stable Diffusion与视频结合在一起,并将其与Ebsyth等其他工具结合在一起。真正的创新来自于开源,因为一个公司无法想象所有的可能性,除非人们能够真正接触到它,而不是只接触到一个被锁在门后的版本。

(源代码)

这只是冰山一角。我们发布游戏才一个月,就已经看到了惊人的反响。六个月或一年后会是什么样呢?

环境人工智能(Ambient AI)时代

Stability,我们认为只有当人工智能辐射到世界各地的人时,它才会真正实现变革。当一个人或几个人有智能手机时,这没有什么有趣的。只有当我们把10亿台智能手机连接在一起时,它才变得有趣。

是时候让我们往大的方面想了,想象一下我们可以在更大的范围内用这些模型做些什么,想象一下我们如何以一千种方式将基础模型编织到全世界的各种软件中去。

当基础模型无处不在时,一切都会改变。

想象一下这样一个世界:不久之后,基础模型即服务(FMaaS)将涌入我们生活的方方面面,并彻底改变工作和娱乐的方方面面。

设计师和动画师正在使用模型为他们正在创作的新电影和电子游戏生成数以千计的潜在概念。皮克斯、漫威和迪士尼的动画师与FMaaS公司合作,在他们的优秀概念艺术的私人数据集上微调模型,突然发现模型帮助他们的动画师走向了一个完全不同的方向。这导致他们的下一部电影成为历史上最卖座的电影,但三年后又以另一部人机混合电影再次登顶。

生物技术公司在蛋白质和化学相互作用的大量数据库中搜索,并迅速使用微调过的基础模型设计出20种潜在候选药物,以对抗最近在世界上某个地方突然出现的一种罕见的运动神经元疾病。

一位音乐家即兴创作了一首新歌,然后让模特们对副歌进行迭代。第17首很棒,音乐家演奏了它,然后做了一些调整,使它更朗朗上口。它在Soundcloud上大受欢迎。

材料科学家们正在设计新的材料,使一切都变得更坚固、更轻,从更容易弯曲的摩天大楼,到轻到可以扛在肩上、折叠整齐可以带上火车的电动自行车。

精英编码人员只是简单地告诉编码模型他们想让它做什么,它就会产生近乎完美的Python代码,但它也推荐Go的几个库,因为它会更快,更安全。它会自动进行语言间的翻译并进行测试。它与语言模型进化(ELM)和大型语言模型(LLM)相结合,这些模型帮助编码人员在一个模型从未通过快速迭代概念而训练过的领域创建全新的、以前从未想到的代码。

欢迎来到环境(ambient )AI时代。

内容是活着。它是交互的,迭代的,与我们共同发展的。

所有这一切都将发生,因为环境AI模型的巨大全球网络。人工智能无处不在,每个设备都在苏醒,变得越来越智能。一旦我们将智能工业化,它将在我们的工作和娱乐方式上引发一场革命。

但要成为现实,这个行业现在就必须做出改变。

首先,我们必须更加开放。

真正开放的人工智能时代

在Stability,我们正在重新开放AI。

我们从一开始就专注于开源战略。这与该行业迄今所采取的方法截然不同。虽然AI/ML中许多最重要和最强大的工具,如Pytorch和Tensorflow都是开源的,但我们已经看到,所有最强大的模型都是封闭和专有的。这与几十年前Linux第一次出现时的世界运行方式惊人地相似。

当我在20世纪90年代第一次在大学里看到Linux时,我知道我看到了一些全新的、不同的东西,一些激进的、奇妙的甚至危险的东西。危险是因为它拥有永远颠覆整个软件生态系统的力量,它确实做到了。那些大型的、封闭资源的强国感到了威胁。那时,红帽Linux还在弗莱电子(Fry’s Electronics)的盒子里出售,史蒂夫•鲍尔默(Steve Ballmer)称Linux为“癌症”。

想象一下,如果史蒂夫·鲍尔默(Steve Ballmer)赢得了这场战斗,摧毁了Linux?就连微软的云计算现在也主要是由Linux驱动的,所以他的短视和恐惧会毁掉自己公司的未来。

今天,开源是默认的。从网络后端到美国和世界上最强大的超级计算机,到你的手机,再到最尖端的人工智能应用程序,Linux为一切提供了动力。它为无数的工作岗位负责。它为雷达系统和核潜艇提供动力。每一项主要技术都是从开源开始的,无论是云计算、移动还是容器。如果你还年轻,刚刚进入科技行业,开源就像一棵树或一条河一样永远存在。你从来没有离开过它。Github和跨越世界的开发团队是常态,而不是例外。

Open是所有地方的默认值。

除了在AI /ML领域。

在Stability,我们认为这种情况必须改变。开源构建模型的工具是不够的,重要的是模型本身。

如果最强大的模型集中在一小群人手中,我们认为这对世界来说是一场灾难。即使是最优秀、最有创造力的公司也无法看到他们技术的所有可能用途。无论一个中心化的团队如何努力,他们的创造力永远无法与一个去中心化的团队相比。这就是“涌现”的力量,才华横溢、远见卓识的作家斯蒂芬·约翰逊在他的《Emergence: The Connected Lives of Ants, Brains, Cities and Software》一书中对此进行了概述。

历史就是这一真理的活生生的证明。以晶体管为例,它可能是模型世界中最重要的发明,因为它使微芯片成为可能,而今天微芯片在你的所有东西中,从你的汽车,到你的微波炉,到你正在阅读这篇文章的电脑或电话。

晶体管出自贝尔实验室,历史上最具创造力的公司之一。在《The Idea Factory》一书中,我们可以将贝尔实验室视为第一个真正的智库,它的利益波及到世界各地的相关领域。我们这个时代的许多最重要的发明都出自贝尔实验室的团队,比如信息论,它支撑着万维网和洲际通信的整个通信基础设施。

然而,即使是伟大的贝尔实验室也错过了晶体管的大部分最终用途。他们主要只是想要一种比真空管更有效的东西,在长途电话线上放大电子信号。他们从未预见到微芯片的到来。

是外部公司首先提出了微处理器以及如何扩大和发展它。这些公司(比如英特尔)拥有晶体管和贝尔实验室的全部血统,还有当今所有的手机公司、计算机公司和云计算公司。

在Stability,我们相信源源不断的创造力会让我们想出前所未有的创意。

朋克摇滚AI和评论角(Critics Corner)

当然,我们知道发布Stable Diffusion并不是没有争议的。

有些人害怕道德问题、深度造假(deep fakes)或表示问题(issues of representation)。我们也是,这就是为什么我们和Hugging Face团队合作,在革命性的OpenRAIL许可下发布它,禁止将模型用于非法目的和伤害他人。

违反这种许可的人应该为他们的行为付出代价。

但我们不会告诉菜刀制造商:除非他们能向我们保证不会有人用它来刺人,否则他们就不能生产刀具。绝大多数人都很好,会用它来切蔬菜,他们应该有切蔬菜的能力。这些模式应该掌握在多数人手中,而不是少数人手中。

我们也知道,如果允许社区接触到这种技术,开源工具将会进化出更好的措施来保护人们。并且使得这种技术不会因为恐惧而瘫痪,或者因为善意的立法者被闭源AI公司误导而立法消失。因为闭源AI公司在假装让AI民主化的同时,却在偷偷地为自己保留所有的蛋糕。

这就是为什么我们将赞助一系列竞赛,为模型提供最好的开源安全工具,我们将为此投入10万美元的奖金,所以请期待很快的公告。就像开源加密更好,因为与封闭系统相比,更多的人可以发现它的弱点,由社区进化的AI安全控制工具将比单个公司创造的任何东西都更强大、更健壮。

我们也听到了艺术家们的担忧,我们正在开发一个工具,让艺术家们选择不接受培训。你说,我们听。就这么简单。

当然,一些争议来自对人们失业的担忧,或者来自将人工智能视为弗兰肯斯坦(科学怪人)的持续叙述。几十年来,科幻小说中邪恶的人工智能走错了路,比如《HAL》、《终结者》和《机械姬(Ex Machina)》,助长了对人工智能的恐惧。官僚们撰写的政府报告也支持了这一观点,报告中使用了关于人工智能应用的虚构数字,而这些数字实际上还不存在。这些故事和报告基本上都是弗兰肯斯坦的翻版,作为一个科幻小说爱好者,我承认其中很多都很喜欢,但它们只是故事。

二十年后,我们会意识到他们的预测能力和人口炸弹(the Population Bomb)一样强,人口炸弹预测20世纪80年代将有10亿人饿死,因为我们永远无法找到养活所有人的方法。相反,我们发动了绿色革命(the Green Revolution),在接下来的30年里,我们把饥饿率降到历史最低。

人工智能将创造出一种全新的工作。我们很容易想象所有失去的工作,但人们很难看到新技术创造的所有工作。你如何向18世纪担心犁地的农民解释网页设计师的工作?你不能,因为它是建立在一系列技术的基础上,从电力,到电线,到电脑和互联网。

当然,有时旧工作确实会消失或改变,但它们会被一系列新工作所取代。过去,我们通过屠杀大量抹香鲸并从它们的头骨中提取油脂来照明世界,而不是使用电灯,但今天有多少人会主张恢复使用鲸鱼油蜡烛呢?

当照相机在19世纪突然出现时,艺术家们担心艺术的终结正在迅速到来。波德莱尔称摄影是“才华不足的失败画家的避难所”。人们担心照相机会破坏社会、文化和女性道德,以及其他事后看来很奇怪的担忧。回想起来,这些担忧总是很奇怪,因为生活从来都不是那样的。我们适应。我们改变。我们整合。这就是我们的工作。

摄像机怎么了?它将艺术家从对现实主义的严格关注中解放出来,并引发了印象派、立体主义和抽象艺术等现代艺术运动。

平心而论,相机最终确实取代了许多肖像艺术家,但随着时间的推移,相机带来了大量全新的工作,从自然和野生动物摄影师到电影编辑、电影摄影师等等。它创造了像电影和电影这样的全新产业。

对了,肖像艺术家们现在也在大举回归。看看这8位肖像艺术家的名单,他们改变了我们对肖像的看法。

当然,我在这里说什么对有些人来说并不重要。有些人只是想生气,决心不惜一切代价讨厌这项技术。五年后,这看起来就像讨厌Photoshop一样荒谬。人工智能只是另一种工具,它将被证明对大量人非常有用。

今天,在担心想象中的末日已经成为一种国际消遣,我们听到的是,这一次真的不同了。

这没有什么不同。

人类是适应性极强的生物。我们总是设法通过技术来改变,把它融入我们是谁,我们做什么,我们如何工作,这次我们还会这样做。这是因为技术并不存在于我们之外,它是我们的一部分,是我们的本质。

我们不会都靠基本收入过活不,不会在堆叠的《头号玩家》中,戴着VR头盔勉强维持悲惨的生活。

当涉及到艺术时,人们担心Photoshop和数字笔会破坏艺术。他们说用软件创作的艺术不是“真正的”艺术。现在一切又来了,保守者,愤怒有人凭借Midjourney赢得数字艺术竞赛,诽谤AI混合艺术家是假艺术家,诽谤开源AI模型是为了玷污和美化它们,以便闭源的AI公司能够牢牢控制未来。如果你攻击开源AI并要求集中控制,那么讽刺的是,你正在创造你所害怕的未来,在那里,一小群大型科技公司控制着你能用技术做什么和不能做什么。别上他的当。

当我在写关于AI艺术生成器的奇妙新世界以及为什么在Stable Diffusion正式发行前批评他们的人都错了的时候,我便看到了所有这些恐惧。但让我在这里尽可能清楚和简单地总结一下:

在Stability,我们制作的工具不是为了取代美工。我们爱艺术家。

我们为艺术家制作工具。

我想保护艺术家,因为我是艺术家。除了从事科技工作外,我的大部分生活都在写作。

但我的最爱是画画。作为一个孩子,它是我的整个世界,一个我可以逃避的地方,创造我梦想的风景。我喜欢画怪物、外星人和宇宙飞船,但在上世纪80年代和90年代初,当我还是孩子的时候,除了极少数人,比如龙地下城的先驱Larry Elmore或早期幻想艺术家Boris Vallejo和Julie Bell,这类绘画没有职业道路。那时,你要么进入美术行业,要么在广告行业工作,我决定我宁愿再也不画画,也不去做广告。所以我停止了画画。

我不相信宇宙会为我开辟道路。我没有看到互联网的兴起,也没有看到科幻和奇幻艺术、电子游戏和大片的爆炸式发展。还有另一个宇宙版本的我,我一直在画画,并愉快地以画怪物和科幻战斗盔甲为生,并且随着每一项新技术的出现,我迅速学会了使用Wacom屏幕和AI美术生成器等新工具。

最终,我学会了用文字画画,成为了一名作家,还有许多其他的终身追求。没有什么比每天写作更让我喜欢的了。

所以我明白了。我知道成为一名艺术家意味着什么,知道这对我的身份有多重要,知道坐下来写作能给我带来多少快乐,几个小时仿佛一秒一秒地过去。

我不允许我们创造工具来取代艺术家。这很简单,因为这对我很重要。相反,我们正在为艺术家们建立共同创作、共同合作的工具,这将释放一个全新的创意世界。正如彼得·蒂尔在《Zero to One》一书中所写的那样:“未来最有价值的公司不会问什么问题可以单独用计算机解决。相反,他们会问:计算机如何帮助人类解决难题?”

我们已经看到艺术家们在使用我们的工具。Stable Diffusion被集成到Figma和Photoshop中,还有很多其他的,我现在甚至无法跟踪它们。这就是开放的力量。我们正在开发工具,让概念设计师可以更换头盔、战斗盔甲和面孔。时装设计师将与Stable Diffusion一起迭代和共同创造,制作新的手套、帽子、裤子、西装和鞋子。

美术团队将联合Stable Diffusion 3D工具和画家,自定义内部工具。你会在动画工作室和电影工作室等地方找到它。而这仅仅是个开始。

对于那些认为“任何人都能做到”的人来说,他们会用低报酬的文字提示器取代所有的艺术家,这是大错特错的。当然,任何人都可以用文字创造新的图像,但这需要艺术家的感性来充分利用这些工具,以及对构图、主题、比例等的深刻理解。你认为除了出色的服装设计师,还有谁能在亚马逊上设计出令人难以置信的指环王新盔甲和服装的外观和感觉?你需要一个了解历史和幻想的人。我们将看到美工快速迭代这些工具,并在AI图像上作画,添加正确的感觉、比例和敏感性。

看看这个Reddit线程中艺术家的工作流程,使用一个高级的工作流程,当我们将Stable Diffusion编织到专业工具中时,这种情况会越来越多:

首先,艺术家做一个快速的草图:

然后,美工使用Stable Diffusion和img2img工具和一个提示(prompt)得到一个不同的版本。

现在,艺术家在Photoshop中对新图像进行绘制,以赋予它更多的感觉和深度。

最后,美工再次使用SD和img2img生成变体,然后在持续的创作循环中进行更多迭代。

如果你认为任何人都能完成这个工作流程,那说明你看得不够仔细。而说“任何人都能做”实际上只是表明了另一种担心,即人工智能工具将使艺术“技能化”,从而导致工资下降,这实际上只是担心人工智能将摧毁所有工作的另一种变体。

让我们明确一点:这些工具实际上需要熟练的艺术家。

他们不会取代艺术家。

他们将以全新的方式提升艺术工作流程。

所以感到兴奋。参与进来。加入我们的行列。与我们合作。艺术和艺术家不会离开。相反,我们会看到相反的喷发全新类型的艺术倒出来,新类型的油漆一样释放出不同种类的绘画,或新型金属给了我们不同的雕塑,或Photoshop的方式给了我们更多的液体平面设计,或数字电影编辑给了我们一千种的新方法去改变电影的外观和感觉,或相机给了我们新的方式去看世界,或者网络给了我们一个新的方式来分享我们的工作。

老的科技公司逐渐进化到不停地控制我们的注意力,通过不断地消耗静态内容,让一切都强迫性地上瘾。你甚至不知道自己为什么要查看智能手机,它只是偶尔出现在你的手里。当你高兴,难过,沮丧,生气的时候,它都在。

我们要建立一个充满活力,活跃,智能内容规则的世界,一个充满活力,你可以与之互动的数字世界,共同创造的内容,那是你的。

加入我们,你将不再只是在未来的网络上冲浪,被动地消费内容。

您将创造它。

相关链接:

Stability AI: https://stability.ai/