Transformer

2017年，《Attention is All You Need》首次引入了基于自注意力机制的Transformer架构模型，摆脱了传统RNN和CNN的束缚，通过并行处理的注意力机制，有效克服了长距离依赖的难题，并显著提升了序列数据处理的速度。Transformer的编码器-解码器结构和多头注意力机制在人工智能领域掀起了一场风暴，ChatGPT正是基于这一架构构建的。

黃仁勳等 | 2024.03.21

今天，我们邀请Tansformer的创造者们，来一起讨论未来生成式人工智能（GenAI）会将我们带向何方。

▲ 2024年GTC大会上，英伟达CEO黄仁勋以一种充满仪式感的方式邀请了Transformer的七位作者（Niki Parmar因故临时未能出席）参与圆桌论坛的讨论。这是七位作者首次在公开场合集体亮相。

今天坐到这里，请大家积极争抢发言的机会，在这里没有什么话题是不可以谈的，你们甚至可以从椅子上跳起来去讨论问题。让我们从最基础的问题谈起，你们当时遇到了什么问题，是什么启发你们去做Transformer？

Illia Polosukhin：如果你想要发布能够真正读取搜索结果的模型，比如处理成堆的文档，你需要一些能够迅速处理这些信息的模型。当时的递归神经网络（RNN）并不能满足这样的需求。

确实，那时候虽然有递归神经网络（RNN）和一些初步的注意力机制（Arnens）引起了关注，但它们仍然需要逐个单词地阅读，效率不高。

Jakob Uszkoreit：我们生成训练数据的速度远远超过了我们训练最先进架构的能力。实际上我们使用的是更简单的架构，比如以n-gram作为输入特征的前馈网络。这些架构至少在谷歌规模的大量训练数据中，由于训练速度更快，通常都能超越那些更复杂、更先进的模型。

那时候的强大RNN，特别是长短期记忆网络（LSTM），已经存在。

Noam Shazeer：看起来这是一个亟待解决的问题。我们在2015年左右就已经开始注意到这些Scaling law，你可以看到随着模型规模的增大，它的智能程度也随之提高。这里就像是世界历史上最好的问题，非常简单：你只是在预测下一个token，它就会变得如此聪明，能够做一百万个不同的事情，你只是想扩大规模并让它变得更好。

而一个巨大的挫败感在于，RNN处理起来实在是太麻烦了。然后我偶然听到这些家伙在讨论，嘿，让我们用卷积或者注意力机制来取代它。我心想，太好了，我们就这么干。我喜欢把Tansformer比作是从蒸汽机到内燃机的飞跃。我们本可以用蒸汽机完成工业革命，但那将会非常痛苦，而内燃机让一切都变得更好。

Ashish Vaswani：我在研究生时期就开始体会到一些苦涩的教训，尤其是在我从事机器翻译工作的时候。我意识到，嘿，我不会去学习那些复杂的语言规则。我认为梯度下降（Gradient Descent）——我们训练这些模型的方法——是一个比我更出色的老师。所以我不会去学习这些规则，我只会让梯度下降（Gradient Descent）为我完成所有工作，这就是我的第二个教训。

我从这些苦涩的教训中学到的是，那些可以扩展的通用架构最终将在长期中胜出。今天可能是token，明天可能就是我们在计算机上采取的行动，它们将开始模仿我们的活动，并能够自动化我们所做的许多工作。正如我们所讨论的，Transformer特别是其自注意力机制，具有非常广泛的适用性，它也让梯度下降变得更好。另外就是物理学，因为我从Noam那里学到的一点是，矩阵乘法是个好主意。

Noam Shazeer：这个模式一直在重复出现。所以每一次当你添加一堆规则时，梯度下降终将比你更擅长学习这些规则。就是这样。就像我们一直在做的深度学习一样，我们正在构建一个形状像GPU的AI模型。而现在，我们正在构建一个形状像超级计算机的AI模型。是的，超级计算机现在就是模型。是的，这是真的。是的。超级计算机只是为了让你们知道，我们正在构建超级计算机，使其成为模型的形状。

所以你们要解决什么问题？

Lukasz Kaiser：机器翻译。回想五年前，这个过程似乎非常艰难，你得搜集数据，可能进行翻译，但结果可能只是勉强正确。那时的水平还很基础。但现在，这些模型即使没有数据也能学会翻译。你只需提供一种语言和另一种语言，模型就能自行学会翻译，这种能力就像自然而然地涌现出来的，而且效果令人满意。

Llion Jones：但是，“Attention”的直觉就是你所需要的。所以我想出了这个标题，基本上发生的事情就是在我们寻找标题的时候。

我们只是在做消融，开始把模型的一些碎片扔掉，只是为了看看它会不会变得更糟。令我们惊讶的是，它开始变得更好。包括像这样扔掉所有的卷积效果要好得多。所以这就是标题的来源。

Ashish Vaswani：基本上有趣的是，我们实际上是从一个最基本的框架开始的，然后我们添加了东西，我们添加了卷积，我猜后来我们又把它们去掉了。还有多头注意力等其他很多非常重要的东西。

谁想出了Transformer的名字？为什么叫Transformer？

Jakob Uszkoreit：我们喜欢这个名字，我们只是随便起了一个名字，觉得它很有创意，改变了我们的数据生产模式，使用了这样一种逻辑。所有的机器学习都是Transformer，都是颠覆者。

Noam Shazeer：我们之前没有想过这个名字，我觉得这个名字特别简单，很多人都觉得这个名字特别好。我之前想过很多的名字，比如Yaakov，最终确定了“Transformer”，它描述了模型的原理，它实际上转换了整个信号，按照这个逻辑，几乎所有的机器学习都会被转换。

Llion Jones：Transformer之所以成为这样一个人们耳熟能详的名字，不仅仅是因为翻译的内容，而且是因为我们希望以一种更概括的方式来描述这种变革。我不觉得我们做得多么出色，但是作为一个变革者，作为驱动和引擎，它是有逻辑的。大家能够了解到这样一种大语言模型、引擎和逻辑，从架构上而言，这都是一个比较早的着手时期。

但是我们确实意识到，我们实际上是在尝试创造一些非常非常通用的东西，它真的可以将任何东西变成其他任何东西。而且我不认为我们预测到当Transformer被用于图像时，这实际上会有多好，这有点令人惊讶。这对你们来说可能是合乎逻辑的，但事实上，你可以将图像分块并标记每个小点，对吧。我认为这在建筑上很早就存在了。

因此，当我们构建张量到张量库时，我们真正关注的是扩大自回归训练的规模。这不仅仅是语言，还有图像、音频的组件。

所以卢卡什（Lukasz）说他正在做的是翻译。我想他是低估了自己，所有这些想法，我们现在开始看到这些模式结合在一起，它们都加入了模型。

但实际上，一切都很早就存在了，这些想法正在渗透，这需要一些时间。卢卡什（Lukasz）的目标是我们拥有所有这些学术数据集，它们从图像到文本，从文本到图像，从音频到文本，从文本到文本。我们应该对一切进行训练。

这个想法确实推动了扩展工作，最终成功了，它是如此有趣，以至于我们可以将图像翻译成文本，将文本翻译成图像，翻译文本到文本。

你正在用它来研究生物学，或生物软件，它可能类似于计算机软件，它以程序的形式开始，然后你将其编译成可以在GPU上运行的东西。

一个生物软件的生命始于某些行为的规范。比如说，你想打印一个蛋白质，就像细胞中的特定蛋白质一样。然后你学会了如何使用深度学习将其转化为RNA分子，但实际上一旦进入你的细胞，表现出这些行为。所以这个想法真的不仅仅是翻译成英语。

你们是否创建了一个大型的实验室来生产所有这些？

Aidan Gomez：大量可用，实际上仍然公开，因为这些数据通常仍然主要由公共资助。但实际上，你仍然需要数据来清楚地说明你正在尝试的现象。

尝试在给定的产品中进行建模，比如说蛋白质表达和mRNA疫苗之类的东西，或者是的，在帕洛阿尔托，我们有一大堆机器人和穿着实验室外套的人，既有学习研究人员，也有以前是生物学家的人。

现在，我们认为自己是新事物的先驱，致力于实际创建这些数据并验证设计这些分子的模型。但最初的想法就是翻译。

最初的想法是机器翻译，我想问的是，在架构的强化和突破中，看到的关键节点是什么？以及它们对Transformer的设计有什么影响？

Aidan Gomez：一路走来，你们都看到了，你认为在基础Transformer设计之上真的有很大的额外贡献吗？我认为在推理方面，已经有大量的工作来加速这些模型，使它们更有效率。

我仍然认为这有点让我感到不安，因为我们的原始形式是多么相似。我认为这个世界需要比Transformer更好的东西，我想我们在座的所有人都希望它能被某种东西所取代，将我们带到一个新的性能高原。

我想问在座的每个人一个问题。你认为接下来会发生什么？就像这是令人兴奋的一步，因为我认为它与6-7年前的东西太相似了，对吧？

Llion Jones：是的，我想人们会惊讶于你说的相似程度，对吧？人们确实喜欢问我接下来会发生什么，因为我是这篇论文的作者。就像魔法一样，你挥动魔法棒，下一步会出现什么？我想指出的是，这个具体的原理是如何被设计的。我们不仅需要变得更好，我们需要变得明显地更好。

因为如果它只是稍微好一点，那么这还不足以将整个人工智能行业推向新事物。因此，我们被困在原始模型上，尽管从技术上讲，它可能不是我们现在拥有的最强大的东西。

但是每个人都知道自己想要什么样的个人工具，你们想做更好的上下文窗口，你们想要更快地产生token的生成能力。好吧，我不确定你是否喜欢这个答案，但他们现在使用了太多的计算资源。我认为大家做了很多浪费的计算。我们正在努力提高效率，谢谢。

我觉得我们是让这一切更加有效，感谢！

Jakob Uszkoreit：但我觉得这主要是关于如何分配资源，而不是一共消耗了多少资源。比如我们不希望在一个容易得问题上花太多钱，或者在一个太难的问题上花太少而最终得不到解决方案。

Illiya Polosukhin：这个例子就像2+2，如果你正确地将他输入到这个模型中，它就会使用一万亿个参数。所以我认为自适应计算是接下来必须出现的事情之一，我们知道在特定问题上应该花费多少计算资源。

Aidan Gomez：我们知道目前计算机的生成能力有多少，我觉得这是接下来需要集中注意力的问题，我觉得这是宇宙级的变革者，这也是未来的发展趋势。

Lukasz Kaiser：这种概念在Transformer之前就存在了，它被整合进了Transformer模型中。实际上，我不确定在座的各位是否清楚，我们在最初的目标上并没有成功，我们开始这个项目的初衷是想要模拟Token的演化过程。它不仅仅是线性的生成过程，而是文本或代码的逐步演化。我们进行迭代，我们进行编辑，这使我们有可能不仅模仿人类如何发展文本，还能将他们作为这一过程的一部分。因为如果你能像人类那样自然地生成内容，他们实际上就能够提供反馈，不是吗？

我们所有人都研读过香农的论文，我们最初的想法是，只专注于语言建模和困惑度，但事实上这并没有实现。我认为这也是我们能够进一步发展的地方。这也与我们现在如何智能地组织计算资源有关，这种组织方式现在也适用于图像处理。我的意思是，扩散模型具有一种有趣的特性，它们能够通过迭代不断地精炼和提升质量。而我们目前还没有这样的能力。

我的意思是，这个根本性问题：哪些知识应该内置于模型之中，哪些知识应该置于模型之外？是使用检索模型吗？RAG（Retrieval-Augmented Generation）模型就是一个例子。同样地，这也涉及到推理问题，即哪些推理任务应该通过外部的符号系统来完成，哪些推理任务应该直接在模型内部执行。这在很大程度上是一个关于效率的讨论。我确实相信，大型模型最终会学会如何进行2+2这样的计算，但如果你要计算2+2，却通过累加数字来进行，那显然是低效的。

如果AI只需要计算2+2，那么它应该直接使用计算器，用最少的能量来完成这个任务，因为我们知道计算器是做2+2计算的最有效工具。然而，如果有人问AI，你是如何得出2+2的决定的？你知道2+2是正确的答案吗？这将耗费大量的资源？

Noam Shazeer：确实如此。你之前提到过一个例子，但我同样确信在座的各位所研发的人工智能系统都足够智能，能够主动使用计算器。

目前全球公共产品（GPP）正是这样做的。我认为当前的模型太过经济实惠，规模也还太小。它之所以便宜，是因为像NV这样的技术，感谢它的产出。

每次操作的计算成本大约是10到18美元。或者说，大致在这个数量级。感谢您创造了如此多的计算资源。但是，如果你观察一个拥有五千亿参数的模型，并且每个token进行一万亿次计算，大概是一美元百万token，这比外出购买一本平装书并阅读的成本要便宜100倍。我们的应用程序在价值上比巨型神经网络上的高效计算高出百万倍或更多。我的意思是，它们无疑比治愈癌症等事情更有价值，但不仅如此。

Ashish Vaswani：我觉得让世界更聪明，就是指如何去获得来自于世界的反馈，我们能否实现多任务、多线的并行。如果你真的想构建这样一个模型，帮助我们设计这样一个模型，这是一种非常好的方式。

能快速分享一下你们为什么创办你们的公司吗？

Ashish Vaswani：在我们公司，我们的目标是构建模型并解决新的任务。我们的工作是理解任务的目标和内容，并随着这些内容的变化来满足客户的需求。实际上，从2021年开始，我发现模型最大的问题在于，你不能仅仅让模型变得更聪明，你还需要找到合适的人才来解读这些模型。我们希望让这个世界与模型相互交融，使模型变得更加庞大和卓越。学习过程中需要取得一定的进展，最初在实验室的真空环境下是无法完成这些工作的。

Noam Shazeer：在2021年，我们共同创立了这家公司。我们拥有如此出色的技术，但这项技术并没有惠及很多人。想象一下，如果我是一个病人，听到你这样说，我会觉得有数百亿人他们需要完成不同的任务。这就是深度学习的意义所在，我们通过对比来提升技术。实际上，由于技术的不断发展，得益于黄仁勋的推动，我们的终极目标是帮助全世界的人们。你们必须进行测试，我们现在需要开发更快的解决方案，让数百人能够应用这些应用程序。比如最初，并不是所有人都在使用这些应用，很多人使用它们只是为了娱乐，但它们确实有效，确实在工作。

Jakob Uszkoreit：感谢。我想谈谈我们创立的生态软件体系。在2021年，我参与创立了这家公司，我们的目标是解决一些真正具有科学影响力的问题。过去，我们处理的内容相当复杂。但当我迎来第一个孩子时，我看待世界的方式发生了改变。我们希望让人类的生活变得更加便利，也希望对蛋白质的研究做出贡献。尤其是有了孩子之后，我更希望能够改变现有的医疗架构，并且希望科学技术的发展能够对人类的生存和发展产生积极影响。例如，蛋白质的结构和解构已经受到了一定的影响，但目前我们缺乏数据。我们必须基于数据做出努力，这不仅是职责，也是作为父亲的责任。

我喜欢你的观点，我总是对新医药设计充满兴趣，以及让计算机学习新药开发和生成的过程。如果能学习和设计新药，并且有实验室进行测试，就能确定这样的模型是否可行。

Llion Jones：是的，我是最后一位分享者。我们共同创立的公司叫做Sakana AI，意思是“鱼”。我们之所以用日本的“鱼”来命名公司，是因为我们像鱼群一样，自然启发了我们寻找智能的灵感。如果我们能将许多检验的元素结合起来，就会创造出复杂而美妙的事物。许多人可能不了解这个过程和内容的具体细节，但我们内部的核心哲学是“学习永远胜利”。

无论你是想解决问题，还是想学习任何内容，学习总会帮助你取得胜利。在生成式人工智能的过程中，学习内容也会帮助我们取得胜利。作为在场的研究者，我想提醒大家，我们赋予计算机的AI模型真正的意义，让它们真正帮助我们理解宇宙的奥秘。实际上，我也想告诉大家，我们即将宣布一项最新的进展，我们对此非常兴奋。虽然我们现在拥有一系列的研究成果作为基石，但我们正在经历一种变革性的发展，目前的模型管理是有组织的，它让人们真正参与进来。我们让这些模型变得更加可行，使用这些大型模型和变革性的模式，改变人们对世界和宇宙的认知方式。这是我们的目标。

Aidan Gomez：我创立公司的初衷与Noam Shazeer相似。我认为计算机正在进入一种新的模式，它正在改变现有的产品和我们的工作方式。一切都基于计算机，而且它在技术内部发生了一定的变化。我们的角色是什么？我实际上是在弥合差距、弥合鸿沟。我们可以看到不同的企业创建这样的平台，让每个企业适应并融合产品，这是直接面向用户的一种方式。这是我们推进技术的方式，我们能让技术变得更加经济、更加普及。

我特别欣赏的是，当Noam Shazeer显得特别平静时，你却显得非常兴奋。你们俩的个性差异真是鲜明。现在，请Lukasz Kaiser发言。

Lukasz Kaiser：我在OpenAI的经历非常颠覆性。公司里充满了乐趣，我们处理着大量数据进行计算，但归根结底，我的角色还是一个数据处理者。

Illiya Polosukhin：我是第一个离开的人。我坚信我们将取得重大进展，软件将改变整个世界。最直接的方式就是教会机器编写代码，让编程对每个人都变得可及。

在NEAR，我们的进展虽然有限，但我们致力于整合人类智慧，获取相关数据，比如进一步启发人们，认识到我们需要一种基础性的方法论。这种模式是基础性的进展，这种大模型在全球范围内被广泛使用，它在航天等领域有众多应用，它关乎各领域的交流与互动，实际上为我们提供了能力。随着使用的深入，我们发现它带来了更多的模型，目前并没有太多关于版权的争议。

我们现在正处于一个全新的生成式时代，这是一个崇尚创新和创新者的时代，我们希望积极参与并拥抱变化，因此我们寻求不同的方法来帮助构建一个非常酷的模型。

这种积极的反馈系统对我们整体经济非常有益。我们现在能够更好地设计经济。有人提问，在这个GPT模型正在训练数十亿token规模数据库的时代，下一步是什么？新的模型技术将是什么？你们想要探索什么？你们的数据来源是什么？

Illia Polosukhin：我们的起点是矢量和位移。我们需要真正具有经济价值的模型，人们能够对其进行评估，最终将你的技术和工具应用到实践中，从而使整个模型变得更好。

你如何对模型进行领域训练？最初的互动和交互模式是什么？是模型之间的交流和交互吗？还是有生成式的模型和技术？

Illia Polosukhin：在我们团队中，每个人都有自己的技术专长。

Jakob Uszkoreit：下一步是推理。我们都认识到了推理的重要性，但很多工作目前还是由工程师手工完成的。我们实际上是在教他们以一种交互式的问答方式去回答，我们希望他们能够理解为什么在一起，一起提供强有力的推理模式。我们希望模型能够生成我们想要的内容，这样的生成方式是我们所追求的。无论是视频、文本还是3D信息，它们都应该被整合在一起。

Lukasz Kaiser：我认为，大家是否理解推理实际上来源于数据？如果我们开始进行推理，我们手头有一系列数据，我们会思考这些数据为何与众不同？然后我们会了解到各种不同的应用，其实都是基于数据推理的过程。由于计算机的能力，由于这样的系统，我们可以从那里开始进一步发展。我们可以推理出相关的内容，进行实验。

很多时候，这些都是源自数据的。我认为推理的发展非常迅速，数据模型也非常重要，而且不久的将来会有更多交互性的内容。我们还没有进行充分的培训，这不是关键内容和要素，我们需要让数据更加充实。

Noam Shazeer：设计一些数据，比如设计教学机器，可能涉及数百个、数亿个不同的代币。

Ashish Vaswani：我想提出的一点是，在这一领域，我们有很多合作伙伴，他们取得了一些里程碑式的进展。最好的自动化算法是什么？其实是将真实世界的任务分解成不同的内容。我们的模型也非常重要，它帮助我们获取数据，观察数据是否处于正确的位置。一方面，它帮助我们关注数据；另一方面，这样的数据为我们提供了优质的模型来完成抽象任务。因此，我们认为对这一进展的衡量，也是创意的一种方式，是科学发展的一种方式，也是我们自动化发展的一种方式。

如果没有良好的衡量体系，你就无法完成出色的工程。你们彼此之间有没有想问的问题？

Illia Polosukhin：没有人真正想要了解自己到底走了哪些步骤。但实际上，我们希望能够了解、探索我们到底在做什么，获取足够的数据和信息，进行合理的推理。比如，如果你有六步，但实际上你可以通过五步进行推理来跳过一步。有时候你不需要六步，有时候你需要更多步骤，那么你要如何复现这样的场景？你从Token进一步发展需要什么呢？

Lukasz Kaiser：我个人的信仰是，如何复现这样的大模型，这是一个非常复杂的过程。系统会不断进步，但从本质上讲，你需要设计一种方法。人类是善于复现的生物，在人类历史中，我们不断复现成功的场景。

很高兴能与各位交流，也希望你们有机会相互交流，产生难以言喻的魔法。感谢各位参与这次会议，非常感谢！

Ashish Vaswani：2016年加入谷歌大脑团队。2022年4月，与Niki Parmar共同创办了Adept AI，同年12月离开该公司，并共同创立了另一家人工智能初创公司Essential AI。

Niki Parmar：在谷歌大脑工作了四年，之后与Ashish Vaswani共同创立了Adept AI和Essential AI。

Jakob Uszkoreit：2008年至2021年在谷歌工作。2021年离开谷歌，并与他人共同创立Inceptive，该公司主营业务为人工智能生命科学，致力于使用神经网络和高通量实验来设计下一代RNA分子。

Illia Polosukhin：2014年加入谷歌，是八人团队中最早离开的人之一，于2017年同他人共同创立了区块链公司NEAR Protocol。

Noam Shazeer：曾于2000年至2009年间和2012年至2021年期间就职于谷歌。2021年，Shazeer离开谷歌并与前谷歌工程师Daniel De Freitas共同创立Character.AI。

Llion Jones：曾工作于Delcam、YouTube。2012年加入谷歌，担任软件工程师。后来离开谷歌，创办人工智能初创企业sakana.ai。

Lukasz Kaiser：曾任法国国家科学研究中心研究员。2013年加入谷歌。2021年，他离开谷歌，成为OpenAI的研究员。

Aidan Gomez：毕业于加拿大多伦多大学，Transformer论文发表时，他还是谷歌大脑团队的实习生。他是八人团队中第二个离开谷歌的人。2019年，他与他人共同创立了Cohere。

The Republic of Agora