OpenAI 一直以来在人工智能领域占据重要地位,然而近期其路线却遭遇到了广泛的质疑。Meta 研究员指出,从目前的技术和理论来看,根本无法构建所谓的超级智能。这一观点引发了业界的关注与讨论。一方面,这可能意味着 OpenAI 此前的一些研究方向和目标存在偏差,需要重新审视和调整;另一方面,也让人们对人工智能发展的极限和可能性产生了更深的思考。毕竟,超级智能的构建一直是该领域的终极目标之一,如今遭到质疑,无疑给整个行业带来了一定的冲击和挑战。
超级智能(Superintelligence)是处于 AGI 之上、甚至通用能力超过人类的更高维 AI 发展方向。
扎克伯格不惜以一亿美金年薪挖角 OpenAI 等竞争对手的动作背后,便暴露了 Meta 等头部玩家追求“超级智能”的巨大野心。
那么,超级智能将如何实现?现有大语言模型(LLM)的研究路径是否正确?Scaling Laws 能够在这一过程中继续奏效?
早在 2023 年,OpenAI 首席执行官 Sam Altman 便表示,构建 AGI 是一个科学问题,而构建超级智能却是一个工程问题。这似乎暗示了他们知道构建超级智能的可行路径。
然而,在 Meta AI 研究员 Jack Morris 看来,Altman 提到超级智能的“工程问题”,在于“构建大量适用于不同任务的 RL 环境,并训练 LLM 同时处理所有这些任务”。他认为,这一由 OpenAI 等公司当前大力推进的路径——基于 LLM 的 RL——根本无法构建超级智能。
“我谦卑的预测是:LLM 将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的 LLM。但它不会成为一个单一的超级智能模型。”
Morris 在一篇题为“Superintelligence, from First Principles”的博客中,探讨了构建超级智能的 3 种可能方式:完全由监督学习(SL)、来自人类验证者的强化学习(RL)、来自自动验证器的 RL。
此外,他还认为,将非文本数据整合到模型中并不能带来模型整体性能的提升,“由实际人类撰写的文本携带某种内在价值,而我们周围世界纯粹的感官输入永远无法具备这种价值。”
学术头条在不改变原文大意的情况下,对整体内容做了精编,如下:
原文链接:
https://blog.jxmo.io/p/superintelligence-from-first-principles
许多人都在讨论如何利用当前技术实现AGI(通用人工智能)或ASI(超级人工智能)。Meta最近宣布,他们正在建立一个秘密的“超级智能”实验室,投入了数十亿美元的资金。OpenAI、Anthropic和Google DeepMind都以不同方式表达了构建超级智能机器的目标。
Sam Altman特别表示,超级智能仅仅是一个工程问题:
这暗示着OpenAI的研究人员知道如何构建超级智能,只需要投入时间和精力来建立所需的系统就行了。
作为一名AI研究员,我并不清楚如何构建超级智能——我甚至不确定这是否可能。因此,在这篇文章中,我希望深入探讨一些细节,并推测是否有人能够从第一性原理出发来尝试构建超级智能。
我们假设实现这一技术的基本构建模块已经确定:即采用神经网络作为基础架构,并通过反向传播算法以及某种形式的机器学习方法对其进行训练。
我认为架构(神经网络的结构)并不是最关键的因素。因此,我们将略过有关架构的细节,并做出一个大胆的假设:超级智能将采用Transformers构建,这是目前在大型数据集上训练这类系统的最流行架构。
那么,我们已经知道很多:超级智能将是一个Transformers神经网络,它将通过某种机器学习目标函数和基于梯度的反向传播进行训练。这里仍然有两个主要的开放性问题。我们使用哪种学习算法,以及使用什么数据?
让我们从数据开始。
数据:必须是文本
导致ChatGPT诞生的许多重大突破,很大程度上源于对互联网上庞大的人类知识宝库的学习。尽管它的大部分复杂性都被现代工程巧妙地隐藏了起来,但让我们花点时间试图弄清楚这一切。
目前最好的系统都依赖于从互联网的文本数据中学习。截至本文撰写时(2025年6月),我认为将非文本数据整合到模型中并未带来整体性能的提升。这包括图像、视频、音频以及机器人技术的超感官数据——我们尚不清楚如何利用这些模态来提升ChatGPT的智能水平。
为什么会这样呢?这可能只是一个科学或工程挑战,我们可能没有采用正确的方法;但也有可能文本本身具有某种特殊性。毕竟,互联网上的每一段文本(在LLM出现之前)都是人类思维过程的反映。从某种意义上说,人类撰写的文本经过预处理,具有非常高的信息含量。
相比之下,图像只是我们周围世界未经人类干预的原始视角。确实有可能,由实际人类撰写的文本携带某种内在价值,而我们周围世界纯粹的感官输入永远无法具备这种价值。
因此,在有人证明情况相反之前,让我们假设只有文本数据才是重要的。
那么,我们有多少文本数据呢?
下一个问题是,这个数据集可能有多大。
许多人已经讨论过,如果文本数据用完了,我们应该如何应对。这种情况被称为“数据墙”或“token危机”,人们已经探讨了如果我们真的用完了数据该怎么办,以及如何扩展我们的模型。
而这种情况似乎真的正在发生。许多大型人工智能实验室的工程师已经花费了无数小时,从网络的各个角落刮取每一个有用的文本片段,甚至转录了数百万小时的YouTube视频,并购买了大量新闻故事来进行训练。
幸运的是,这里可能还有另一个数据源可用(可验证的环境!),但我们稍后再讨论这个。
学习算法
在上文中,我们发现了一个重要的原则:通向超级智能的最佳路径在于文本数据。换句话说,AGI很可能就是LLM,或根本不存在。其他一些有前景的领域包括从视频和机器人技术中学习,但这些领域似乎都远未达到在2030年前产生独立智能系统的水平。它们也需要大量数据;从文本中学习自然非常高效。
现在我们必须面对最重要的问题。超级智能的学习算法是什么?
在机器学习领域,从大型数据集中学习的基本方法(经过验证)有两种。一种是SL,即训练模型以增加某些示例数据的概率。另一种是RL,涉及从模型中生成数据,并因其采取“良好”行动(由用户定义的“良好”标准)而给予奖励。
既然我们了解了这一分类,就清楚任何潜在的超级智能系统都必须通过SL或RL(或两者结合)进行训练。
图|杨立昆(Yann LeCun)曾表示他知道通向智能的秘诀。事实上,智能就像一块蛋糕,而RL只是上面的一小颗樱桃。
让我们分别探讨这两种方案。
1. 假设1:超级智能来自SL
还记得2023年吗?那正是人们开始对scaling laws感到兴奋的时候;GPT-4发布后,人们担心如果模型继续规模化,可能会变得危险。
图|大约在2023年,很多人开始担心,LLM通过简单的监督学习扩展后,很快会演化为超级智能。
有一段时间,人们普遍认为大量的SL,特别是以“next-token prediction”的形式,可能导致超级智能AI的出现。值得注意的是,Ilya Sutskeve曾发表过一场演讲,指出next-token prediction本质上是在学习压缩“(信息)宇宙”,因为要做好这一点需要模拟所有可能的程序(或者类似的东西)。
我认为他的论点大致如下:
准确的next-token prediction需要对任何人在任何情境下会写的内容进行建模
你对一个人的建模越准确,就越能接近这个人的智能
由于互联网包含许多人撰写的文本,因此在大型文本预训练数据集上进行训练,就需要准确建模许多人的智能
准确建模许多人的智能就是超级智能
(1)“氛围”论:我们能否通过模拟人类实现超级智能?
我个人认为,这种逻辑存在一些缺陷,首先,我们似乎已经创建了在next-token prediction方面远超人类水平的系统,但这些系统仍无法展现人类级别的通用智能。某种程度上,我们构建的系统虽然学会了我们要求它们学习的内容(next-token prediction),却仍无法完成我们期望它们完成的任务(如不凭空杜撰地回答问题、完美遵循指令等)。
这可能仅仅是机器学习的失败。我们一直在训练一个模型,以预测每种情况下的人类平均结果。这种学习目标鼓励模型避免给任何一种可能的结果赋予过低的概率。这种范式常常导致所谓的“模式崩溃”(mode collapse),即模型在预测平均结果方面非常出色,却未能学习分布的尾部。
这些问题可能在规模扩展后消失。拥有数十亿参数的模型,如Llama,会产生幻觉,但仅有10^9个参数。当我们训练拥有10^19个参数的模型时会发生什么?或许这足以让单个LLM独立给全球80亿人类建模,并为每个人提供独立的数据驱动预测。
(2)Infra论:我们无法扩展模型和数据
但事实证明,这已无关紧要,因为我们可能永远无法扩展到10^19个参数(的规模)。这一假设基本上源于2022年左右的深度学习学派,他们受语言模型scaling laws的巨大成功驱动,认为持续扩展模型和数据规模将实现完美智能。
现在是2025年。这一理论论点仍未被挑战,scaling laws也一直有效。但事实证明,当规模超过一定阈值后,扩展模型变得非常困难(而早在2022年,我们已经非常接近能够有效处理的极限)。企业已经远远超出了我们用单台机器能够做到的范围——所有最新模型都是在由数百台机器组成的巨型网络上训练的。
继续将模型规模扩展到万亿级参数,正引发硬件短缺和电力短缺。更大的模型将消耗如此多的电力,以至于无法集中部署于单一地点;企业正在研究如何将模型训练分布到多个遥远的数据中心,甚至收购、修复废弃核电站来训练下一代更大规模的AI模型。我们正处于一个疯狂的时代。
除了模型规模,我们可能还面临数据不足的问题。没有人知道每个模型在训练过程中使用了多少互联网数据,但可以肯定的是,数量相当庞大。过去几年,大型人工智能实验室投入了巨大的工程努力,从互联网文本数据中榨取最后一点价值:例如,OpenAI似乎已经转录了整个YouTube,而像Reddit这样的高质量信息网站也被反复抓取。
将模型规模扩展到超过1000亿参数似乎很困难,同样,将数据规模扩大到20T tokens以上也很困难。这些因素似乎表明,在未来三到四年内,SL的规模很难再扩展10倍以上——因此,对超级智能的探索可能不得不从其他地方寻找突破口。
2. 假设2:通过结合SL与RL实现超级智能
也许你认同上述观点之一:要么我们在很长一段时间内都无法将预训练规模再提升几个数量级,要么即使我们做到了,在预测人类token方面表现得非常出色,也无法构建比人类更聪明的系统。
还有另一种方法。RL领域提供了一整套方法,可通过反馈而非仅依赖演示进行学习。
为什么我们需要SL?
RL是非常难的。你可能会好奇,为什么我们不能全程使用RL。从实际角度来看,RL有许多缺点。简而言之,SL比RL稳定且高效得多。一个易于理解的原因是,由于RL通过让模型生成动作并对其进行评分来工作,一个随机初始化的模型基本上是糟糕的,所有动作都毫无用处,它必须偶然做好一些事才能获得任何形式的奖励。这就是所谓的冷启动问题,而这只是RL众多问题中的一个。基于人类数据的SL被证明是解决冷启动问题的有效方法。
让我们重新梳理RL的范式:模型尝试各种操作,然后我们告知模型这些操作的表现好坏。这可通过两种方式实现:要么由人类评估者告知模型表现优劣(这大致是典型RLHF的工作原理),要么由自动化系统完成此任务。
3. 假设2A:来自人类验证者的RL
在此第一种范式下,我们为模型提供基于人类的奖励。我们希望模型具备超级智能,因此希望对其生成更接近超级智能(由人类评判)的文本进行奖励。
实际上,这类数据的收集成本极高。典型的RLHF设置中,需要训练一个奖励模型来模拟人类反馈信号。奖励模型是必要的,因为它们使我们能够提供远超实际人类反馈量的反馈。换言之,它们是计算上的辅助工具。我们将把奖励模型视为工程细节,暂且忽略它们。
因此,设想这样一个世界:我们拥有无限数量的人类来为LLM标注数据,并提供任意奖励,其中高奖励意味着模型的输出更接近超级智能。
图|“一千只猴子在一千台打字机前工作。很快,它们将写出人类历史上最伟大的小说。”——伯恩斯先生,《辛普森一家》
忽略所有程序复杂性。假设这种方法能够实现大规模应用(尽管目前可能无法实现,但未来或许可行)。这会有效吗?一个仅通过人类奖励信号学习的机器,能否沿着智能阶梯不断进步,并最终超越人类?
换个方式问:我们能否“验证”超级智能的存在,即便我们自己不能生成它?记住,人类从定义上来说不是超级智能。但当我们看到超级智能时,能否识别出它?我们能否以足够可靠的方式识别,从而为LLM提供有用的梯度信号,使其可以收集大量此类反馈自我提升至超级智能?
有人会指出“生成自然会比验证更难”。你看一部好电影时就知道它好,但这并不意味着你可以自己去制作一部。这种二分法在机器学习中经常出现。区分猫的照片和狗的照片在计算上要比生成完整的猫容易得多。
同样地,如果人类能够验证超级智能,那么可能可以通过RLHF来训练一个超级智能模型。以具体例子来说,你可以让一个LLM撰写大量小说,根据人类对“好小说”的定义对其进行奖励,然后多次重复这个过程,直到你得到一个能够撰写小说的超级智能机器。
你是否注意到这种逻辑中存在任何问题?
4. 假设2B:来自自动验证器的RL
最近,人们对使用类似方法训练更好的语言模型感到兴奋。
当我们让计算机评估RL算法的阶段性性能时,可以使用模型或自动验证器。对于自动验证器,可以参考国际象棋或编程场景。我们可以编写规则来检查计算机是否赢得了国际象棋比赛,并在将死对手时给予奖励。在编程中,我们可以运行单元测试,对编写符合某些规格的代码的计算机给予奖励。
使用验证器会更加实用——它将使我们能够完全去除人类的参与(尽管人类曾用于编写整个互联网)。使用验证器实现超级智能的方案大致如下:
使用SL在大量互联网文本上预训练一个LLM;
将其接入一个能够为优质LLM输出提供奖励的验证系统;
运行很长时间;
实现超级智能。
这个思路靠谱吗?它真的可行吗?
众所周知,DeepMind的AlphaGo通过RL与SL的结合实现了“围棋霸主地位”(即击败所有人类选手,甚至那些训练了数十年的高手)。AlphaGo的第二个版本AlphaGo Zero通过连续40天与自己对弈来学习。
需要注意的是,围棋具有许多现实世界任务所不具备的重要特性,围棋具有固有的可验证性。我们可以将围棋对局输入到基于规则的计算机程序中,并获得一个信号,指示我是否获胜。从长远来看,你可以根据某一步棋对游戏以胜利结束的概率的影响,判断这一步棋是否“好”。这基本上就是RL的工作原理。
借助这种可验证性,AlphaGo 实现了AI实验室长期以来追求的一个重要目标:AlphaGo 在思考时间更长时表现更佳。语言模型默认无法做到这一点。
但这正是OpenAI去年秋季宣布的突破性成果。他们利用可验证奖励强化学习(RLVR)训练了o1模型,该模型与AlphaGo一样,能够通过更长时间的思考产生更优的输出:
图|在o1博客文章中,OpenAI介绍了一系列“推理模型”,这些模型通过RLVR进行学习
观察上方的美丽图表(注意对数x轴!),我们可以看到o1的确随着思考时间的增加而表现更好。但请注意标题:这是在AIME数据集上的结果——AIME是一组极为困难、答案为整数的数学题。换言之,这不是开放式任务,而是可验证的任务,因为我们可以检查LLM是否生成正确答案,并据此奖励模型。
事实证明,当前的LLM在预训练后能够很好地处理任意任务,它们可以对AIME问题做出合理的猜测,而我们可以利用RL来训练它们,使其随着时间的推移做出越来越好的猜测。(最酷的部分,我们在此不做展开,是它们在这一过程中会生成越来越多的“思考token”,从而为我们提供如上文o1博客文章中所示的测试时计算图。)
5. RLVR是通向超级智能的路径?
显然,OpenAI、谷歌和其他AI实验室对这种基于LLM的RL非常兴奋,并认为这可能为他们带来超级智能。我认为,这种范式正是Altman在文章最前面模糊推文中提到的内容。超级智能的“工程问题”在于构建大量适用于不同任务的RL环境,并训练LLM同时处理所有这些任务。
让我们来分析一下这种乐观的设想。我们已知的可验证任务包括编程(可以通过运行代码来验证其正确性)以及数学(不是证明,而是有数值解的问题)。如果我们能够收集世界上所有可验证的事物,并同时对它们进行训练(或分别训练,然后进行模型合并)——这真的会产生通用超级智能吗?
这里存在几个逻辑跳跃。最重要的是,我们并不清楚RL在可验证任务上的迁移能力是否能够有效扩展到其他领域。训练模型解决数学问题是否能够自然地教会它如何预订机票?或者,在可验证环境中训练模型提升编程能力,是否能使其成为更优秀的软件工程师?
假设这种情况确实成立,且RL能够完美迁移到各种任务上。这将产生巨大影响。人工智能公司将展开军备竞赛,争夺训练LLM的最丰富、实用且工程设计精良的任务集。很可能,有多家公司以这种方式推出“超级智能LLM”。
但这种结果在我看来似乎不太可能。我猜如果RL确实能够极好地迁移到其他领域,那我们现在应该已经知道了。我谦卑的预测是:LLM将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的LLM。但它不会成为一个单一的超级智能模型。
本文来自微信公众号:学术头条,整理:小羊 编审:学术君
上一篇:伯克希尔,大幅跑输美股大盘
下一篇:王欣瑜首进草地巡回赛四强