深度|Anthropic CEO:AI行业的盈利本质上源于对市场需求的低估,而亏损则因为高估了需求,2030年AI行业营收将跃迁至万亿美元级
创始人
2026-03-15 12:18:41
0

图片来源:Dwarkesh Patel

Z Highlights

  • 底层技术的指数式发展整体符合我的预期,各领域技术前沿发展虽不均衡但大体走向无偏差,令我意外的是,无论行业内外,人们都未意识到我们正如此接近指数增长的尾声

  • 2017年起我的核心缩放假说便从未改变,真正推动技术发展的核心要素仅有七个,如今RL领域也展现出和预训练相同的缩放规律,所有研究进展均与这一假说相符。

  • 我有90%的信心认为十年内数据中心将诞生堪比一个国家的天才智能体,排除不可规避的意外,12年内模型就能实现端到端的代码开发,且模型已展现出从可验证任务到不可验证任务的显著泛化能力。

  • AI技术的发展和向经济领域的渗透会极其迅速但并非一蹴而就,存在客观限制,这种经济渗透的不确定性,是我们在算力采购和数据中心建设上保持谨慎的核心原因,需在抓住增长机会和规避财务危机间做好权衡

  • AI行业盈利的核心是算力需求预判,盈利源于需求低估,亏损则因需求高估,与传统行业的盈利逻辑截然不同。

  • API商业模式仍具长期生命力,同时将诞生按结果付费等多元模式,不同场景下AI输出的价值差异将决定定价逻辑。

Dario AmodeiAnthropic公司核心负责人,深耕AI大模型研发领域,对模型缩放、技术发展趋势有着极具前瞻性的判断,主导了Claude系列模型的技术研发与落地,Dwarkesh Patel是资深科技访谈者,聚焦AI领域前沿对话,挖掘行业核心发展议题。本次访谈于2026214日开展,围绕AI技术指数增长尾声、模型缩放假说、RL发展等核心问题展开,深入探讨AI技术落地与经济渗透的关键议题,分享了对AI行业发展趋势的独到见解与实践思考。

技术发展核心认知:指数增长近尾声与缩放假说的坚守

Dwarkesh Patel三年前我们曾有过一次交谈。我很好奇,在你看来,过去三年最大的变化是什么?与三年前相比,如今最显著的不同之处在哪里?

Dario Amodei我认为核心变化在于底层技术的指数式发展,整体研究进展和我的预期大致相符,前后误差也就一两年左右。我当初没能预判到代码领域的具体发展方向,但从技术指数增长的整体趋势来看,模型从堪比聪明的高中生,到进阶为优秀的大学生,再到开始涉足博士阶段和专业领域的工作,代码领域的发展甚至还超出了这一阶段,整体节奏都在我的预期之中。当然,各领域的技术前沿发展并不均衡,不过大体走向没有偏差。但有一件事让我倍感意外,那就是公众并未意识到,我们正如此接近指数增长的尾声。无论是行业内还是行业外的人,还在为那些老生常谈的热门政治议题争论不休,却对身边即将到来的技术拐点视若无睹,这在我看来实在不可思议。

Dwarkesh Patel我想了解当下这一指数增长的具体态势。三年前我们访谈时,我第一个问题就是关于模型缩放的原理,现在我依然有类似的疑问,只是这个问题如今变得更为复杂。至少在公众看来,三年前的缩放规律十分清晰,在多个数量级的计算量范围内,都能看到模型损失值的持续优化。而现在出现了RL缩放,却没有公开的相关缩放定律,甚至我们都无法明确其核心作用——是培养模型的技能,还是实现元学习?现阶段的缩放假说究竟是什么?

Dario Amodei其实从2017年开始,我的核心假说就从未改变。我记得上次也提到过,2017年我写过一份名为《The Big Blob of Compute Hypothesis》的文档,这份文档并非专门针对语言模型的缩放。当时GPT-1刚发布,只是众多研究方向之一。那时候机器人学、独立于语言模型的推理研究都在推进,OpenAIAlphaGoDota项目中实现了RL缩放,DeepMindAlphaStar在星际争霸领域也取得了突破。

这份文档是更具普适性的研究总结,核心观点如下。Rich Sutton几年后提出了苦涩的教训,而我的假说和这一观点本质上是一致的:那些所谓的巧妙思路、技术手段,以及我们需要新方法解决问题的想法,其实都无关紧要。真正起作用的因素寥寥无几,我当时列出了七个核心要素:第一是原始计算量;第二是数据规模;第三是数据的质量和分布,数据必须具备广泛的分布性;第四是训练时长;第五是需要具备无限缩放潜力的目标函数,预训练目标函数就是其中之一,RL目标函数也是如此——设定一个目标,模型通过学习逐步达成,其中既包含数学、代码领域中可量化的客观奖励,也有人类反馈强化学习中更主观的奖励,以及更高阶的奖励形式;第六和第七则与归一化、条件处理相关,核心是保证数值稳定性,让大规模计算能够平稳推进,避免出现各类技术问题。

这就是我始终坚持的假说,目前所有的研究进展都与之相符。预训练缩放定律就是典型例证,而且相关研究仍在持续推进,这一点也已被广泛报道,我们对预训练的发展态势充满信心,其持续为模型性能带来提升。如今的变化在于,RL领域也展现出了和预训练相同的缩放规律,模型训练分为预训练阶段和后续的RL阶段,RL阶段的缩放原理和预训练完全一致。其他公司也发布过相关研究成果,比如他们在数学竞赛类数据(如AIME)上训练模型后发现,模型的表现与训练时长呈对数线性关系,我们也在研究中发现了这一规律,而且这一规律并非仅适用于数学竞赛,而是广泛存在于各类RL任务中。

模型学习本质辨析:与人类学习的差异及泛化能力进阶

Dwarkesh Patel你提到了Rich Sutton和他的苦涩的教训。我去年采访过他,他其实对大语言模型并不看好。我不确定这是否是他的核心观点,但可以这样概括他的质疑:真正具备人类学习核心能力的智能体,无需耗费数十亿美元的算力和数据,也无需定制专属环境,就能学会使用ExcelPowerPoint或浏览网页。而我们如今需要通过构建RL环境来培养模型的这些技能,恰恰说明模型缺乏人类核心的学习算法,我们正在为错误的目标做缩放优化。这就引出了一个问题:如果我们认为未来会出现具备人类即时学习能力的智能体,那为何还要大力推进RL缩放研究?

Dario Amodei我认为需要把几个问题拆分开来看,这其中确实存在一个值得探讨的谜题,但这个谜题或许并不重要,甚至我认为它大概率无关紧要。我们先抛开RL不谈,因为将RL和预训练视作两种截然不同的模式,其实是一种误导。回顾2017Alec Radford研发GPT-1的阶段,会发现一个很有意思的现象:GPT-1之前的模型,训练数据集的文本分布范围都十分狭窄,只是一些标准化的语言建模基准数据集。而GPT-1的训练数据,我记得是一些同人小说类的文学文本,这类文本仅占人类文本数据的极小一部分,当时的数据集规模也就十亿词级,数据分布单一,无法反映真实世界的多样场景,因此模型的泛化能力极差。即便模型在同人小说语料上的表现有所提升,也无法很好地适配日常对话等其他场景。当时我们有多种指标来衡量模型对不同类型文本的预测能力,结果都显示模型缺乏泛化性。

直到GPT-2的训练,我们开始基于互联网进行大规模数据抓取,比如从Common CrawlReddit等平台获取数据,让模型在全类型任务上接受训练,其泛化能力才开始显著提升。如今RL领域正在重演这一过程:我们从数学竞赛这类简单的RL任务开始训练,逐步拓展到代码等更复杂的任务,现在还在持续增加任务类型,我相信模型的泛化能力会随之不断提升。这一点打破了RL和预训练的边界,但无论如何,有一个谜题始终存在:预训练阶段,我们需要用万亿级Token来训练模型,而人类一生中接触的词汇量远达不到这个量级,这说明模型和人类在样本效率上存在本质差异。模型是从零开始训练,需要海量的训练数据,而人类的学习并非如此。但另一方面,若为模型提供足够长的上下文窗口,其唯一的限制就来自推理环节。如果给模型百万级的上下文窗口,它就能在这个范围内高效学习和适应。

我目前无法完全解答这一谜题,但我认为预训练的本质,既不同于人类的学习过程,也并非完全复刻人类的进化过程,而是介于两者之间。人类的很多先验知识都来自进化,大脑并非一张白纸,相关的研究著作数不胜数。而语言模型更接近一张白纸,其初始权重都是随机的,人类的大脑却有明确的功能分区,并且与各类输入输出系统相连。因此,我们或许可以将预训练(乃至RL)视作介于人类进化和人类即时学习之间的过程,而模型的上下文学习,则介于人类的长期学习和短期学习之间。简单来说,学习分为进化、长期学习、短期学习和人类的即时反应等不同层级,大语言模型的各个训练阶段对应着这一谱系的不同位置,并非与人类的某一种学习模式完全对应,甚至部分模式在人类学习中找不到对应的参照,这也是大语言模型的独特之处,你能理解吗?

Dwarkesh Patel我能理解,只是仍有一些地方感到困惑。比如如果将预训练类比为进化,那么样本效率低的问题就可以理解,但如果模型能通过上下文学习成为样本效率极高的智能体,那为何现在还有很多RL环境公司在投入大量精力,教模型使用各类APISlack等工具?如果具备即时学习能力的智能体即将出现,甚至已经出现,这样的投入似乎显得毫无意义。

通用AI发展预判:十年高概率落地与短期技术突破信心

Dwarkesh Patel你提出的这个框架逻辑很清晰,我们确实在朝着通用人工智能的方向前进。我想现在没人会否认,本世纪内我们终将实现通用人工智能。但核心分歧在于:你认为我们正接近指数增长的尾声,而另一些人则认为,技术从2012年起就在稳步发展,到2035年就能实现类人智能体。我想知道,你看到了哪些迹象,让你认为模型的进化已经复刻了人类的进化和终身学习模式,并且这一目标会在1年内实现,而非10年?

Dario Amodei我可以从两个层面来回答,一个是更激进的观点,一个是相对保守的观点。先说说保守的观点:2019年我首次观察到模型缩放的趋势时,还心存疑虑,当时认为相关研究的成功概率只有50%,并提出这一技术的发展速度会远超所有人的预期,只是当时几乎没人认同这一观点。而现在,对于十年内数据中心将诞生堪比一个国家的天才智能体这一基础假说,我的信心达到了90%。之所以无法达到更高的概率,是因为世界充满了不可预测性,存在一些无法规避的不确定性。比如,即便信心达到95%,仍有可能出现各类意外:如多家公司陷入内部动荡,研发停滞等。

Dwarkesh Patel那一切的发展都会被迫中断。

Dario Amodei没错,我们可以设想出各种可能,有5%的概率让技术发展推迟10年,这是客观存在的。而另外5%的不确定性,则来自那些无法验证的任务,比如火星探测任务的规划、CRISPR这类基础科学发现、小说创作等。对于可验证的任务,我有十足的把握,比如代码领域,排除那些不可规避的意外,我认为12年内,模型就能实现端到端的代码开发,十年内实现这一目标更是毫无悬念。而对于不可验证的任务,我几乎可以确定我们有可靠的技术路径实现突破,但这也是目前唯一存在基础不确定性的领域。所以对于十年内实现目标,我有90%的信心,这已经是极高的概率了。如果有人说2035年前无法实现,在我看来这是极不理性的,在正常的认知中,这一观点也不应成为主流。

Dwarkesh Patel但你对可验证性的强调,似乎暗示你认为这些模型尚未具备真正的泛化能力。要知道,人类既擅长完成可获得明确奖励的可验证任务,也能做好那些无明确奖励的不可验证任务。

Dario Amodei并非如此,这也是我几乎可以确定的一点:我们已经看到模型从可验证任务到不可验证任务的显著泛化能力,这种能力已经存在了。

Dwarkesh Patel但你似乎也强调,这是一个逐步发展的过程。

Dario Amodei如果说存在一种模型无法实现终极突破的可能性,那就是模型能完成所有可验证任务,且其中大部分能实现泛化,但始终无法完全掌握不可验证任务的核心逻辑。这并非一个非黑即白的问题,而是一个逐步完善的过程。

Dwarkesh Patel但在我看来,即便模型的泛化能力较弱,仅在一些边缘领域有所体现,也无法实现软件工程的自动化。毕竟你本身也算一名软件工程师,而软件工程的工作,不仅包括代码编写,还需要撰写承载宏大愿景的长篇备忘录。

Dario Amodei我认为撰写这类备忘录并非软件工程师的核心工作,而是企业管理层的职责。但软件工程师确实需要撰写设计文档等内容,而模型在这方面的表现已经相当不错了,甚至连代码注释都写得很好。我之所以做这样的弱化表述,是为了区分两个不同的概念:事实上,模型距离实现软件工程的自动化已经非常近了,近在咫尺。

Dwarkesh Patel你是基于什么指标得出这一结论的?有一个指标是AI编写的代码行数,回顾软件工程的发展历史,编译器也能自动生成大量代码,但代码行数和实际的生产力提升之间存在本质差异。你所说的近在咫尺,究竟是指多大程度的生产力提升,而非单纯的代码行数增加?

Dario Amodei你说得很对,我完全认同这一点。我曾对代码和软件工程领域的发展做出过一系列预测,但人们总是反复误解这些预测,我来梳理一下其中的层级差异。大概八九个月前,我曾说过,36个月内,AI模型将编写90%的代码,这一预测至少在部分企业已经成为现实,比如Anthropic,还有很多使用我们模型的下游企业都是如此。但这其实是一个非常基础的指标,很多人误以为我在说我们将不再需要90%的软件工程师,这两种说法有着天壤之别。

我对这一领域的发展层级做了这样的划分:第一,模型编写90%的代码;第二,模型编写100%的代码,这两个阶段的生产力提升幅度差异巨大;第三,模型完成90%的端到端软件工程任务,包括编译、集群和环境搭建、功能测试、撰写备忘录等;第四,模型完成100%当前的软件工程任务。即便到了这一阶段,也不意味着软件工程师会失业,他们可以从事更高层级的工作,比如模型的管理和优化。而更长远的发展阶段,则是软件工程师的需求减少90%,我认为这一阶段终将到来。我在《Adolescence of Technology》一文中,曾以农业的发展为例梳理过类似的层级变化。所以我完全认同你的观点,这些不同的发展基准有着本质区别,而我们正在以极快的速度跨越这些阶段。

AI技术价值渗透:快速指数增长与客观落地限制

Dwarkesh Patel这一过程就像欧洲歌唱大赛的晋级赛,从90%100%的突破会很快实现,并且会带来巨大的生产力提升。但我观察到,即便是在全新的项目中,人们使用云代码等工具开启了大量项目,却并未看到软件行业的复兴,也没有出现那些原本不可能实现的新功能。这让我不禁怀疑,即便我们能完全实现云代码的自主运行,无需人工干预,在这个复杂的世界中,各类工作都有着复杂的逻辑,仅靠模型实现自闭环的系统开发,无论是软件开发还是其他领域,能带来多大的整体收益?这或许会让我们重新评估数据中心诞生一个国家的天才智能体这一目标的实现程度。

Dario Amodei我其实同时认同两个观点:一方面,这确实是技术效果无法即时显现的原因;另一方面,我认为技术带来的影响会以极快的速度爆发。目前存在两种极端的观点:一种认为AI发展缓慢,技术进步需要极长的时间才能渗透到经济领域,经济渗透甚至成了一个流行词,被用来证明AI发展无足轻重;另一种则认为AI会实现递归式自我改进,沿着指数曲线一路飙升,甚至有人夸张地认为,实现递归式改进后,人类很快就能建造围绕太阳的戴森球。我这是对两种极端观点的夸张描述,但现实中确实存在这样的分歧。而Anthropic的发展历程,从一开始就展现出了截然不同的态势:我们的营收实现了每年10倍的惊人增长——2023年,营收从0增长到1亿美元;2024年,从1亿美元增长到10亿美元;2025年,从10亿美元增长到90亿至100亿美元。

Dwarkesh Patel那你们本该用自己的产品创造10亿美元的营收,让这个增长曲线更完美。

Dario Amodei而今年1月,这一增长趋势仍在延续,按道理指数增长本应放缓,但单月营收就新增了数十亿美元。显然,这样的增长曲线不可能永远持续,毕竟全球GDP的规模是有限的,我甚至猜测今年的增长速度会有所放缓,但这依然是一条极其陡峭的增长曲线。我敢断言,即便技术渗透到整个经济领域,增长速度依然会保持在较高水平。所以我们应该秉持一种中间视角:AI技术的发展和渗透会极其迅速,但并非一蹴而就,会因为经济渗透、系统闭环的实现需求等因素存在时间差。比如企业内部的变革管理、调整安全权限、重构老旧的软件检测系统等,这些工作模型都能完成,但需要人工下达指令,也需要一定的执行时间。

我们目前观察到的所有现象,都符合这一规律:模型的能力呈快速的指数增长,而模型向经济领域的渗透,作为其下游环节,也呈快速的指数增长。这一过程既非瞬间完成,也非缓慢推进,其速度远超以往任何一项技术,只是存在一定的客观限制。无论是从Anthropic内部的发展,还是从客户的反馈来看,都能看到这种快速的技术落地,只是并非无限速的即时落地。

Dwarkesh Patel我想跟你分享一个大胆的观点,你觉得如何?

Dario Amodei你说。

Dwarkesh Patel我感觉渗透成了一个借口,当模型无法完成某件事时,人们就会说这只是技术渗透的问题。但我们不妨和人类做个对比:AI本身具备诸多固有优势,按理说,新的AI系统融入经济领域,应该比新员工入职容易得多。AI能在几分钟内读完企业所有的Slack信息和云盘文件,能共享同个实例所有副本的知识,招聘AI也不存在逆向选择的问题,只需复制经过验证的模型即可。而招聘人类的过程繁琐得多,即便如此,企业依然愿意每年支付超过50万亿美元的薪资雇佣人类,因为人类能创造价值。从理论上来说,AI融入经济领域的难度远低于人类雇佣,这是毋庸置疑的。

Dario Amodei我认为技术渗透是真实存在的问题,且并非仅由AI模型的能力限制导致。当然,确实有人把渗透当作口头禅,以此淡化AI的价值,我并非指这类情况。我认为AI的渗透速度会远超以往任何技术,但绝非无限快。

我举个例子:Claude Code的部署难度极低,开发者可以直接上手使用,从技术层面来说,大型企业的开发者完全可以和初创企业的开发者,或是独立开发者一样快速采用Claude Code。我们也尽一切努力推动其落地,将其销售给大型企业,比如大型金融公司、制药公司等。这些企业采用Claude Code的速度,已经远超以往企业采用新技术的平均速度,但这一过程依然需要时间。无论是Claude Code还是Cowork,这类产品总会先被活跃在社交平台的独立开发者、A轮初创企业的开发者采用,而大型食品销售企业的开发者,会晚好几个月才会开始使用。背后存在诸多因素:需要通过法务审核、为所有员工配置权限、完成安全合规检测;企业的管理层虽然具备前瞻性,但远离AI技术前沿,需要先评估花费5000万美元引入Claude Code是否合理”“它能为企业带来什么价值”“如何提升生产力,再向基层员工解释落地逻辑;面对3000名开发者,还需要制定详细的落地计划。

我们每天都在和企业进行这类沟通,我们想尽一切办法,希望让Anthropic的营收实现每年20倍甚至30倍的增长,而非目前的10倍。很多企业也意识到了Claude Code的生产力价值,甚至在采购流程中走捷径,其落地速度远快于我们此前销售的普通API——当然,Claude Code本身的产品竞争力也更强。但即便如此,它也并非具备无限的吸引力。我认为,即便是通用人工智能、强人工智能,或是数据中心里一个国家的天才智能体,也不会具备无限的吸引力。这类技术的吸引力,足以支撑企业实现每年3倍、5倍甚至10倍的营收增长,即便营收规模达到数千亿美元也是如此——这在历史上是极其罕见的成就,但增长速度终究有限。

Dwarkesh Patel我认同增长速度会略有放缓的观点。或许这并非你的主张,但有些人认为,模型的能力已经达到通用人工智能的水平,只是受限于技术渗透,所以尚未显现,我并不认同这一观点。如果数据中心真的诞生了堪比一个国家的天才智能体,企业没有理由拒绝引入这样的系统。

Dario Amodei如果真的实现了这一目标,所有人都会感知到。在座的每个人,华盛顿的决策者,都会知道这一消息,或许偏远地区的民众会晚一些知晓,但这一技术突破绝不会被掩盖。而目前,我们显然还未达到这一阶段,这一点是毋庸置疑的。

模型核心能力突破:上下文学习与电脑操作能力提升

Dwarkesh Patel正如Dario所暗示的,要实现模型的泛化能力,需要让模型在各类真实的任务和环境中接受训练。以销售智能体为例,最难的并非教它在Salesforce的特定数据库中操作,而是培养它在模糊场景中的判断能力:如何从数千个销售线索中筛选出高潜力客户?如何有效触达客户?被客户无视后该如何应对?

一家AI实验室在训练销售智能体时,LabelBox邀请了数十位财富500强企业的销售精英,搭建了多个RL环境,设计了数千个销售场景,让销售智能体与由另一个AI扮演的潜在客户进行互动。LabelBox为客户AI设置了多种不同的人物性格,因为陌生电销中,你永远不知道接电话的人是什么类型,智能体必须学会应对各类情况。LabelBox的销售专家会逐轮监控对话过程,调整角色扮演AI的行为,确保其符合真实客户的反应模式。LabelBox的迭代速度远超行业内其他企业,这一点至关重要,因为RL是一门实验科学,并非一个已被解决的问题。LabelBox拥有一系列工具,能实时监控智能体的性能,让专家持续设计新任务,确保模型始终在合适的难度范围内训练,并在训练过程中获得最优的奖励信号。LabelBox的这一模式几乎适用于所有领域,他们的团队中既有对冲基金经理、放射科医生,也有航空公司飞行员。无论你从事哪个领域的研究,LabelBox都能提供助力。

我们回到具体的预测上,因为涉及的概念繁多,很容易出现沟通偏差。比如三年前我采访你时,你曾对三年后的技术发展做出预测,我认为你的预测是准确的。你当时说,未来会出现这样的系统:和它交谈一小时,你很难将其与受过良好教育的人类区分开来。这一预测如今已经成为现实,但我内心却感到些许失望,因为我原本预期,这样的系统能实现白领工作的大规模自动化。所以,与其讨论抽象的能力,不如聊聊你期望这类系统具备的具体终端能力,这样或许更有意义。

Dario Amodei那我就说说我眼中当前的技术发展阶段。

Dwarkesh Patel那我问一个具体的问题,这样我们能更清晰地界定,用户对这类系统的能力预期究竟是什么。我选择一个自己熟悉的工作领域,并非因为它最具代表性,而是因为我能客观评估相关的能力主张,比如视频剪辑。我有自己的视频剪辑团队,他们的工作不仅包括剪辑本身,还需要花数月时间了解观众的偏好、我的个人品味,以及各类取舍的标准,逐步积累相关的背景知识。一个视频剪辑师入职六个月后所具备的专业能力,模型能否在工作过程中即时掌握?我们何时能看到这样的AI系统?

Dario Amodei你的意思是,我们完成了这场三小时的访谈后,有人需要对访谈内容进行剪辑,比如删掉我挠头的镜头,精简掉无趣的冗长讨论,突出精彩的对话片段。我认为,数据中心里一个国家的天才智能体完全能完成这项工作。其实现路径是这样的:智能体具备对电脑屏幕的通用操作能力,将访谈素材输入后,它能通过电脑屏幕浏览网页,查看你以往的所有访谈内容、社交平台上观众对这些访谈的反馈,与你和你的团队沟通,查看过往的剪辑案例,在此基础上完成剪辑工作。

而实现这一目标,需要满足几个条件,其中一个也是目前部署的核心障碍,就是让模型真正精通电脑操作。我们能看到相关基准测试的成绩在持续提升,虽然基准测试并非完美的衡量标准,但能直观反映技术进展。比如OS World的测试,一年多前我们首次推出电脑操作功能时,模型的通过率大概在15%左右(具体数值记不清了),如今已经提升到了65%70%,当然还有更难的测试指标,但核心是让电脑操作的可靠性达到一个临界点。

Dwarkesh Patel在进入下一个话题前,我想追问一个问题。多年来,我一直尝试为自己搭建各类内部大语言模型工具,其中有很多纯文本输入输出的任务,按理说这是模型的核心擅长领域,但我最终还是选择雇佣人类来完成。原因在于,比如从访谈文稿中筛选出精彩片段,模型的表现充其量只能打70分,而且我无法像指导人类员工那样,持续与模型互动,帮助它不断提升工作能力。即便模型掌握了电脑操作能力,这一缺失的能力,依然会成为我将实际工作交给模型的障碍。

Dario Amodei这又回到了我们之前讨论的在线学习问题,而代码智能体的发展呈现出了不同的态势。我认为,在线学习并非代码智能体实现端到端工作的障碍,其能力还在持续提升。Anthropic有工程师已经完全不再手写代码,关于生产力提升的问题,他们的反馈很直观:以往需要自己编写的GPU内核、芯片相关代码,现在交给Claude就能完成,生产力实现了质的飞跃。在使用Claude Code的过程中,我发现员工很少抱怨模型不熟悉代码库,或是缺乏企业工作经验这类问题。所以我的意思是,我们正在走一条不同的技术发展路径。

Dwarkesh Patel你不觉得代码领域的特殊性,是其快速发展的关键原因吗?代码库本身就是一个外部的记忆框架,而其他行业很少有这样的优势。代码领域能快速进步,正是因为具备这一独有的特点,其他经济领域并不具备这样的条件。

Dario Amodei但你的观点恰恰说明,将代码库读入上下文窗口后,模型就能掌握人类需要通过在线学习才能获得的所有知识。无论这些知识是否被书面记录、是否易于获取,只要能纳入上下文窗口,模型就能快速掌握。这就是我们所定义的学习:人类入职后,需要花六个月时间理解代码库,而模型只需在上下文中读取相关信息,就能瞬间掌握。

Dwarkesh Patel说实话,我对此始终感到困惑。一方面,有很多人给出了和你类似的定性反馈;另一方面,去年有一项知名的研究,相信你也看到了:研究让经验丰富的开发者在自己熟悉的代码仓库中处理拉取请求,开发者反馈使用模型后自己的生产力有所提升,但从实际产出来看,合并的代码量反而下降了20%,模型的使用实际上降低了他们的工作效率。我一直在尝试调和这两种矛盾的现象:一是人们主观上觉得模型提升了生产力,二是从宏观层面来看,软件行业并未出现复兴的迹象,且独立评估也未发现预期中的生产力提升效果。

Dario AmodeiAnthropic内部,这一点是毋庸置疑的。我们面临着巨大的商业压力,而且出于安全考量,我们做的相关工作比其他公司更多,这让我们的发展难度进一步加大。在兼顾商业生存和核心价值观的双重压力下,我们没有任何时间做无用功,也不可能在生产力提升上自欺欺人。我们的营收保持着每年10倍的增长,这背后是实实在在的生产力提升,这些工具确实让我们的工作效率大幅提高。否则,我们为何会担心竞争对手使用这些工具?正因为我们在技术上处于领先地位,且这些工具确实能带来生产力优势,我们才会投入大量精力研发。如果这些工具实则降低了生产力,我们不可能如此费力。每隔几个月的模型发布,就是我们生产力提升的直接体现,这一点无从造假,模型确实带来了生产力的飞跃。

Dwarkesh Patel首先,有研究表明,人们主观上会认为自己的生产力得到了提升,这是一种普遍现象;其次,从最终的产出来看,你们的技术进展确实很快。但按照递归式自我改进的理论,模型越优秀,就越能帮助我们研发出更优秀的下一代模型,形成正向循环。但我观察到的现实是,OpenAIDeepMind等公司的技术领先地位一直在频繁更迭。或许你认为这种更迭最终会停止,因为Anthropic会成为最终的赢家,但如果代码模型真的能带来巨大的生产力提升,为何拥有最优秀代码模型的公司,无法保持持久的领先优势?

Dario Amodei并非如此,我认为领先优势正在逐步积累。目前,代码模型能带来的全要素生产效率提升大概在15%20%,而六个月前这一比例仅为5%5%的提升微乎其微,几乎无法被感知,而现在,这一提升已经成为影响企业竞争力的重要因素之一,且提升幅度还在持续加大。六个月前,多家公司的技术水平处于同一梯队,因为代码模型带来的生产力提升并不显著,而现在,领先优势开始逐步显现。此外,市场上有多家公司都在研发代码模型,我们也无法完全阻止其他公司内部使用我们的模型,这也在一定程度上缩小了技术差距。我们目前观察到的所有现象,都符合滚雪球式的发展模型:技术进步并非一蹴而就,而是呈现出平稳的指数增长,只是增长曲线相对陡峭。这就像滚雪球,优势会从10%逐步积累到20%25%40%当然,根据阿姆达尔定律,我们需要逐步解决所有阻碍系统闭环的问题,而这也是Anthropic目前的核心工作重点。

Dwarkesh Patel我们退一步来看,之前我们讨论了在线学习的问题,而你认为代码领域其实并不需要在线学习,即便缺乏人类这种基础的在职学习能力,依然能实现巨大的生产力提升,甚至AI企业能创造数万亿美元的营收。或许这并非你的核心主张,你可以对此进行澄清。但在绝大多数经济领域,企业都会说:我雇佣了一名员工,前几个月他的价值并不高,但随着时间的推移,他逐步积累了背景知识,之后就成为了核心骨干,为企业创造了巨大价值。如果AI始终无法发展出即时学习的能力,我很难相信,它能给世界带来颠覆性的改变。

Dario Amodei我认为可以从两个方面来看。首先是当前的技术现状:模型训练依然分为预训练和RL两个阶段,通过向模型输入海量数据和任务,实现泛化能力的提升。这一过程本质上也是一种学习,只是与人类的学习不同,它需要更多的数据,并非在单个模型的生命周期内完成,而是介于人类进化和人类学习之间的过程。

但一旦模型掌握了这些技能,就会形成稳定的能力。就像预训练后的模型,其知识储备远超人类:它对日本武士历史的了解比我深,对棒球的认知比我全面,还精通低通滤波器和电子学等专业知识,其知识的广度是人类无法企及的。我认为,仅凭这一点,模型就有望在所有领域超越人类。此外,在现有技术框架下,通过缩放优化,模型的上下文学习能力也在持续提升,我将其视作人类的在职学习,只是目前的能力稍弱,且属于短期学习范畴。给模型提供一些示例,它就能快速理解并掌握相关技能,这是真实存在的上下文学习能力。而百万级的Token上下文窗口,能承载的信息体量巨大,相当于人类数天的学习内容。我认为,现有范式下的这两种能力,就足以让我们实现数据中心里一个国家的天才智能体这一目标。我无法完全确定,但这两种能力至少能让我们实现这一目标的绝大部分。或许会存在一些能力缺口,但可以肯定的是,仅凭目前的技术,就足以创造数万亿美元的年营收。

其次,关于持续学习,也就是单个模型的在职学习能力,我们也在开展相关研究,且我认为未来12年内,我们很有可能攻克这一难题。当然,即便没有这一能力,我们也能实现大部分的技术目标,数万亿美元的年市场规模、我在《Adolescence of Technology》中提到的国家安全和AI安全相关议题,都能在现有技术框架下得到解决。但我们和其他同行一样,都在研发持续学习技术,且有较大把握在12年内取得突破。目前有很多研发思路,我不展开细说,其中一个核心思路就是提升上下文窗口的长度。从技术上来说,没有任何障碍能阻止长上下文窗口的实现,只需在长上下文下进行训练,并解决推理阶段的部署问题即可。这两个都是工程问题,我们正在全力攻克,我相信其他公司也在做相关研究。

Dwarkesh Patel说到上下文窗口的提升,2020年到2023年期间,从GPT-3GPT-4 Turbo,上下文窗口从2000Token提升到了128K Token,实现了大幅突破。但在那之后的两年里,上下文窗口的规模基本停留在这一水平,没有太大的进展。而且有研究表明,当模型的上下文窗口远超这一规模时,其对整体上下文的理解能力会出现明显的质损。我很好奇,你们内部是基于什么判断,认为未来能实现1000万、1亿甚至更高的Token上下文窗口,让模型具备人类六个月的学习能力?

Dario Amodei这并非研究问题,而是工程和推理层面的问题。要实现长上下文窗口的部署,需要存储完整的键值缓存,而将大量内存存储在GPU中,并实现内存的灵活调度,是一项技术难题。具体的技术细节我现在已经无法完全掌握了,在GPT-3时代,我还清楚了解模型的权重和需要存储的激活值,但如今随着混合专家模型的出现,整个技术体系已经发生了翻天覆地的变化。至于你提到的能力质损问题,抛开具体技术细节不谈,有一个核心问题需要明确:模型的训练上下文窗口和部署上下文窗口是两个不同的概念。如果在小上下文窗口下训练模型,却在大上下文窗口下部署使用,就很可能出现能力质损的问题。这种情况下的大上下文窗口依然有其价值,所以很多企业会选择推出相关产品,但质损问题是客观存在的。而在大上下文窗口下进行训练,本身就是一项更具挑战性的工作,这也是目前技术发展的难点所在。

Dwarkesh Patel我也想过,在大上下文窗口下训练,意味着相同计算量下的样本训练量会减少,但这个问题我们暂且不深入探讨。我想回到核心问题上:什么时候,我会对入职六个月的人类剪辑师和合作六个月的AI剪辑师,不再产生偏好?你对这一时间点的预测是什么?

Dario Amodei我的判断是,这一目标的实现,和数据中心里一个国家的天才智能体的实现是同步的。如果非要让我给出一个具体的时间,我认为是12年,也有可能是13年,很难做出精准的预判。我有95%以上的把握确定,这一目标会在10年内实现,这是一个非常稳妥的判断。而我个人的直觉是,这一目标更有可能在12年内实现,最晚也不会超过3年,这一判断的概率大概在50%

Dwarkesh Patel也就是说,数据中心里一个国家的天才智能体出现的同时,视频剪辑这种经济价值相对较低的任务,也能被AI完美胜任。

Dario Amodei我得说,视频剪辑的经济价值其实相当高,只是这类应用场景还有很多而已。

算力布局战略考量:激进技术预测下的谨慎商业决策

Dwarkesh Patel你预测这会在13年内实现。Anthropic此前也做出过预测,到2026年末、2027年初,AI系统将具备以下能力:能操作人类当前数字化工作所使用的各类界面,智力水平达到甚至超过诺贝尔奖得主,还能与物理世界进行交互。两个月前,你在接受《DealBook》采访时,强调Anthropic在计算量缩放方面比竞争对手更为谨慎。我一直在尝试调和这两种观点:如果你真的相信,我们即将迎来数据中心里一个国家的天才智能体,那你应该尽可能扩大数据中心的规模,没有任何理由放缓脚步。毕竟,一个真正具备诺贝尔奖得主能力、能完成所有相关工作的AI系统,其潜在市场规模高达数万亿美元。所以我很难理解,这种看似理性的保守策略,与你对AI发展的激进预测,为何能共存。

Dario Amodei其实这两者并不矛盾,核心还是我们之前提到的——技术发展和渗透会极其迅速,但并非无限快。假设技术按照目前的速度发展,我有极高的把握认为,我们会在几年内实现目标,甚至直觉告诉我,12年内就能实现。技术层面虽有一定的不确定性,但整体偏差不会太大。而我更不确定的,依然是经济渗透的速度。

我坚信,12年内,数据中心就有可能诞生一个国家的天才智能体,但问题在于,这一技术突破后,还需要多久才能创造数万亿美元的营收?我认为这一过程并非一蹴而就,有可能1年,有可能2年,甚至极端情况下可能需要5年,只是我对5年这一预判持怀疑态度。正是这种不确定性,让我们在决策时必须保持谨慎:即便技术发展如我预期般迅速,我们也无法准确判断其转化为营收的速度。我们知道营收增长终将到来,但数据中心的建设需要提前规划,如果判断偏差一两年,就可能给企业带来毁灭性的打击。

我在《Machines of Love and Grace》一文中也提到过这一点:我认为我们有望在2026年,或许2027年,实现强人工智能,也就是数据中心里一个国家的天才智能体,你刚才提到的能力描述,正来自我的这篇文章。这是我的直觉判断,即便偏差一两年,我也不会感到意外。但假设这一技术在20262027年成为现实,这只是一个开始,后续的经济转化还需要时间。比如攻克所有疾病,这是技术创造巨大经济价值的重要方向。治愈所有疾病能带来海量的经济价值,至于这些价值会如何分配给制药公司和AI公司,暂不讨论,但这会产生巨大的消费者剩余——前提是所有人都能获得相关的医疗技术,这也是我非常关注的一点。但从技术突破到实现全民治愈,需要多久?首先要完成生物领域的发现,然后实现新药的量产,还要通过繁琐的监管审批流程。我们从新冠疫苗的研发就能看到这一点:疫苗的研发速度已经创下了历史纪录,但从研发成功到全民接种,依然花了一年半的时间。我的问题是:AI作为能研发出所有疾病治愈方案的天才,从它在实验室中诞生,到真正实现全民治愈,需要多久?脊髓灰质炎疫苗已经诞生了50年,我们至今仍在努力在非洲最偏远的地区根除这一疾病,盖茨基金会和其他机构都在全力以赴,但难度依然巨大。当然,我认为绝大多数领域的经济渗透,不会像医疗领域这么困难,这是最极端的案例。但这背后存在一个真实的两难选择:我认为技术的渗透速度会远超以往任何事物,但依然存在客观限制。

这也就决定了我们在数据中心建设上的决策逻辑:我们的营收保持着每年10倍的增长,今年初的年化营收已经达到100亿美元,我们需要基于这一趋势,决定采购多少计算量。而数据中心的建设和算力储备,需要提前12年规划,也就是说,我们需要预判2027年的算力需求。如果我们假设营收继续保持每年10倍的增长,那么2026年末的营收将达到1000亿美元,2027年末将达到1万亿美元,基于此,我们需要采购5万亿美元的算力(按五年使用周期计算,每年1万亿美元),并在2027年末完成部署。但如果实际营收未达到1万亿美元,哪怕只有8000亿美元,那么无论采取何种对冲手段,企业都将面临破产的风险。因此,即便我内心认为营收可能继续保持10倍增长,也无法贸然在2027年采购1万亿美元的年算力。如果增长速度的预判偏差一年,或是实际增长速度为每年5倍,而非10倍,企业就会陷入危机。

所以我们最终的选择是,将算力规模锁定在支撑数千亿美元营收的水平,而非数万亿美元,同时接受两种风险:一是算力不足,无法满足营收增长的需求;二是技术发展速度不及预期,算力出现闲置。我在采访中提到的谨慎发展,并非指算力采购的绝对规模——诚然,我们的算力投入比部分竞争对手略少,更核心的是研发策略的合理性。有些公司的做法显得过于激进,动辄投入数千亿美元采购算力,我感觉他们并未做过严谨的财务测算,也没有真正理解背后的风险,只是为了追求技术噱头而盲目投入。而我们做了充分的考量:Anthropic是一家面向企业的科技公司,营收来源更稳定,不像消费级产品那样易受市场波动影响,且我们的利润率更高,这为算力采购的决策偏差提供了缓冲空间。因此,我们的算力采购规模,既能让我们抓住大部分的增长机会,又能避免在极端情况下陷入财务危机,即便增长不及预期,也不会面临破产的风险。这就是我所说的谨慎发展的核心含义。

Dwarkesh Patel如此看来,我们对数据中心里一个国家的天才智能体的定义,或许存在本质差异。在我看来,如果数据中心真的诞生了堪比人类天才的智能体,即便投入5万亿美元采购算力也是值得的。就算摩根大通、莫德纳等企业拒绝使用,这些天才智能体也能自己创立公司,创造价值。即便受限于临床试验等环节无法快速商业化,也需要明确的是,绝大多数临床试验的失败,原因在于药物本身无效,而非疗效无法验证。

Dario Amodei我在《Machines of Love and Grace》一文中也明确提到了这一点:临床试验的推进速度会大幅加快,但绝非一蹴而就。

Dwarkesh Patel假设临床试验的周期缩短为一年,一年后就能通过新药实现营收,并投入更多资源研发新的药物。而作为AI实验室,你们本身就需要大量的AI研究人员,且你也认为,优秀的人才参与AI研发会带来自我强化的正向收益。那么,这些数据中心里的天才智能体,完全可以直接参与AI技术的研发,推动技术进一步突破。

Dario Amodei问题在于,每年投入1万亿美元采购算力,相比3000亿美元,能带来的收益提升是否足够显著?

Dwarkesh Patel如果你的竞争对手投入了1万亿美元,那么答案就是肯定的。

Dario Amodei确实会带来一定的收益提升,但与此同时,他们也面临着巨大的风险——如果预判偏差一年,企业就会破产,这就是需要权衡的地方。我们的算力采购规模并不小,甚至可以说非常大,和行业内的头部企业处于同一水平。但如果你问我,为何没有签署2027年年中部署10万亿美元算力的协议,原因有两点:第一,全球目前的算力产能,根本无法支撑如此大规模的部署;第二,如果数据中心里的天才智能体2028年年中才实现,而非2027年年中,那么企业将直接破产。

Dwarkesh Patel你的预测是13年内实现这一目标,那么到2029年,你们应该会投入10万亿美元采购算力。但从你目前的表述来看,即便按照最长的时间线,你们规划的算力建设规模,也与这一目标不匹配。

Dario Amodei你为何会有这样的判断?人类每年的薪资支出高达50万亿美元,而从行业整体来看,今年的算力建设规模,大概在100150吉瓦左右(我大致估算),且每年会保持3倍左右的增长。也就是说,明年的算力规模会达到300400吉瓦,2028年达到1000吉瓦,2029年达到3000吉瓦。而每吉瓦算力的年投入成本约为100亿到150亿美元,简单计算就能得出,20282029年,行业整体的算力年投入将达到数万亿美元,这和你的预期完全一致。

Dwarkesh Patel但这是行业整体的规模,并非Anthropic一家的投入。

Dario Amodei没错,这是行业整体的规模。

Dwarkesh Patel假设Anthropic的算力投入每年保持3倍增长,到20272028年达到10吉瓦,按照每吉瓦100亿美元的成本计算,年投入规模约为1000亿美元。

Dario Amodei但你忽略了未来的市场规模,20282029年的潜在市场规模会远超这一水平。我不便透露Anthropic的具体数值,但可以明确的是,你估算的这些数字,都太小了。

AI行业的特殊盈利逻辑:算力预判与需求的动态博弈

Dwarkesh Patel你曾向投资者表示计划2028年实现盈利,而彼时Anthropic有望打造出天才数据中心,解锁医疗、健康等领域的技术突破。为何在这个技术爆发的关键节点,选择追求盈利而非持续加大投入、打造更大的算力体系以推动更多发现?

Dario AmodeiAI领域,盈利是一个很特殊的概念,它并不能作为衡量企业是消耗资金还是投入业务的标准。我认为,这个行业的盈利本质上源于对市场需求的低估,而亏损则是因为高估了需求——毕竟企业需要提前布局数据中心、购置算力。我用一个简化模型来解释这个逻辑,这些数字并非精准数据,只是为了说明核心原理。

假设企业的算力中,50%用于模型训练,50%用于推理,而推理业务的毛利率能超过50%。在稳定的行业状态下,若能精准预判需求,营收与算力投入的经济模型是清晰的:比如每年投入1000亿美元算力成本,其中500亿美元支撑的推理业务能带来1500亿美元营收,另外500亿美元用于模型训练,最终能实现500亿美元的利润。这也是我们对未来1-2年行业经济模型的预判。

打破这个模型的唯一因素就是需求偏差:如果实际推理需求不足500亿美元对应的规模,那么用于研发的算力占比会超过50%,企业就无法盈利,但能训练出更强大的模型;如果需求超出预期,研发算力会被挤压,推理业务占比提升,企业盈利会更高。简单来说,企业需要先确定算力投入规模,再设定训练与推理的算力分配目标,但最终的分配比例由市场需求决定,而非企业主观设定。

Dwarkesh Patel这么说来,你预测2028年盈利,本质是因为Anthropic会系统性地低估算力需求,对吗?

Dario Amodei首先,要预判2028年的情况本身就极具难度,这只是我们为了向投资者做出的最合理尝试,所有预判都存在高度不确定性——如果营收增长足够快,我们甚至可能2026年就实现盈利;而如果后续对需求的预判出现偏差,盈利状态也会大幅波动。

很多人会有一个固有认知:企业需要持续投入、实现规模效应后,才能在某个节点实现盈利反转。但我认为,AI行业的经济逻辑并非如此。

Dwarkesh Patel我理解的核心是,因算力投入与实际需求的偏差,Anthropic会被动实现盈利,但这并不意味着会持续盈利。一旦AI技术取得重大突破,你们仍会将利润重新投入研发,打造更大的天才算力体系,而如果需求预判再次出错,即便营收很高,企业也可能再次陷入亏损,对吗?

Dario Amodei没错。如果每年都能精准预判需求,企业必然能实现盈利——毕竟50%算力用于研发、推理业务毛利率超50%的底层模型是成立的。精准的需求预判会直接带来盈利,这是AI行业本身具备的盈利商业模式,只是被提前布局算力、需求预判误差这些因素所掩盖。

Dwarkesh Patel50%的算力分配比例视为一个既定常量,但实际情况是,如果AI技术进步速度极快,加大算力投入能显著提升技术突破的可能性,企业就应该将超过50%的算力用于研发,而非追求盈利。

Dario Amodei理论上确实可以加大研发算力投入,但必须考虑算力投入的对数线性回报规律。比如将研发算力占比提升至70%,额外200亿美元的投入可能仅能让模型性能提升1.4倍,每一分钱的投入回报都会大幅下降。此时,将这200亿美元投入到推理业务落地,或聘请更优秀的工程师,能获得更高的收益。

我提到的50%并非Anthropic的固定目标,这个比例会随时间动态变化,核心是对数线性回报规律决定了研发算力的投入比例会维持在一个合理区间——既不会低至5%,也不会高至95%,过度投入会因边际回报递减而失去价值。

Dwarkesh Patel我似乎在说服你相信AI技术的突破潜力,但你却认为研发存在边际回报递减,转而倾向于将资金投入其他领域。

Dario Amodei需要明确的是,我们讨论的边际回报递减,是在每年研发算力投入达到500亿美元的基础上产生的,并非否定研发的价值。

Dwarkesh Patel但天才算力体系的边际回报可能会极高,而从市场经济的本质来看,盈利意味着其他企业能利用这笔资金创造更多价值。

Dario Amodei我之所以用这些简化数字,是因为不想透露Anthropic的具体经营数据。我们不妨推导一下整个AI行业的均衡状态:为什么没有企业将100%的算力用于研发、不服务任何客户?因为如果没有营收,企业就无法融资、无法达成算力合作、无法在未来购置更多算力。

因此,行业必然会形成一个均衡:所有企业的研发算力占比都低于100%,推理算力占比也同样低于100%显然,企业也不能只服务现有模型、从不研发新模型,否则会因技术落后而失去市场需求。这个均衡比例不会是10%,也不会是90%我们用50%作为简化参考,核心是想说明:研发算力的投入比例会低于推理业务的毛利率,这让行业的底层经济逻辑具备盈利性。

真正的难题在于,企业需要提前一年购置算力,而需求预判是一个极其艰难的过程——预判过低会实现高盈利,但研发算力不足;预判过高则会亏损,但拥有充足的研发算力。这就是AI行业动态的盈利与研发模型,你能理解吗?

Dwarkesh Patel或许我们可以换个角度。你的结论看似合理,本质是因为打造天才数据中心的难度极大、需要长期投入。我想探讨的核心是,你的世界观是否认同:我们距离AI创造数万亿美元价值的时代,还有大约10年的时间。

Dario Amodei这并非我的观点。我可以做出一个预测:很难想象2030年前,AI行业不会产生数万亿美元的营收甚至我能构想出一个合理的场景,这个目标仅需3年就能实现。

2028年,我们将打造出真正的天才数据中心,彼时行业营收可能达到数千亿美元的规模;而天才数据中心会成为技术加速器,推动营收快速跃迁至万亿美元级。即便按最慢的技术扩散速度,这个过程也仅需2年,也就是到2030年。我认为,技术指数级进步与商业指数级扩散的叠加,会让我们提前实现这个目标。

Dwarkesh Patel你构建的模型中,Anthropic实现盈利的核心是当前行业处于算力约束的状态,而随着算力的持续扩张,盈利会成为必然结果,对吗?

Dario Amodei并非如此。我认为行业盈利的核心,需要从整个AI产业的视角来分析,我们不妨假设处于经济学教科书的理想状态:行业内仅有少数几家企业,每家企业的投入规模有限,可将部分资金投入研发,推理业务的边际成本极低、毛利率极高。

尽管行业存在竞争,但AI模型具备显著的差异化特征,企业会为了提升竞争力而加大研发预算,但由于玩家数量有限,行业会形成卡诺均衡——这种少数企业的竞争均衡,并不会像完全竞争市场那样走向零利润。

Dwarkesh Patel请你进一步解释这个观点,当前行业恰好有三家头部企业,但均未实现盈利,未来究竟会发生怎样的变化?

Dario Amodei首先需要明确,当前AI企业的推理业务毛利率已经处于较高水平,未实现盈利是由两个因素共同导致的:第一,行业仍处于算力的指数级扩张阶段。我们用一组简化数字来说明:去年投入10亿美元训练的模型,今年能带来40亿美元的营收,而推理成本仅为10亿美元,毛利率达到75%,这个模型本身能实现20亿美元的利润;但同时,企业需要投入100亿美元训练下一代模型,最终导致企业整体亏损。

简单来说,单个模型具备盈利性,但企业为了技术迭代的指数级算力投入,让整体处于亏损状态。我所说的行业均衡,是当天才数据中心落地后,模型训练的算力扩张速度趋于平稳——并非停止扩张,只是增速放缓,需求预判的难度也会降低,此时企业的整体盈利性就会显现。

Dwarkesh Patel认同你对当前行业的判断:如果将单个模型视为独立主体,它是具备盈利性的。但对于前沿AI实验室而言,训练下一代模型是核心生产环节,如果停止这项投入,企业可能会在短期内实现盈利,但很快会因技术落后而失去毛利率,这种盈利仅能维持两个月。

Dario Amodei当行业达到最大的算力扩张规模后,会进入一个新的均衡:此时算法仍会持续进步,但训练下一代模型的算力投入,会与当前模型的研发投入大致相当。

Dwarkesh Patel也就是说,这个均衡的实现,依赖于算力投入的天花板。

Dario Amodei从本质上来说,经济体的资金总量是有限的,这会成为算力投入的天然约束。

Dwarkesh Patel但经济本身会实现增长,这也是你的核心预测之一,而算力扩张会处于经济增长的这个阶段中。

Dario Amodei这也印证了我之前提到的核心观点:AI将推动经济实现前所未有的高速增长。当前算力规模每年实现3倍扩张,但我并不认为经济能实现300%的年增长率——我曾在《爱的机器》中提到,AI可能推动经济实现10%-20%的年增长率,而非300%因此,当算力成为经济体的核心产出时,其扩张速度最终会受制于经济增长本身。

Dwarkesh Patel假设算力扩张被经济增长所约束,那么前沿AI实验室实现盈利的前提,是持续的技术快速进步——毕竟企业的毛利率由替代技术的竞争力决定,只有拥有前沿模型,才能维持高毛利率。如果失去技术领先性,盈利就无从谈起。这意味着,行业的盈利均衡需要永远不存在稳定状态,算法进步必须持续推进。

Dario Amodei我并不认同这个观点,这背后是基本的经济学逻辑。

Dwarkesh Patel没错,我们一直在探讨经济学层面的逻辑。

Dario Amodei首先,AI行业不会形成垄断——我的律师一直不希望我提及垄断这个词,但行业最终不会由单一企业主导,而是会形成少数企业共存的格局。在经济体中,垄断的形成往往源于网络效应,比如Meta;而少数企业共存的格局,核心原因是极高的行业进入成本。

云计算行业就是典型的例子,最终形成了3-4家头部企业的格局,AI行业也会如此。原因在于,运营一家AI企业需要巨额的资本投入、顶尖的专业技术和丰富的行业经验,即便有人拿出1000亿美元,宣称要颠覆AI行业,也需要完成诸多头部企业已经实现的核心工作,难度极大。

Dwarkesh Patel新进入者会降低行业的利润率。

Dario Amodei确实,新进入者的出现会导致行业利润率下降,但这种少数企业共存的均衡状态,在经济体中是普遍存在的——行业利润率并非极高,但也不会归零,云计算行业就是如此。

更重要的是,AI模型的差异化程度远高于云计算服务Claude有其独特的优势,与GPTGemini的能力边界存在显著差异,这种差异并非简单的克劳德擅长编码、GPT擅长数学推理,而是体现在不同类型的编码能力、模型输出风格等更细微的维度,模型之间的差异性是客观且显著的。

当然,存在一个反方观点:如果AI模型能够自主完成模型研发的全部工作,那么行业壁垒会消失,技术会在整个经济体中扩散。但这并非意味着AI模型本身会商品化,而是意味着整个经济体的商品化——当任何人都能借助AI完成任何工作、打造任何产品,所有领域的行业壁垒都会消失。我无法预判这个世界的具体形态,但如果真的实现,前提是解决了所有AI安全问题,且处于天才数据中心落地后的遥远未来。

Dwarkesh Patel更精准的说法或许是:第一,AI研发高度依赖纯智力能力,而AGI时代会让这种能力变得极其丰富;第二,当前AI算法的进步速度,是人类历史上扩散最快的技术之一,这意味着AI行业具备结构性的扩散特征。

Dario Amodei当前代码开发的技术进步很快,但AI研发是代码开发的超集,其中部分环节的进步速度并不快。不过,当AI模型能够自主完成代码开发后,其推动其他领域进步的能力也会大幅提升。因此,当AI模型能够自主研发下一代模型、完成所有工作时,整个经济体的进步速度会趋于一致。

但我存在一个地域层面的担忧:近距离接触AI技术、了解AI发展动态,可能会成为未来的核心差异化优势。我所说的10%-20%的经济年增长率,可能会呈现出显著的地域差异——硅谷及与硅谷有紧密社会联系的地区,经济增长率可能达到50%,而世界其他地区的增长速度则与当前相差无几。这会是一个极其糟糕的结果,也是我一直在思考如何避免的问题。

AGI时代的技术突破:机器人技术与持续学习的核心解

Dwarkesh Patel天才数据中心落地后,机器人技术是否会随之快速实现突破?当前机器人技术的核心难题是,人类能通过远程操作掌控现有硬件,但AI模型无法实现高效的自主操作。如果AI模型拥有人类级别的学习能力,是否会立即解决机器人技术的核心问题?

Dario Amodei机器人技术的突破,并非依赖于人类级别的学习能力,其实现路径是多元的。比如,我们可以在大量电子游戏、机器人仿真环境中训练模型,让其掌握机器人控制能力;也可以训练模型掌控计算机界面,使其具备泛化能力。机器人技术的突破是必然的,人类级别的学习能力只是其中一条路径。

比如,模型可能拿起一个从未接触过的机器人,通过持续学习掌握其操作方法——这需要我们攻克持续学习的难题;也可以通过在大量环境中训练,让模型实现能力泛化;还可以依托足够长的上下文窗口,让模型无需持续学习也能完成操作。无论哪种方式,最终都能实现机器人技术的突破。

回到我们一小时前的讨论,这类技术突破的实现路径是多样的。而当模型具备机器人控制能力后,机器人技术将迎来革命性变革——不仅是机器人的操控能力,模型在机器人硬件设计上的能力也会远超人类,我们会在机器人物理硬件的研发和操控两个维度,实现双重突破。

那么,机器人行业是否会随之产生数万亿美元的营收?我的答案是肯定的,但技术扩散会遵循极快但非无限快的规律,机器人技术的全面突破,可能会比天才数据中心的落地晚1-2年,这是我对该领域的判断。

Dwarkesh Patel当前存在一种对AI技术快速突破的怀疑:你认为人类会在几年内攻克持续学习的难题,而就在几年前,人们还未意识到这个问题的重要性。直到我们发现,尽管AI模型已经通过图灵测试、在多个领域具备专家能力,但实际实用性仍有欠缺,才意识到持续学习是核心瓶颈。未来我们解决了持续学习问题后,可能会发现人类智能还有其他核心能力,是当前AI模型所不具备的,而这正是人类劳动的核心基础。为何我们要认为,这类核心难题会越来越少?

Dario Amodei首先需要明确的是,持续学习或许根本就不是AI技术的核心壁垒。我们可能通过预训练泛化和强化学习泛化,直接实现模型的持续学习能力,这个难题可能从根本上就不存在。

事实上,机器学习的发展历史已经证明,很多曾被视为核心壁垒的问题,最终都会在算力的规模化投入中迎刃而解。比如,人们曾质疑模型无法区分名词和动词、无法实现语义理解,只能捕捉统计关联;质疑模型能理解单词但无法理解段落、不具备推理能力。但如今,模型已经能高效完成代码开发、数学推理等复杂任务,这些曾经的难题都已被解决。

当然,并非所有问题都是如此,比如数据需求是AI发展的真实约束,持续学习也可能是真实存在的难题。但我们可以以代码开发为参照:未来1-2年,模型可能实现代码开发的端到端自主完成,这意味着一个完整的人类劳动领域,将完全由AI接管。

Dwarkesh Patel你所说的端到端自主完成,是否包括设定技术方向、理解问题背景等全部环节?这听起来已经接近AGI的水平,而非简单的完成90%100%的代码开发工作。

Dario Amodei并非仅指代码开发,而是一个连续的能力谱:从完成90%的代码开发,到100%,再到完成90%的软件工程任务,直至100%;新的软件工程任务被创造出来后,模型也能逐步完成。这是一个漫长的能力谱,但我们正在以极快的速度穿越这个过程。

Dwarkesh Patel我发现一个有趣的现象,在你参与的多个播客中,主持人都会提及你对算力和持续学习的看法,这总让我觉得很有趣——你拥有10年的AI研究经验,而一个播客主仅凭一篇文章,就在每次采访中向你追问这个问题。

Dario Amodei事实是,我们所有人都在共同探索AI的发展路径。如今我能看到一些其他人看不到的东西,更多是因为我能接触到Anthropic的内部运营,需要做出大量的经营决策,而非我拥有超越其他人的研究洞察力。毕竟,我现在管理着一家2500人的公司,这让我很难再产生具体的研究洞察力,远比10年前,甚至2-3年前要难得多。

AGI时代的商业模式:API的生命力与多元定价逻辑

Dwarkesh PatelAI发展到能全面替代远程工作者的阶段,API的定价模式是否仍具合理性?如果不具备,AGI的正确定价和服务模式应该是什么?

Dario AmodeiAGI时代会诞生多种商业模式,企业会同时进行大量尝试,而我认为API模式的生命力比很多人想象的更持久。核心原因在于,若AI技术保持指数级进步,每3个月就会诞生一批新的应用场景,任何固定的产品形态都面临被淘汰的风险——一款产品仅能适配特定能力的模型,比如聊天机器人已经遇到瓶颈:提升模型的智能水平,对普通消费者的体验提升有限。但这并非意味着模型的进步对经济没有价值,只是针对该产品的价值已经触顶。

API模式的核心价值,在于贴近算力底层,让开发者能够基于最新的模型能力,开发新的应用。AI技术的进步,会持续催生新的创业公司和新的想法,这些想法在几个月前还无法实现,而API模式为其提供了核心支撑。因此,我认为API模式会与其他模式长期共存,且始终具备生命力:总有上千人想要以不同方式尝试最新的模型,其中上百人会创立创业公司,10家会发展成为成功的大企业,2-3家会成为某一代模型的核心应用方。这一过程会持续发生,让API模式始终具备存在的意义。

同时,我相信会诞生其他商业模式,因为模型输出的每一个token的价值并非均等。比如,当用户询问“Mac电脑无法工作怎么办,模型回答重启电脑,这个回答已经被输出过千万次,其价值可能仅为几美分或一美元;而当模型向制药企业建议将某分子的芳香环从一端移至另一端,会带来显著的药物效果提升,这个回答的价值可能达到数千万美元。

因此,行业必然会诞生按结果付费的商业模式,也可能出现按小时计费的劳务式定价模式。由于AI是一个全新的行业,所有商业模式都需要经过尝试,我无法预判最终哪种模式会成为主流。

Dwarkesh Patel我认同你的观点,人们需要通过不断尝试,找到利用AI智能的最佳方式。但让我感到意外的是,Claude Code成为了行业爆款——在创业史上,从未有一个应用像代码代理这样引发如此激烈的竞争,而Claude Code成为了该领域的领导者。这看似并非Anthropic的必然选择,我想知道,为何Anthropic会在打造底层模型的同时,开发这款应用?

Dario Amodei这件事的发生其实非常简单。Anthropic本身拥有擅长代码开发的模型,2025年初,我提出一个观点:对于AI企业而言,利用自身模型加速内部研发,已经具备可行性。而要实现这一点,需要相应的界面和工具来支撑模型的使用。

因此,我鼓励内部员工进行相关尝试——并非强制要求,只是建议大家探索。最初这款工具被命名为Claude Cli,后更名为Claude Code,它在内部实现了快速普及。我观察到这一现象后认为,既然它在Anthropic内部获得了如此快的采用,而编码是我们的核心工作之一,内部数百人的使用群体足以代表外部的目标受众,这说明产品已经具备产品市场契合度,因此我们决定将其对外发布。

核心原因在于,Anthropic既是模型的开发者,也是模型的核心使用者,我们清楚自身对模型的核心需求,这形成了一个正向的反馈循环。

Dwarkesh Patel也就是说,Anthropic的开发者会提出模型在某方面的能力需要提升,而你们会将这个需求融入下一代模型的研发中。

Dario Amodei这是反馈循环的一部分,而更基础的产品迭代逻辑是:Anthropic拥有大量的程序员,他们每天都在使用Claude Code,这让我们能获得快速的内部反馈。这在产品早期尤为重要,如今已有数百万人使用Claude Code,我们也能获得大量的外部反馈,但内部的快速反馈依然具备不可替代的价值。这也是我们选择开发编码模型,而非进军制药行业的原因——我的专业背景是生物学,但Anthropic并不具备进军制药行业的资源和能力。

Dwarkesh Patel回到核心问题,要让AI实现良性发展,其愿景必须兼容两个核心事实:第一,AI的研发和运行能力正在以极快的速度扩散;第二,AI的数量和智能水平也在快速提升。这意味着,未来会有大量的人能够研发出大规模的未对齐AI——这些AI如同追求规模扩张的企业,或拥有特殊思维模式,且具备超人类的能力。你认为,如何构建一个兼容大量未对齐AI存在的、良性的行业均衡?

Dario Amodei在技术发展的初期,我曾对这种权力平衡的状态持怀疑态度,尤其是对三家头部企业研发同源模型,能够相互制衡的观点——我们可能处于一个进攻占优的世界,一个人或一个AI模型,就足以做出对其他所有主体造成损害的行为。

但在短期内,行业内的玩家数量有限,我们可以从这个角度出发,采取核心的安全措施:首先,在少数头部企业之间,建立完善的安全防护体系;其次,确保所有企业都开展扎实的AI对齐研究;最后,让所有企业都配备生物分类器等安全工具。这些是我们当前需要立即采取的措施。

我认同,这些措施无法解决长期的安全问题,尤其是当AI模型能够自主研发下一代模型,技术扩散成为常态后,安全问题的解决难度会大幅提升。但当前阶段,我们需要先从少数玩家的安全平衡开始,逐步探索长期的安全解决方案。

Dario Amodei从长远来看,人类需要一套全新的治理架构。这套架构既要维护人类的自由,又要能对数量庞大的人类系统、AI系统,以及人机混合的企业或经济单元进行有效管控。我们必须思考,如何保护世界免受生物恐怖主义的威胁,如何防范人工生命带来的风险——或许,我们需要一套AI监测系统来应对这些问题,但这套系统的构建必须以保护公民自由和宪法权利为前提。

这就像人类面对所有新生事物一样,AI带来了全新的安全格局,伴随而来的是新的工具和新的脆弱性。我担心的是,如果有100年的时间慢慢推进这一切,人类完全能适应——就像我们逐渐适应了社会中的爆炸物、各类新武器,以及摄像头的存在一样,我们会在试错中建立治理机制,慢慢习惯这一切。但现在的问题是,AI的发展速度太快了,所以我们必须以更快的速度,思考如何让这些治理机制落地生效。

Dwarkesh Patel在未来一个世纪,我们似乎会身处一个进攻占优的世界——AI让原本百年的技术进步压缩到5-10年,但我们依然需要相同的权力制衡机制。即便只有人类参与,权力平衡本身就是一个难解的问题,AI的加入似乎并没有让它变成一个完全不同的难题:如果制衡机制对人类有效,对AI也会有效;如果对人类无效,对AI亦然,这或许也意味着人类的制衡体系本身就面临失效。

Dario Amodei但我依然认为,我们有办法实现有效的制衡。这需要世界各国政府的合作,甚至可能需要人类与AI对话,共同构建能实现有效防御的社会结构。当然,这一切都基于极高的技术水平,且会在短期内发生,我们现在很难提前预判所有细节。

AI监管的博弈:反对无方案暂停,支持联邦统一标准

Dwarkesh Patel说到政府介入,田纳西州议会曾提出一项法案,称故意训练人工智能为用户提供情感支持(包括开放式对话)的行为应受保护”——Claude的核心功能之一,就是成为用户贴心、博学的朋友。目前来看,美国各州的AI立法呈现出碎片化特征,普通人能从AI中获得的福利可能会被不断限制,尤其是《爱的机器》中提到的生物自由、心理健康改善等价值。我们很容易想象,这些AI福利会被各类法律层层削弱,而这类法案似乎并未解决你所担忧的核心安全威胁。我想知道,在这样的背景下,Anthropic为何反对联邦暂停各州AI立法的提案?

Dario Amodei当下的情况错综复杂,首先我明确认为,田纳西州的这项法案毫无意义。它显然是由对AI的能力和边界一无所知的立法者制定的——在他们看来,AI提供情感支持听起来很可怕,所以就要做出相关规定,我们完全不支持这样的立法。

但这次被投票的提案,并非针对这类无意义法案,而是要求未来10年禁止所有州对AI进行监管,且没有任何明确的联邦监管方案。联邦立法需要国会通过,这本身就是一个极高的门槛,而提案中所谓的联邦监管计划,既没有具体方案,也没有实际推进动作。结合我在《技术的青春期》中提到的生物武器、生物恐怖主义、自主化风险等严重威胁,以及我们讨论的AI发展时间线,10年的时间对AI而言就是永恒,这样的提案简直是疯狂的。

如果非让我们做选择,我们必然会反对这种无方案的监管暂停。这个选择的收益大于成本,尽管它并非完美。而我们真正支持的做法是:联邦政府主动介入,不是简单禁止各州监管,而是制定统一的全国性AI监管标准,禁止各州出台差异化规则。这种联邦前置的模式是合理的,前提是联邦能制定出科学的标准。

各州不能管,联邦也不行动的状态,完全不合逻辑,而且已经开始引发强烈反对,未来只会更站不住脚。至于我们期待的监管路径,核心是从透明度标准起步——为了监测自主化风险和生物恐怖主义风险,企业的透明度是基础;当风险变得更严重、证据更充分时,我们再采取更有针对性的激进措施。比如,当AI生物恐怖主义的威胁切实显现时,我们可以通过法律强制企业配备相关的分类器。

这一切都取决于威胁的严重程度,我们目前无法确定,只能秉持理智诚实的态度推进:风险尚未出现,但以当前的技术发展速度,今年下半年我们就可能发现,AI生物恐怖主义的威胁已经迫在眉睫。到那时,如果联邦政府仍未采取行动,各州就应该出台相关标准,这是完全合理的。

Dwarkesh Patel我担心的是,从技术进步的速度来看,立法的生命周期实在太长了。而AI福利的扩散本身存在滞后性,在当前各州立法碎片化的趋势下,这些福利会被层层限制——比如AI情感陪伴已经让一些人感到不安,更不用说健康改善、寿命延长这些真正的AI福利了。与此同时,你认为核心危险已经近在眼前,但我看不到现有立法能在应对危险的同时,避免对AI福利造成过度伤害,这似乎让监管的成本收益比变得难以成立。

Dario Amodei这里有几个关键点需要厘清。首先,人们总说各州会出台数千项AI相关法律,但绝大多数这类法案都无法通过。而且理论与现实存在差距,即便某项法律被通过,也不代表会被严格执行——执法者可能会认为这项法律太荒谬了,比如要叫停田纳西州所有的AI情感陪伴产品,这显然不切实际。通常,法律的解释和执行会朝着降低危害的方向进行,这一点在限制AI福利的法案上尤为明显。

当然,这一点在应对负面威胁的法律上也同样存在,这是我们需要担忧的。但我的基本观点是,如果我们能决定法律的制定和执行方式(当然,我们只是其中一个微小的参与方),我会大幅放松对AI健康福利相关的监管。

相比之下,我并不太担心这类聊天机器人法案,我更担心药品审批体系——AI会极大加速药物研发的速度,而现有的审批体系完全无法应对井喷的研发成果,整个管线会陷入堵塞。所以,我认为审批体系的改革应该更偏向包容AI研发的药物,其安全性和有效性会变得极其清晰、明确,且效果显著,我们不需要再用适用于效果微弱、副作用严重的传统药物的审批体系来约束它们。

与此同时,我们需要大幅加强AI安全与安保相关的立法。正如我所说,从透明度标准起步,是为了避免过度阻碍行业发展,我们需要找到平衡。当然,我也对此感到担忧,一些人批评我的文章认为这种节奏太慢,因为AI的危险会来得更快。但事实是,过去六个月以及未来几个月,监管的核心就是推进透明度;当风险切实显现、我们有更确定的判断时(最快今年下半年),我们就需要在这些风险领域迅速行动。

立法流程通常是缓慢的,但我们需要向所有相关方强调这件事的紧迫性——这也是我一直在传递紧急信号、撰写《技术的青春期》的原因。我希望政策制定者、经济学家、国家安全专业人士,以及所有决策者都能读到这篇文章,让他们有机会比原本更快地采取行动。

AI福利的普惠:发达世界的市场韧性与发展中国家的本土化

Dwarkesh Patel你能做些什么或倡导些什么,让AI的福利能更切实地落地?你已经与立法者合作,推动生物恐怖主义防范、加强保护、完善举报人制度等举措,但我总觉得,我们期待的那些AI福利,本身就非常脆弱,很容易被各类道德恐慌或政治经济问题扼杀。

Dario Amodei其实在发达国家,我并不太担心这一点。发达国家的市场机制运行得足够好,当一件事能带来巨大的经济利益,且显然是现有最优选择时,监管体系很难真正阻止它——这一点在AI行业本身就已经得到验证。AI福利能带来巨大的经济价值和社会价值时,监管很难真正阻碍它。所以,对于药物研发等AI带来的实际福利,我并不担心发达国家会被过度阻碍,我只是担心其落地速度太慢。正如我所说,我们应该推动FDA的审批流程改革,也应该反对你提到的那些聊天机器人法案——我个人反对所有这类法案,因为它们毫无意义。

但我真正担心的是发展中国家:这些地区缺乏有效的市场机制,甚至无法利用已有的技术,我担心他们会被AI技术抛下。甚至在发达国家内部,也存在这样的问题——比如美国密西西比州的农村地区,可能也无法享受到AI带来的福利。这也是我们正在采取行动的方向:我们与慈善家合作,与那些向撒哈拉以南非洲、印度、拉丁美洲等发展中地区提供医疗和健康干预的机构合作,推动AI福利在这些地区的落地。因为这件事,靠市场本身是无法实现的。

Dwarkesh Patel为什么美国和中国不能都拥有自己的天才数据中心

Dario AmodeiAI技术的扩散最终是不可避免的,初始条件至关重要,我们需要在某个时间点制定出AI时代的游戏规则我并不是说,某个国家——无论是美国,还是一个民主国家联盟(我认为这是更好的选择,尽管这需要比当前更多的国际合作)可以单方面制定规则。这必然需要谈判,世界必须共同面对这个问题。而我希望的是,当规则制定的时刻到来时,那些政府更贴近人本价值的民主国家,能拥有更强的筹码和话语权。这也是我为何如此关注规则制定的初始条件。

Dwarkesh Patel我听过你三年前的一次访谈,其中一个不太准确的判断是,我当时总认为2-3年后会出现一个AI发展的关键节点,但事实上,从那个时候到现在,AI的进步是持续的:模型不断优化、技术不断扩散、应用场景不断丰富。你现在想象的是,未来各国坐在一起制定规则,各方手握不同的筹码,但从当前的发展轨迹来看,所有人都会拥有更多的AI能力——威权国家会用,其国内的私人主体也会用,我们无法确定谁会从中受益更多。就像互联网,它对威权国家的赋能超出了人们的预期,AI也可能出现完全相反的结果。我想更清楚地知道,你对这一过程的想象是什么?

Dario Amodei首先需要明确的是,AI底层技术的指数级进步会持续下去,即便我们实现了数据中心的天才时代,模型的智能水平依然会不断提升。当然,这里存在一个问题:当模型的价值在现实世界中出现边际收益递减时,进步的意义会减弱——比如,当我们已经解决了人类生物学的所有问题,模型能解决更难的数学问题,但这对现实世界的影响已经微乎其微。

抛开这一点,技术的指数级进步会持续,但在这个过程中,会出现一些关键节点——企业、个人、国家达到这些节点的时间会不同。比如,我在《技术的青春期》中提到的核威慑,在AI时代,核威慑是否依然稳定?这是一个我们曾经认为理所当然,但技术发展可能会让其变得不确定的问题。再比如,网络进攻的主导权——当一个国家拥有了绝对的网络进攻能力,所有的计算机系统对其而言都是透明的,除非另一方拥有同等的防御能力。

我并不知道具体的关键节点是什么,也不确定是否存在单一的关键节点,但我认为,必然会出现一个关键节点、少数几个关键节点,或者一个关键窗口期——在这个阶段,AI能从国家安全的角度赋予某个国家或联盟巨大的优势,而这个国家或联盟会比其他方更早达到这个阶段。

我并不是说,这个国家或联盟可以就此宣布我们掌控一切”——这不是我的想法,因为另一方总会迎头赶上,而且有些极端的行为是我们不愿也不该采取的,彻底的掌控本身也是不现实的。但当这个时刻到来时,人们会意识到,世界已经改变,各方会通过显性或隐性的谈判,确定后AI时代的世界秩序。而我的核心诉求是,让这场谈判的主导方,是秉持古典自由民主理念的国家。

Dwarkesh Patel但目前的实际情况是,你们主张不向中国出售芯片,也不向其转让芯片制造能力。同时,这也会让美国失去一个正和博弈的机会——中国可以用其天才数据中心做一件事,美国可以做另一件事,双方可以贸易。而你认为,为了防止中国被AI赋能,这种正和博弈的损失是值得的?

Dario Amodei我想表达的是,我们即将进入一个经济增长和价值创造变得极其容易的世界——如果我们能构建出强大的AI模型,经济增长会来得比我们想象的更快。但真正难以实现的,是福利的分配、政治自由的保障,这些才是真正的难题。

所以,当我思考政策时,我认为技术和市场会带来所有的基础福利,甚至速度快到我们难以消化。而政策的核心,应该聚焦于福利分配、政治自由和权利保障这些真正重要的问题。

Dwarkesh Patel说到分配,目前有开发者主导的国家,很多发展中国家的追赶式增长比我们预期的更弱。而当追赶式增长实现时,核心原因是这些国家拥有未被充分利用的劳动力,发达国家可以将资本和技术带到这些国家,从而推动其快速增长。显然,在AI时代,劳动力不再是制约经济增长的因素,这一机制也就失效了。那么,我们是否只能寄希望于,从AI中快速获利的人或国家,能对发展中国家进行慈善捐赠?

Dario Amodei慈善显然应该发挥一定的作用,就像它在历史上所做的那样。但我认为,内生增长始终是更强大、更可持续的方式。那么,在AI驱动的世界中,哪些产业是发展中国家可以参与的?答案有很多。比如,我曾说过,在非洲建设数据中心是完全合理的,我们也应该推动发展中国家构建AI驱动的制药产业AI正在加速药物研发,这会催生大量的生物科技初创企业,我们需要确保其中一部分出现在发展中国家。

当然,我们现在还在一个过渡阶段——尽管未来人类可能在AI产业中失去所有角色,但目前,人类在创办企业、监督AI模型方面,依然发挥着重要作用。所以,我们需要确保,这些参与其中的人类,有一部分来自发展中国家,这样这些地区才能实现快速的内生增长。

AI价值对齐:以原则为核心的宪法,三层迭代的平衡

Dwarkesh PatelAnthropic最近宣布,Quad将拥有一套契合特定价值的宪法,而非单纯迎合终端用户的需求。我们可以想象,如果AI完全迎合终端用户,那么当前世界的权力平衡会被保留——因为每个人都有一个为自己代言的AI,好人与坏人的比例依然不变,这与我们当下的世界是一致的。为什么不选择这种方式,而是让AI承载一套特定的价值?

Dario Amodei我并不认为可以用这种方式来划分,这里其实存在两个更核心的区别,而你将它们混为一谈了。第一个区别是,我们应该给模型设定具体的能做什么、不能做什么的规则,还是给它设定一套行为原则?这其实是一个纯粹的实践和实证问题:我们发现,通过教模型学习原则,让它从原则中汲取经验,其行为会更一致,更容易覆盖边缘案例,也更有可能按照人们的期望行动。换句话说,如果你给模型列一堆规则——比如不要告诉别人如何偷车”“不要用韩语说话,模型无法真正理解这些规则,也很难从规则中进行泛化。而如果你给它设定一套原则,再搭配一些硬性的护栏——比如不要制造生物武器,整体上让它理解自己的目标和运作方式,从实践来看,这是一种更有效的模型训练方式。这是规则与原则的权衡。

第二个区别,是你提到的可修正性与内在动机的权衡:模型应该更像一个外壳,完全遵循使用者的指令,还是应该拥有一套内在的价值,自主地采取行动?在这一点上,Anthropic的模型更偏向可修正性——我们并不是要构建一个能自主掌控世界的模型,而是希望它能尽可能地按照人们的期望行动。

当然,我们也明确表示,模型有一些绝对不会做的事情——这在宪法中以多种方式体现:正常情况下,如果有人让模型完成一项任务,模型会默认执行;但如果这项任务是危险的,或者会伤害他人,模型会拒绝执行。所以,我们的模型本质上是以可修正为主,带有基于原则的边界

Dwarkesh Patel那么核心问题就是,这些原则是如何确定的?这并非Anthropic独有的问题,所有AI企业都会面临,但因为你们是第一个将这些原则写下来的企业,我才有机会问这个问题。通常来说,一部宪法一旦制定,就会被固定下来,并有一套修改和更新的流程。但AnthropicAI宪法,是由企业内部人员制定的,可以随时修改,而它又指导着支撑大量经济活动的AI系统。你认为,这些原则应该如何制定?

Dario Amodei我认为,这里存在三个层面的迭代循环,或者说三种迭代方式。第一种,是Anthropic内部的迭代:我们训练模型,如果对其表现不满意,就会修改宪法。我们会将宪法公开,定期更新并发布新版本,欢迎外界评论——这是一件好事,因为外界的反馈能帮助我们优化。

第二种,是不同企业之间的迭代:不同的AI企业会制定不同的宪法,AnthropicGemini以及其他企业,都会推出自己的版本。企业之间可以相互对比,外界观察者也可以进行批评,比如我喜欢这个宪法的这一点,那个宪法的那一点。这会为所有企业创造一种软性的激励和反馈,推动企业吸收彼此的优点,不断完善自己的宪法。

第三种,是超出AI企业之外的、整个社会的迭代:除了AI企业和无实际权力的评论者,整个社会都应该参与其中。我们曾经做过一些实验,比如几年前,我们与集体智慧项目合作,通过民意调查的方式,询问人们“AI宪法应该包含哪些内容,当时我们也将一些调查结果融入了宪法。

对于我们现在的原则型宪法,这种方式实施起来会更难——因为原则需要具备一定的连贯性,而不像具体规则那样可以简单罗列。但我们依然可以从更广泛的人群中收集意见。甚至,这听起来可能有些疯狂,但这场访谈本身就是在探讨疯狂的想法——我们甚至可以让代议制政府参与其中。

我现在不会这么做,因为立法流程太慢了——这也是我认为我们应该谨慎对待AI立法的原因。但理论上,我们可以规定:所有的AI模型都必须拥有一套宪法,这套宪法以某些核心内容为基础,企业可以在其后添加其他内容,但核心内容拥有最高优先级。当然,我不会真的这么做,这太僵化了,听起来像是过于激进的立法。但我们可以尝试一些更温和的方式,让政府参与到AI 原则的制定中。

DwarkeshPatel我很喜欢第二种循环——这显然与现实政府的宪法制定方式不同,现实中,最高法院不会根据民众的情绪和氛围来更新宪法,而是有一套更程序化的流程。而你设想的,是不同AI企业的宪法之间的竞争,这让人想起一些自由意志主义者提出的特许城市理念:构建一个由不同政府形式组成的群岛,通过市场选择,确定最有效的治理方式,让人们能在其中获得最大的幸福感。从某种意义上说,你正在重新创造这样的愿景。

Dario Amodei是的,确实有这样的愿景。但我认为,这个愿景既有可取之处,也必然会出现一些我们未曾预料的问题。它是一个有趣且在某些方面有吸引力的愿景,但过程中一定会出现各种意外。所以,我认可第二种循环,但最终的解决方案,必然是三种循环的结合,只是比例不同而已。这就是答案。

2500人团队的管理:确保有效无损的上下沟通

Dwarkesh Patel如果未来有人为这个时代写下一本类似《原子弹的诞生》的书,你认为,从历史记录中最难发掘、最容易被遗漏的是什么?

Dario Amodei我认为有两点。第一,在技术指数级进步的每一个时刻,外界对其的理解程度有多低。这是历史中常见的偏见:所有已经发生的事情,在回顾时都显得理所当然。所以,当人们回望这个时代时,很难想象当时的人们所面临的不确定性——我们曾为AI的规模化、持续学习的解决等问题争论不休,我们内部有些人对这些问题的实现抱有很高的概率判断,但外界对此完全无动于衷,甚至根本没有意识到这些问题的存在。

这种认知的脱节和行业的封闭性,是很难被后人理解的。不幸的是,如果我们距离AI的关键节点只有1-2年,街上的普通人依然对此一无所知——这也是我通过备忘录、与政策制定者对话想要改变的事情。但这一点,本身就非常疯狂。

第二,这一点可能适用于所有的历史危机时刻:一切都发生得太快了。很多你认为是经过深思熟虑的决策,实际上都是在仓促中做出的——你必须在一天内做出这个决策,然后紧接着做出另外30个决策,因为所有事情都在同时发生,你甚至不知道,哪些决策会在未来产生重大影响。

这也是我的一个担忧,同时也是对当下的一个洞察:某个极其关键的决策,可能源于这样一个场景:有人走进我的办公室,说达里奥,你有两分钟时间吗?这件事我们该选A还是选B,然后递给我一页半的备忘录。而我可能因为要去吃午饭,随口说B,而这个决策,最终却成为了影响整个时代的关键。

Dwarkesh Patel最后一个问题,很少有科技公司的CEO会每隔几个月就写一篇50页的备忘录。你似乎为自己,也为公司构建了一套规则,让你能以一个更偏知识分子的角色担任CEO我想知道,你是如何做到的?你会离开公司几周,然后带着一份备忘录回来,告诉公司这是我们的新方向吗?据悉,你还在公司内部写了很多这样的备忘录。

Dario Amodei以《技术的青春期》为例,这篇备忘录是我在寒假期间写的,我当时甚至很难找到完整的时间来完成它。但我认为,这与公司的文化建设息息相关,我大概会花三分之一,甚至40%的时间,确保Anthropic的文化是健康的。

随着公司规模扩大到2500人,我很难再直接参与模型训练、产品发布、技术研发等具体工作——我有自己的直觉,但面对庞大的团队,我不可能参与每一个细节。但有一件事的杠杆效应是巨大的,那就是确保Anthropic是一个适合工作的地方:人们喜欢在这里工作,每个人都认为自己是团队的一员,彼此合作而非内斗。

我们可以看到,其他一些AI公司在规模扩大后,内部出现了分裂和内斗——甚至有些公司从一开始就存在这样的问题,现在变得更严重了。Anthropic做得非常好的一点是,即便不完美,我们依然保持了团队的凝聚力,让每个人都认同公司的使命,相信我们对使命的追求是真诚的,相信身边的同事都是为了正确的目标而努力。我们是一个团队,没有人会为了自己的利益而牺牲他人,也没有人会在背后算计彼此——而这一点,在很多其他公司都非常普遍。

如何做到这一点?这涉及很多方面:我、日常运营公司的aniela、我们聘请的高管,以及所有员工,还有我们努力营造的工作环境。但其中一个重要的点是,我和公司的其他领导者,必须清晰地阐述公司的定位、目标、战略、价值和使命。当公司规模达到2500人时,你不可能一对一地与每个人沟通,你必须通过写作或演讲,与整个公司对话。这也是为什么我每两周都会站在全体员工面前,做一个小时的演讲。

我不会说我在公司内部写了很多文章,但我做了两件事。第一,我有一个叫做达里奥的愿景探索的分享——这个名字不是我取的,我曾经试图反对,因为它听起来像是我去抽了致幻剂一样,但这个名字还是被保留了。每两周,我会拿着一份3-4页的文档,向全体员工分享几个主题:公司内部的情况、我们正在研发的模型、推出的产品、行业的动态,以及AI与地缘政治相关的全球形势。

我会非常坦诚地分享我的想法,告诉大家我是这么想的,Anthropic的领导层是这么想的,然后回答大家的问题。这种直接的沟通,其价值是层层传递的沟通无法比拟的——公司有6层管理层,层层传递会让信息失真。而我们公司的大部分员工,都会亲自或通过线上的方式参加这场分享。

第二,我在Slack上有一个频道,会在上面写很多内容,发表很多评论——通常是针对公司内部的情况、员工提出的问题,或者内部调研中大家关心的事情。我会非常坦诚地写下我的想法,直接表达我的观点。核心是,让公司的员工相信,我会告诉他们真相,会直面问题,不会使用官样文章,也不会进行防御性的沟通——而这些,在公共场合是必要的,因为世界很大,总有一些人会恶意解读你的话。

但如果你拥有一个你信任的团队——我们也努力聘请值得信任的人——那么你就可以完全坦诚、毫无保留。这是公司的一个巨大优势:它让工作环境变得更好,让员工的能力得到最大的发挥,也让我们更有可能实现使命,因为每个人都对使命有清晰的认知,都在讨论如何以最好的方式实现它。

Dwarkesh Patel既然没有对外的达里奥的愿景探索,这场访谈就相当于一次对外的分享吧。

Dario Amodei谢谢你的访谈。

原视频:Dario Amodei — “We are near the end of the exponential”

https://www.youtube.com/watch?v=n1E9IZfvGMA&t=2s

编译:Lingyun Xu & Zoe Zou

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...