OpenAI的前世今生_资讯

OpenAI的前世今生

创始人

2025-08-27 09:43:31

0次

本文将统一介绍OpenAI 的发展历程，并讨论其公司架构、技术演进、商业模式、财务和估值，以及对公司未来的思考，内含大量技术细节。原文包含20多幅图片，我给配了一些注释，enjoy。

OpenAI 公司估值演变趋势图：此图展示了 OpenAI 自 2015 年成立以来，估值随时间推移的增长轨迹。从创立初期估值较低，到随后呈指数级攀升。

1、前OpenAI时期（2015年之前）

在前OpenAI 时期，也就是2015年之前，有三个重要因素为 OpenAI 的诞生奠定了基础：

1.1 深度学习的兴起

2012 年，Ilya Sutskever（OpenAI 前首席科学家，现 Safe Superintelligence 创始人）、Alex Krizhevsky 和“人工智能教父”Geoff Hinton 组成的团队在一次竞赛中大幅刷新了此前的基准成绩。

2010–2015 年 ImageNet 图像识别竞赛冠军模型错误率对比图，该图比较了ImageNet挑战赛各年度获胜模型的分类错误率（Error Rate），展示了 2012 年深度学习模型带来的突破性进展。横轴就是年份，纵轴表示错误率百分比，柱状条高度代表当年冠军模型在测试集中未能正确识别的比例，所以高度越低越好。

1.2 谷歌/Meta在AI，人才上的双寡头

在ImageNet大赛取得突破后，Facebook和Google围绕AI人才几乎形成了双寡头格局。最终，Google收购DeepMind，让整个硅谷的从业者感到担忧。这其中，尤其有两个人对此不以为然，他们想要打造一个不同的选择：一家致力于非营利AI研究的实验室。

这两个人就是Elon Musk和Sam Altman。

1.3 Sam Altman的崛起

随着ChatGPT时刻的到来，Sam Altman成为OpenAI的首席执行官，并一直是公司对外的代表人物。在此之前，他曾出任创业孵化器Y Combinator的总裁，并且是Paul Graham（也是黑客与画家的作者）最为赏识的创业者之一。

Graham曾说：

“有人建议我在这个榜单里不要提及YC资助的创业者。但这样的规矩对Sam Altman可不适用。只要他想上榜，他就一定会上榜坦白说，Sam和Steve Jobs一样，都是我在指导初创公司时提及最多的创业者。在设计相关的问题上，我会问‘Steve会怎么做？’，但在考虑战略与雄心的问题上，我会问‘Sam会怎么做？’。与Sam见面后，我意识到‘天选之人’这一观念，同样适用于创业领域，但它的适用范围远比大多数人想象的小，投资创业公司并不是赛马式地挑选赢家。但的确有极少数人，凭借坚定的意志力，终将获得他们想要的一切。”

——Paul Graham，《Five Founders》

上述三个要素，分别提供了技术突破、促成了创建一个抗衡谷歌/FB的实验室的理由，并聚拢到了一位有能力引领这一全新事业的人才。然后，这一切汇聚到了一场如今已颇具传奇色彩的聚会，它发生在硅谷著名的Sand Hill Road上的Rosewood酒店里。

2、OpenAI 的成立

正是在那次晚宴上，Elon和Sam向在座的顶尖AI研究人员提出了创建OpenAI的计划。其中有一人，尤其被这个想法所吸引：Ilya Sutskever（被誉为OpenAI的“AI 天才”）。

不久之后，Ilya便与Greg Brockman（被称为OpenAI的“埋头实干者”）一起成为OpenAI的两位主要领导者，并获得了Elon Musk、Peter Thiel、Reid Hoffman等人合计 10 亿美元的资金支持，Elon和Sam则共同出任董事会联席主席。

当时，OpenAI的核心理念很明确：人工智能可能彻底改变世界，在这种情况下，让一家不受盈利驱动的机构来开发这项技术对人类整体最为有利。

OpenAI创立初期的几年，以大量试验探索为标志，推出了一系列项目：OpenAI Gym（面向强化学习的工具包）、OpenAI Universe（构建虚拟环境中的AI）、OpenAI Five（挑战Dota 2的AI代理），以及 OpenAI Dactyl（机械手机器人）。

2.1 Transformer 的出现

2017 年，谷歌发布了著名的论文《Attention Is All You Need》（《注意力机制就是一切》），首次提出了Transformer架构。

Ilya 对这一突破的重要性，立刻就有了感知，他当时的反应非常肯定。

这里先大致介绍一下原理，Transformer真正的突破，在于能够将上下文纳入模型输出的考量。它通过计算词语与其周围其他词语之间的“相关性”，以及它们在句子中的相对位置，并将这些信息与该词的表示一起存储，从而让模型更好地理解上下文含义。

它的目标是将初始输入数据，转换为一系列向量，这些向量蕴含了输入数据的语义信息，然后根据这些语义向量来预测下一个词出现的概率。

Transformer 神经网络架构（简化示意），编码器-解码器结构，以及通过“注意力机制”融入上下文信息的工作原理。图中左侧是编码器（Encoder），接受输入序列的词向量表示（加上位置编码），并经过多层自注意力（Self-Attention）和前馈网络逐步提取特征；右侧是解码器（Decoder），利用编码器生成的表示和解码器自身先前输出，通过多头注意力机制，来预测输出序列的下一个单词。

注意力（Attention）模块通过计算词与词之间的相关性权重矩阵，使模型在生成某个词时，能够参考输入序列中所有其他词的重要程度。

例如，对于词 “float”，模型可以根据上下文判断它指的是“漂浮”（float on water）、“汽水冰淇淋”（root beer float）、“游行花车”（parade float）还是“飘飘然”（floating on cloud nine）。

Transformer模型的几个核心阶段包括：

1、输入阶段：tokens首先转为Input Embedding（向量表示），同时加入Positional Encodings，以标记tokens在序列中的位置；

2、Encoder（编码器），由多层 Self Attention 和 Feed Forward 组成，作用是理解整段输入的上下文关系，生成富含语义的内部表示；

3、Decoder（解码器）：同样堆叠 Self Attention 和 Feed Forward，在预测下一个词时会参考编码器的输出，作用是基于编码器的表示逐步生成目标序列，如翻译内容或续写文本；

4、输出阶段：解码器输出经 Softmax 转为各候选词的概率分布，选取概率最高的词作为下一个输出。生成序列会循环进行，直至满足终止条件。

上图突出了Transformer 的两大关键：自注意力机制（Self Attention）使模型能同时关注整个序列的相关信息，而位置编码Positional Encodings补足序列顺序，让模型理解词语先后关系。

Transformer架构的关键，在于并行地处理整个序列，而不是逐词翻译，从而极大提高了效率和效果。这个架构为OpenAI此后的GPT系列模型奠定了基础，是实现更深层次语言理解的里程碑，体现了 Transformer在上下文处理上的革命性突破。

Transformer的出现，为OpenAI在 2018 年发表的论文《Improving Language Understanding by Generative Pre-Training》中取得的突破奠定了基础，那篇论文首次引入了 GPT-1 模型。

正如 Sam Altman所总结的那样，这一突破意味着“人类发现了一种算法，能够真正地学习任何数据分布，更确切地说，学习生成任何数据分布的底层规则”。

然而，Transformer中的“注意力机制”，极大地提高了计算需求，进而引发了对“规模化scaling”的探索。

后来的事实证明，增加模型参数规模和训练数据量，模型性能就能以可预期的方式提升。

2.2 从非营利到营利的转变（2019–2022）

毋庸置疑，OpenAI 从非营利组织慢慢转变为营利公司的过程，引起了许多争议。这一转变，也导致 Elon Musk 与 OpenAI 分道扬镳。

然而，“规模化scaling”这一发现，算是把OpenAI逼到了墙角。要利用扩大模型规模带来的性能提升，就必须投入巨额资源，而吸引巨额资金的唯一途径，就是给予巨额的财务回报。

2019 年，OpenAI 转型为一家“封顶盈利”（capped-profit）的公司，并从微软等投资者那里募集了 10 亿美元。这一架构下，非营利的 OpenAI 组织管理着一个有盈利上限的营利公司：

OpenAI 非营利组织与封顶盈利公司结构示意图，这张图描述了 OpenAI 独特的双层架构：顶层是非营利性的 OpenAI Inc.（公益机构），其下设立了一个封顶利润的营利实体 OpenAI Global LLC（ OpenAI LP）。OpenAI Inc. 通过特殊的公司结构完全控制着营利实体 OpenAI LP 的决策，外部投资者（如微软等）可以向 OpenAI LP 投资，但他们的回报被限制在约定上限（例如利润的若干倍）以内，超过上限的收益归 OpenAI 非营利组织所有。

有了这笔新资金的支撑，OpenAI 开始迅猛发展。2020 年，他们发布了 GPT-3。2021 年，推出了 Codex（GitHub Copilot 背后的模型），同年还发布了 DALL-E。他们还再次从微软获得了 10 亿美元投资。这一切最终将我们带到了一个众所周知的时刻——2022 年末 ChatGPT 的横空出世，正是这个事件出乎意料地引爆了 AI 革命。

2.3 Chat With GPT-3.5

Altman自己的原话是：

“在 2022 年，OpenAI 还是一家默默无闻的研究实验室，正在研究一个暂时称为‘Chat With GPT‑3.5’的项目……我们一直都明白，总有一天会迎来一个临界点，人工智能革命将就此启动。只不过，我们不知道那个时刻究竟会以何种形式出现。让我们惊讶的是，最后竟然是这一刻。”

值得称道的是，微软敏锐地抓住了这个机遇，豪掷 100 亿美元投资 OpenAI。微软随即以最快速度将 OpenAI 的技术整合到自己几乎所有的产品中，并将这项工作视作公司的头号优先事项。

自那以后，围绕 OpenAI 的故事已广为人知：

OpenAI 已成为当代这场 AI 浪潮中当之无愧的标志性公司；

Sam Altman 一度离开 OpenAI，但不久后又重返公司；

OpenAI 正面临来自 Anthropic、Meta、xAI、Google，以及崛起的 DeepSeek 等越来越多的竞争；

公司已获得了数十亿美元的融资，成为全球估值第三高的未上市公司；

他们发布了诸如 o3 等具备“推理”能力的模型，开辟了除规模扩张以外新的性能提升路径；

截至 2024 年 12 月，ChatGPT 的用户数量突破了 3 亿。

据报道，公司此时的年度营收运行率（用短期收入外推到12个月收入）已达到约 40 亿美元。

综上所述，公司目前所面临的局面是：

1、正处于开发通用型智能代理的临界点；

2、面临日益激烈的竞争，尤其是来自开源模型生态的挑战；

3、正在努力平衡独特的治理结构、建立可持续的商业模式，并推进“超级智能”的研发。

正如 Sam Altman 所说：“我们现在有信心知道如何构建传统意义上所定义的 AGI。我们相信，在 2025 年，我们可能会看到首批 AI 智能体‘加入劳动力大军’，对企业的产出带来实质性改变。我们依然相信，反复将出色的工具交到人们手中，会带来伟大且广泛共享的成果。”

3、OpenAI 的技术

如果不把 AI 技术发展的来龙去脉讲清楚，就很难解释 LLM（大语言模型）的工作原理。

如果把AI的演进史高度概括，可以划分出以下阶段：

提出 AI 概念 → 数十年研究积累 → 深度学习突破 → 注意力机制与 Transformer 出现 → 早期 LLM 面世 → ChatGPT 横空出世 → 引入“推理”能力 → 诞生智能代理agent

3.1 AI 的根基和起源

人工智能的核心理念，是让机器自动执行人类的常规任务，并最终逼近人类的智能水平。

从早期的计算器，到大型主机，再到软件程序，都可以看作人工智能形态演进的缩影。计算技术的每一次飞跃，都让我们更接近艾伦·图灵对 AI 的最初设想：“我们想要的是一台能够从经验中学习的机器……而让机器自行改变其指令的可能性，为实现这一目标提供了机制。”

20 世纪 40 年代，人工神经网络这一现代 AI 系统的基础概念，就已经被提出。

神经网络是由多层“节点nodes”组成的模型，可以想象成一系列可调节的旋钮。通过赋予众多节点之间不同的权重，神经网络可以建模许多复杂的映射关系。

一般来说，网络中的节点越多、层数越深，它就能学习和表示越复杂的模式。（Generally， the more “nodes”， the more complex systems they can model.）

多层人工神经网络示意图，这张图展示了一个典型的多层神经网络结构。图中圆节点分布在几层：最左侧一层是输入层，中间若干层是隐藏层，最右侧一层是输出层。

输入层的节点，接收原始数据（例如图像像素或文本的数值表示），然后通过连接线将信号传递给下一层的隐藏节点。每条连接线都带有一定的权重（可理解为“旋钮”的位置），决定了信号传递的强度。

隐藏层节点对接收到的信号，进行加权汇总并通过非线性函数转换，将结果传递给下一层。

经过层层传递，最终输出层节点给出模型的预测结果。

图中的箭头表示权重调整方向：在训练过程中，模型通过反向传播算法不断调整各连接的权重，以尽可能降低输出与真实值之间的误差。

一般而言，增加节点数量（拓宽每层规模）或增加隐藏层层数（加深网络深度），能够提高模型对复杂函数关系的拟合能力，但也需要更多的数据和算力来支撑。

这些模型，通过大量与其模拟对象相关的数据进行训练，训练的目标，是将模型输出与真实数据之间的“误差或损失最小化minimize loss”。

通常而言，提供给模型的训练数据越多，模型最终的效果肯定也就越好。

神经网络从提出理论到实际大放异彩，经历了数十年的漫长等待。

最终，促成现代深度学习蓬勃发展的有两个关键因素：海量数据或者说big data的出现，以及 NVIDIA GPU 所提供的强大并行计算能力。

2012 年，AlexNet 模型取得的突破，标志着人工神经网络性能的一次飞跃，其背后的重要技术支撑之一，正是利用 GPU 对模型训练进行并行加速。

3.2 现代 AI 系统：LLM 的黑盒

下一块奠基石，正是 Transformer 模型。

2017 年，谷歌发表的《Attention is All You Need》论文，提出了这种如今家喻户晓的架构。其核心思想在于，通过“注意力attention”机制，将上下文融入对单词的语义表达。

例如在前文中就提到过的，英语单词“float”的含义，可以是：“float on water漂浮”，也可以是“ a root beer float汽水冰淇淋”“a parade float游行花车”甚至“floating on cloud nine飘飘然的幸福感”。

Transformer 提供了一种方法，将单词所处的上下文，整合进它的语义之中，使模型能够依据上下文来判别 “float” 在具体句子里的含义

LLM 处理输入的第一步，是获取给定的文本（就是用户给的prompt），将其拆分为一个个词元（token），并将每个词元的含义映射（embeddings）成一个语义向量（columns of data，可以理解为在高维空间中表示词义的坐标）。

此时，模型已经得到一组向量化的语义表示，用来刻画输入的数据。

接着，transformer 登场。

它的目标是生成一系列新的向量，使其中融入单词的上下文意义。transformer 的关键理念就是 attention：一次性处理整句，而不是逐词依次翻译。

本质上，模型会在一张 “attention grid” 中考察词与词之间的关系。

Transformer 注意力权重矩阵示意图，这张图展示了 Transformer 模型在处理一句话时生成的“注意力”权重矩阵。

矩阵的行和列，分别对应输入句子的各个词。每个单元格颜色的深浅表示模型在计算某一行对应词的表达时，对某一列对应词的关注强度（权重大小）。

颜色越深，表示模型认为这两个词联系越紧密、相关性越高。通过注意力矩阵，我们可以直观地看到模型在理解句子时关注到哪些词与哪些词存在重要关联。

注意力机制使模型在翻译或生成时同时考虑句中所有词语的相互关系，这相比逐词处理的方法更充分地利用了全局语境信息。

随后，这些信息会经过前馈网络feed‑forward layer，进一步精炼由 attention提取的特征信息。

当数据在模型中的各层不断流动时，上述过程会被反复执行，持续更新embeddings，以便更准确地预测“正确答案”。

在数据处理完毕后，模型会输出一个潜在词语的概率列表（probabilities of potential words，就像我们的大脑想表达同一含义时，常有多种近义词可选）。

最终，模型根据这些概率选择一个词，映射关系（embeddings）会被 “反嵌入unembed”回对应的人类语言单词，并作为结果输出给你看。

3.3、OpenAI 当前的技术：规模、推理与agent

基于 Transformer 架构训练出的 LLM 模型，最初的表现其实并不算出色。要达到如今 ChatGPT 这样的质量，他们做对了什么？

答案就是：规模化Scaling。

投入更多的数据、使用更多的 GPU（现在甚至需要更多的能源），就能换来更好的性能——不断扩大规模，直到模型能够非常有效地掌握语言规律为止！

当然，让 ChatGPT 如此出色的，远不止规模一项，还有许多创新改进。但正是一系列创新与持续的规模化扩展相结合，推动了模型质量节节攀升。

对于现代 AI 系统，OpenAI 将 AI 能力的发展划分为五个层级。

阶段 1：聊天机器人（Chatbots） – 能进行自然语言对话的基础 AI，例如当前的 ChatGPT。它可以理解用户的语言输入并给出合适的回复，但主要用途局限在信息查询、问答对话等。

阶段 2：推理机（Reasoners） – 具备连贯逻辑推理能力的高级 AI。此级别的模型能够在回答问题时展开链式的内部思考，列举多种可能的解答思路，评估其中哪种更优，再据此产出最终答案，使模型的解决问题能力更接近人类的缜密思维过程。

阶段 3：智能代理（Agents） – 能自主采取行动执行任务的 AI。除了对话，这一层级的 AI 可以调用工具、与外部系统交互，完成诸如浏览网页、调用应用接口、计划行程、处理邮件等具体任务，将 AI 从信息提供者提升为任务执行者。

阶段 4：创新者（Innovators） – 拥有创造力和自主创新能力的更高阶 AI。不仅能完成预设的任务，还能主动提出新想法、设计原创方案，甚至在科学、艺术等领域有所发明创造。

阶段 5：AI 组织（AI Organizations） – 多个 AI 代理协同工作、如同一个组织般运作的形态。若干 AI 分工合作、彼此通信，可以在几乎无人工介入的情况下自主完成高度复杂的项目和决策，相当于一个由 AI 组成的虚拟组织。

这两年开始，“推理reasoning”能力已经成为研发的中心。简单说，具有推理能力的模型，会针对同一问题生成多个可能的答案，然后对这些答案进行评价，选出最优的一个来作为最终输出。

这一过程更类似于人类的思考方式：先想出各种主意，再判断哪个最好。

这五个阶段，描绘了 OpenAI 对 AI 未来发展的愿景：AI 将从当前的智能对话助手，逐步进化出推理和规划能力，继而能够执行复杂任务，甚至具备创造性，最终多个 AI 系统协作，构成自我运转的智能网络，从而对人类社会产生颠覆性影响。

根据 OpenAI 的描述：“通过强化学习，o1 模型学会了打磨自己的思维链条，优化使用的策略。它学会了识别并纠正自己的错误，将棘手的问题分解成更简单的小问题。当现在的方法不起作用时，它会尝试不同的方法，这个过程显著提升了模型推理的能力。”

最终，引入“智能代理Agent”，赋予了 LLM 模型执行行动的能力。这使模型从一个更好的搜索工具，变成了一个真正可以替代人类执行部分劳动的智能体（至少对一些简单任务来说）。

增强或者改良的搜索引擎固然有用，但称不上颠覆性的。如果你拥有的是可以完成各种任务的智能代理，比如帮你规划假期、预订酒店、回复邮件、处理客服请求、安排会议等，这将真正改变游戏规则，彻底提升效率和体验。

我们现在达到那个地步了吗？并没有。

明年就能达到吗？或许可以。

十年之后呢？几乎可以肯定。

这正是 OpenAI 前进的方向。正如他们自己所宣称的：“我们相信在 2025 年，我们可能会看到首批 AI 智能体‘加入劳动力队伍’，并实质性地改变企业的产出。”

4、OpenAI 的商业模式

OpenAI 的商业模式，就是一家垂直整合的 AI 公司，但只有模型是他们独一无二的核心竞争力。他们在技术栈上向上整合，直接提供应用来获取收入，并建立护城河，同时也向下整合技术栈，以降低边际成本。

4.1 财务状况

大模型本身，就是人们讨论的焦点，目前， OpenAI 约 72% 的收入就是来自 ChatGPT。

据The Information报道，OpenAI 2024 年的收入预计约为 40 亿美元，同时预计亏损约 50 亿美元。

在这 40 亿美元收入的基础上，OpenAI 的毛利率大约是 41%，我猜测这个毛利率的计算范围，只包含了托管和推理计算的直接成本。

他们预计到 2028 年，毛利率可以提高到 67%，这可比传统软件公司的毛利率还要高很多了。按照预测，到 2029 年，当公司年收入突破 1000 亿美元时，将实现盈亏平衡并开始盈利。

那么，他们打算如何把年收入做到 1000 亿美元呢？答案可以从下面这张非常有趣的图表中找到。

这张图表在之前 DeepSeek 宣布新模型的背景下，显得尤为耐人寻味。

图表显示，OpenAI 达成 1000 亿美元年收入目标的路径并不是依赖 API 接口业务，而是靠自家的应用产品驱动。甚至在 2025 年，他们预计“新产品new products”的收入，就将超过 API 收入。我们不应再把 ChatGPT 简单看作一个聊天机器人，而要把它视为一个通用型的数字助理a general-purpose agent。

从我观察到的迹象来看，ChatGPT 的愿景，是成为每个人的执行助手executive assistant：它可以与用户所有的账户相连接，了解用户偏好，它能对会议录音并做记录、安排后续跟进，它可以自动回复日常邮件，它能够处理客服请求、安排日程。

这样的 ChatGPT，而不只是一个聊天机器人，才能支撑起未来500 亿美元（1000亿的一半）的收入规模。

4.2 公司的治理结构

OpenAI 或许像它的重要性一样复杂，公司架构如下所示。

OpenAI 公司架构与控制关系图，这张图形象地描绘了 OpenAI 独特的公司治理结构。最上方是 OpenAI 的董事会，由非营利组织 OpenAI Inc. 指派，掌控着整个公司。董事会通过OpenAI GP LLC（OpenAI 有限合伙企业的普通合伙人）对下层的营利公司进行完全控制。下层主体 OpenAI Global LLC（即 OpenAI 有限合伙企业，OpenAI LP）负责实际运营业务并接受外部投资。

如果你觉得这还不够复杂，那么他们与微软之间的关系更是错综复杂：

如图所示，微软作为外部投资者出现在结构的一侧：2019 年微软向 OpenAI 投资 10 亿美元，此后又在 2023 年追加投资，总投资额达到 137.5 亿美元，从而获得了 OpenAI Global LLC 相当比例的股权（据媒体报道最高可达 49%）以及利润分成权（收益封顶为微软获得最多 920 亿美元的利润）。

与此同时，OpenAI 使用微软的 Azure 云基础设施来训练模型和提供服务，每年要向微软支付逾 10 亿美元的云服务费用。

这一架构展现出 OpenAI 混合型的组织形式：顶层的非营利机构确保公司使命和长期利益不偏离造福人类的初衷；下层的封顶盈利公司则允许吸纳来自微软等投资者及员工的资本，以支撑其庞大的研发开支，但对投资回报进行上限约束，从而在逐利与公益之间取得平衡。

正如前文所言，OpenAI 的公司结构相当复杂，但也正因为这种安排，OpenAI 董事会（非营利组织）得以对公司保有完全控制权。

据报道，微软可以获得 OpenAI 20% 的营收分成（直到获得 920 亿美元利润为止）。作为交换，微软会将其 Azure OpenAI 云服务收入的 20% 分润给到 OpenAI。

此外，微软还拥有 OpenAI 相当大比例的股权（具体比例不详，随着 OpenAI 结构和融资变化可能调整，有新闻称微软持股最高达 49%）。

从结果而论（取决于最终走向），Microsoft 对 OpenAI 的这笔投资很可能称得上是史上最出色的投资之一。

但是“冲突”也在发生：Microsoft 曾作为 OpenAI 的独家云服务提供商，但随着 “Stargate” 项目的公布，这一点似乎已经发生了变化。

5、市场数据与竞争格局

首先，对你看到的任何 benchmark（基准测试）都要保持怀疑。正如有人调侃的那样：“我从未遇到过一个我不喜欢的 benchmark。”

Anthropic据估计在 2024 年底达到了 9.6 亿美元的年化收入运行率（annual run rate，用最近的一段时间的实际数据，按比例线性外推到 12 个月），并预计在 2025 年将产生 20–40 亿美元的营收。

相较之下，OpenAI 对 2025 年的营收预测为 120 亿美元。

尤其值得注意的是，OpenAI 在模型市场model market份额与应用市场application market份额之间，正出现分化趋势。在模型层面，我们看到市场竞争日益激烈。

大型语言模型市场份额变化（2023 vs 2024）

从各类模型基准测试上看，也呈现出类似趋势：OpenAI 虽然拥有质量最高的模型，但性能/价格比的“领导者”地位却存在争议。

例如，DeepSeek 公司研发的 R1 模型在性价比上就已经可以媲美 OpenAI 的 o3-mini 和 o1-mini 模型。

不同大型语言模型的性能与成本对比，理想状态是模型位于图的左上方，即以较低成本实现高性能。

不过，在应用层application business，ChatGPT 的主导地位正日益扩大：

这是模型竞争加剧的更广泛趋势，它将迫使做基础模型的公司们，不得不寻求在其他维度实现差异化并获得盈利。数据也表明，对于 OpenAI 来说，即便在模型性能保持领先，通往可持续商业模式的道路仍在应用层。

6、OpenAI 的未来

与其泛泛而谈“OpenAI 的未来”，不如用一种考虑各种可能性的视角来展望。在展开之前，我需要列出一些对 OpenAI 未来影响最大的变量，当然我可能会有所遗漏，这毕竟只是我的一些思考。

这些问题应被看作一些连续谱上的未知量：

6.1 成本结构：OpenAI 在追求垂直整合、改善成本结构方面能取得多大成功？

6.2 商业模式：OpenAI 如何从其模型中赚钱？其模型会在多大程度上被商品化（从而压缩利润空间）？

6.3 市场格局：未来 AI 应用市场的最终状态（规模、份额、盈利能力）将会如何？

6.4 产品形态：OpenAI 如何将模型的智能转化为实际行动能力（也即让智能代理真正执行人类任务）？

6.5 估值：我们该如何为 OpenAI 估值？

6.1 成本结构：掌控一切

第一个变量是关于垂直整合vertical integration，OpenAI 已经融资了数百亿美元，既然手握重金，不妨努力把能掌控的环节都掌控在手里。

眼下，流入 AI 领域的资金比历史上任何其他新兴行业都要多——据估计，仅过去四年里，风投资本向 AI 投入了约 4500 亿美元，相比之下互联网泡沫高峰时期是 2560 亿美元。

这意味着，从未有哪个行业的创业公司像 AI 这样面对如此众多且资金充沛的竞争者。

在这样的环境中，要建立竞争壁垒是极其困难的。为此，OpenAI 正在沿着 AI 技术栈上下两个方向推进垂直整合。正如我们已经看到的，通过 Stargate 项目以及自研 AI 芯片的尝试，向技术栈下游发展能为他们在硬件层面带来成本优势和所需的自主可控性。

他们的大部分竞争对手，在某些方面有自身优势：要么拥有自研定制的 AI 芯片（如 Google、Amazon、Meta），要么拥有庞大的自有数据中心（如 xAI 倚仗超大规模云厂商），OpenAI 不能因为缺乏对底层硬件的掌控，就眼睁睁丢掉竞争优势。

然而，话说回来，没有自建的数据中心或自研硬件，OpenAI 也未必无法存续。但以应用层取胜却是必须做到的，这将是 OpenAI 实现经济上可持续发展的关键途径。

6.2 商业模式：如何实现可持续的盈利？

可预见的是，大量资本在未来还将涌向 OpenAI 的直接竞争对手，例如 Anthropic、xAI，以及 Safe Superintelligence 等公司的竞品。

此外，几家史上最庞大且最赚钱的科技巨头，也把 OpenAI 视作存亡攸关的对手，投入重兵参与这场竞赛。

更糟的是，DeepSeek 已经证明，可以训练出一款成本更低、运行更省钱而质量几乎相当的模型。

还有一些竞争者甚至选择开源他们的模型，只要支付最基本的算力费用，任何人都能使用。

基于以上种种原因，在模型层面，单纯依靠提供 API 接口来竞争在可见的未来都无法铸就一个可持续的商业模式。

这就意味着，必须构筑软件层面的护城河，比如提高用户转移成本、建立牢固的企业合作关系，而这些都要在应用层来实现。

6.3. 市场：十年后的 AI 应用市场会是什么样？

如果，OpenAI 确实如我们所分析，是一家垂直整合的 AI 公司，并且，它的大部分利润将来自应用层，那么这可能是最重要的问题：长远来看， AI 应用市场究竟有多大？在这个市场里，价值将主要积累在哪里？

如果，以 AI 潜在能取代的知识工作总量potential knowledge work来衡量，这个市场规模会大得难以想象。

然而，商品的价格，总是倾向于接近其边际生产成本。

对于 AI 应用来说，这个边际成本无非是：硬件成本 + 能源成本 + AI 研究人员的成本 + 应用层你能保住的那部分利润。

换句话说，AI 服务最终可能会以接近算力和电力成本的价格提供，加上一点点应用层的溢价。

那么，可以换个角度问：AI 未来究竟能解决哪些问题？

答案是：它能解决非常多的问题，其市场空间将极其庞大——可能达到数千亿美元量级。只要 OpenAI 能持续执行并守住它的护城河，它所面对的蛋糕将大得远远超过今日的规模。

从目前来看，OpenAI 似乎将希望寄托于用其 AI 智能代理，来主导通用型工作流general-purpose workflows。他们曾展示过基于Deep Research的销售场景工作流自动化的演示，这暗示了 OpenAI 认为自己有潜力吞下许多通用业务流程。

如果成功，凡是可以交给 AI 完成的一般性任务流程中，有很大一部分都将被 OpenAI 的系统所承接。

当然，在医疗、金融、法律等垂直行业，很可能会涌现专注各自领域的AI解决方案，满足这些领域特殊的集成需求、监管要求和业务流程，就像传统软件市场里，行业软件各自分割垂直市场一样。

但如果 OpenAI 真能非常成功，它也有可能成为这些垂直 AI 公司的底层平台，或许通过向它们独家提供自家最顶尖的模型，就像奢侈品行业里的高端供应商那样。提供独占的关键技术。

那么，这个市场大爆发会在什么时候发生？阿玛拉定律有云：“我们往往高估一项技术在短期内的影响，却低估它在长期内的作用。”（Amara’s Law says， “We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run.”

很明显，现有形态的知识型工作，在十年后几乎注定会大幅改变。但一年之内就发生翻天覆地变化？这一点还很难说。

6.4 产品：OpenAI 已经聚合了信息，接下来如何聚合行动？

到目前为止，AI 的价值体现在它汇聚并提供信息的能力上。而未来 AI 的价值，将体现在它执行行动的能力上。

OpenAI 很早以前就认识到了这一点，并推出了 Plugins 插件体系，来实践这个愿景。通过 Plugins，各家公司可以为 ChatGPT 预定义工作流，并提供认证接口，让 ChatGPT 拥有访问这些应用服务的权限，理论上，这套方案本该行之有效。

但是，结果却不尽如人意。我的猜测是，当时整个生态并未准备好。Plugins 或许未能发挥作用，是因为基础设施尚不到位，许多网站和服务还没有开放 API、缺乏必要的集成和认证机制，ChatGPT 无法有效对接足够多的外部服务。

OpenAI 后来推出的 Operator 功能（尽管效率低一些），则在一定程度上绕开了上述限制。

它的逻辑更简单明确：如果有官方 API 可以用，就用 API（if api == 1）；如果没有现成 API，就通过 Operator 模拟人类操作来完成任务（if api == 0）。

要让 AI 能够执行复杂行动，另一个必要条件是推理能力：也就是在做决策时权衡各种因素的能力，想想规划一场复杂旅行需要多少微小决策。（OpenAI在7月已经推出了结合Opeator和推理能力的Agent Mode）

OpenAI 的未来，是持续提升智能本身，而 ChatGPT 的未来是不断增强行动能力。

这正是他们描绘的进军 1000 亿美元营收的愿景：ChatGPT 将不只是聊天，它会成为每个人的通用助理。

而再往后，它会演变成一个通用的“知识型工作者a general-purpose knowledge worker”，可以完成许多过去只有人类才胜任的脑力劳动。

6.5 估值：该如何给 OpenAI 定价？

这个问题很有意思，因为投资者考虑的因素实在太多了，比如：

1、头部效应：OpenAI 是 AI 领域显然的幂律赢家，如同过去的周期一样，绝大部分价值往往流向最大的赢家；

2、赛道前景：AI 的机会确实如人们所宣称的那样巨大，而投资 OpenAI 就等于是押注整个 AI 行业的未来增长；

3、AGI 前瞻：某种形式的 AGI（通用人工智能）迟早会出现，而当它出现时，你肯定希望自己是“坐在牌桌边”的人之一；

4、战略价值：获得接触 OpenAI 的机会所带来的信息和生态优势，足以让投资它在市场上占据领导地位，因此这种战略意义本身值得付出高价；

5、相对估值：以 OpenAI 最近 1570 亿美元的投后估值来看，大约是其今年收入的 39 倍（市销率）。按照明年预计的 120 亿美元收入计算，则约为 13 倍的前瞻市销率。这个数字虽然昂贵，但对比公开市场上高速增长的科技公司也并非不可接受。（如果按照最新的3000 亿美元估值的新一轮融资完成，那么上述倍数都将翻倍，在一定程度上削弱了本条的支撑力。）

现实中，投资决策的依据，可能是以上因素的综合权衡。

对于高速成长的公司来说，其最终能达到的格局远比中间过程中的任何阶段性指标重要得多。你可以根据自己的成见，为任何估值找到看似合理的理由：如果你相信 AI 的长期价值，你自然会觉得今天的估值可以接受，我猜许多投资 OpenAI 的人正是抱有这种长期主义的信念。

这里我引用一句“名言”以供玩味：“如果你不准备持有一只股票 10 年，那就不要连 10 分钟都持有它。”在如今这样的时刻，这句话值得反复咀嚼。

对 OpenAI，我最后的想法是：把本文当作一篇暂时的日记，记录下此刻对这家公司的思考。也许十年后 OpenAI 会成长为一家市值数万亿美元的巨擘，也许它会停滞许多年，在“消化”当前估值的同时，等待 AI 真正产生的价值追上市场预期。又或者，它会成为一个关于过早认定市场统治地位的反面教材（不过我个人对此持怀疑态度，但并不完全排除这种可能）。

但可以确定的是，幂律效应驱动下，科技领域总会诞生那些标志性的伟大公司——它们增长迅猛，推动技术进步，并成为全球家喻户晓的名字：IBM、英特尔、苹果、微软、英伟达、亚马逊、谷歌、SpaceX、特斯拉、Meta……

OpenAI暂时已经把自己带入了这一公司行列，它是一个在迅速增长的市场中占据先机的领先者，基本与它所引领的这项技术本身画上了等号。

全文总结如下：

1、深度学习因 GPU 的出现和大数据的积累而被引爆；

2、Transformer 引入了上下文注意力机制，这是语言处理的关键；

3、OpenAI 通过 ChatGPT 将这些技术推向大众，引领了 AI 热潮；

4、OpenAI 已成长为史上发展最快的公司之一（如果不是最快的话）；

5、他们为将 ChatGPT 打造成通用助手而加入了代理、推理、语音、搜索等新能力；

6、竞争者纷纷涌入模型研发领域，但在应用层面 ChatGPT 的先发优势依然明显；

7、OpenAI 正在上下游同时垂直整合，致力于成为一家全栈的 AI 公司。

本文来自微信公众号：一个胖子的世界，作者：Eric Flaningam

上一篇：男子高速戴恐怖面具杭州交警通报

下一篇：国航：一伦敦飞北京航班因故障备降，调机航班今晨顺利抵达首都机场

OpenAI的前世今生

相关内容

热门资讯