OpenAI的命门,决定了大模型公司的未来
创始人
2025-09-03 14:43:06
0

如果Scaling Law是指导大模型能力提升最重要的标尺,那么“算力成本控制”就是大模型行业发展和商业化的基石。


2025年年初,DeepSeek在国外开源社区首先爆火,一个很重要的原因就是,DeepSeek几乎将同性能模型的推理算力和训练算力成本都降到了10%以内。MoE架构也在GPT-4发布之后,逐渐取代了稠密架构,成为了几乎所有大模型开发商的默认选项,最核心的原因也是能够有效降低模型推理的算力成本。


而OpenAI伴随着GPT-5发布第一次与用户见面的“路由(routing)”功能,设计本意也是代替用户来把简单问题匹配到低消耗模型,复杂问题匹配到能力和算力消耗高的推理模型,从而有效提升用户体验和算力效率,但却变成AI圈最知名的“降本增笑”事件。



即便是GPT-5发布接近了一个月,OpenAI还是没有能让所有用户满意,网友依然还在吐槽,GPT-5没有办法解决一些很简单的问题。虽然随着OpenAI回滚了GPT-4o,还让用户能够手动在推理模型和基本模型间切换,让大多数用户开始同意OpenAI宣称的“GPT-5性能明显强于之前的模型”,但是Sam Altman自己也没有办法否认,GPT-5的发布确实是漏洞百出。



而造成翻车最直接的原因,就是他们强推的路由功能没能将用户的预期和相应的模型能力匹配好。



那么问题来了,为什么OpenAI冒着GPT-5“发布即翻车”的风险,也要强推路由功能?



第一个最直接的原因就是,在GPT-5发布之前,OpenAI并行推出了5个以上的模型,让用户根据自己需求来选择合适的模型。随着模型越来越多,别说普通用户了,就是ChatGPT的重度用户,有时候也很难决定使用哪个模型最合适自己当前的任务。



对于立志于将ChatGPT打造成为AI时代超级APP的OpenAI,不可能允许这样的情况持续存在。特别是对于大量没有接触过大模型的普通用户,替他们针对不同的任务选择合适的模型,是OpenAI在某一个时间点必须要做的事情。


而另一个更深层次的原因在于,从算力成本的角度出发,自从推理模型出现之后,每一次对于大模型的询问,都需要在推理模式和非推理模式之间进行一次选择。而这种调配“深度思考”能力的效率,决定了大模型产品对于算力的使用效率。


根据学术界对于推理模型和非推理模型的研究结果,推理模型和非推理模型的算力差异巨大,可能达到5~6倍。对于复杂问题,通过思维链等技术进行推理后,内部消耗的推理token数可能高达上万个。



而在延迟上,推理过程和非推理过程的差异就更加巨大了,根据OpenAI自己发布的数据,使用推理模型回答复杂问题所需要的时间,可能是使用非推理模型的60倍以上。


而就算对于很多需要复杂推理的任务,在消耗了巨大的算力以及大量的时间之后, 给出的结果和准确性差异往往就在5%左右。为了这5%的性能提升,消耗多大的算力合适呢?



做一个简单的算术题,如果OpenAI将所有任务都默认使用推理模型来完成,路由功能能够帮助OpenAI识别出10%的问题可以通过简单的非推理模型完成,就可能将算力成本降低8%(推理非推理算力比值为5:1)。


如果将这个比例进一步提高,能够降低的算力成本将更加可观。对于OpenAI这样一个需要服务数亿用户,而且算力供应依然非常紧张的公司来说,路由功能是否发挥作用,可以说关系到自身商业模式是否可持续的核心能力。


在行业层面,第三方平台(如 OpenRouter)把“自动路由与回退(fallback)”做成基建能力:当主模型拥塞、限流或内容拒绝时,按策略自动切换到次优模型,以稳定用户体验。微软的Azure这样的AI算力云供应商,也将不同模型之间的路由能力作为AI云计算的一大卖点。



也许,GPT-5发布之后,对于OpenAI来说,最重要的事情就是在“质量-延迟-成本”的三角中寻找每条请求的最优平衡点。而目前官方对 GPT-5 的定位与“内置思考(built-in thinking)”叙事,实际上就是把“路由+推理强度”做成默认能力,并在 ChatGPT 端通过“Auto/Fast/Thinking”给了用户一定程度的可见与可控性。



为大模型打造一个高效的路由功能到底有多难?


这个问题,外媒在一篇报道中向UIUC的一名计算机专业的助理教授求证,得到的回答是“可能是一个亚马逊推荐系统级别的问题,需要大量专家努力工作数年时间才能获得一个满意的结果。”模型系统层面的路由功能本质是“多目标+强约束”的工程问题。 路由不是只拼准确率,还要在质量、延迟、成本、配额/峰值容量、成功率之间做实时优化。



而且从理论上来说,语义级别的路由功能在效率上来看,远远不是这个问题的最优解。DeepSeek在上周放出的DeepSeek V3.1就在尝试将推理模型和非推理模型混合起来,在更深层次上打造出一个效率更高的路由系统,从而从根本上提高大模型“推理-非推理”的选择效率。


根据网友体验之后的感受,新的混合推理模型相比之前R1有着更快的思考速度:相较于 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短的时间内得出答案。


并且,在回答性能相似的前提下,输出长度有明显的下降:新的推理模型在简单问题上,推理过程有约10%以上的缩短。正式输出的部分,新模型大幅精简,平均仅有1000字,比R1 0528的平均2100字水平提高了接近一倍。


但是另一方面,新的混合推理模型也爆出了一些不太稳定的问题:比如会不时在很多输出中出现莫名其妙的“极”bug:在答案中出现很多完全不相关的“极”



而且在R1上就存在的中英夹杂的情况似乎变得更加严重了,就像一个刚回国不久的留学生,在很多中文任务中会显得很出戏。


即使像DeepSeek这样的国内最顶尖的大模型团队,将“推理-非推理”选择功能内置到模型内部,模型的稳定性上也会出现一定程度的问题。而OpenAI和DeepSeek在自己各自首个推出的试图高效调度“深度思考”能力的模型上都出现了不同程度的翻车,侧面反映出要处理好这个问题的难度。



提高效率的另一面,是OpenAI依然处于对于算力“极度渴求”的状态中。



年初,DeepSeekV3和R1的推出引发的全世界对于英伟达等算力供应商未来前景的担忧,在短短几个月之后就演变成了“AI成本悖论”——token单价下降,但模型的性能不断成长,这使得原本交由模型处理本来会显得不经济的任务也能交给大模型处理,模型能够处理的任务将更多样与复杂,这从而会进一步推高对token总量的需求。


OpenAI 正在推进代号为Stargate的基础设施扩张计划:2025 年 7 月,OpenAI 与 Oracle 宣布在美国新增 4.5 GW 的数据中心能力。



9月2日,外媒也报道,OpenAI 正在物色印度当地合作伙伴,并计划在新德里设立办公室,把印度(其第二大用户市场)的用户增长与本地算力配置对接起来,在印度建设至少1Gw规模的数据中心。



“AI成本悖论”一方面不断推高英伟达和AI云服务商的业绩,同时也对有效降低模型算力需求的“路由”功能提出了更高的要求。


Sam Altman 反复强调“2025 年底上线的GPU 超过 100 万片”的目标,且把长远愿景瞄准“一亿 GPU 量级”。这类表态从侧面说明:即便推理单价在下降,更复杂的任务与更高的调用量让大模型的“总账单”并不会自动下降——必须靠路由把昂贵的推理时段“留给更需要的人”。


如果从大模型的第一性原理出发,所有大模型公司追求的最终极标准,就是不断提升“算力兑换智力”的效率。而高效调度“深度思考”的能力,在推理大模型时代,这在某种程度上决定了大模型公司能否在系统和商业效率以及用户体验上领先全行业。


本文来自微信公众号:直面AI,作者:胡润,编辑:王靖

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...