OpenAI重返开源大模型赛道,谈一谈我关注的一些要点
创始人
2025-08-06 15:24:10
0

OpenAI 重返开源大模型赛道,这是一个备受瞩目的事件。我关注的要点之一是其技术实力的展现,开源将促进更多创新和研究,推动大模型领域的发展。另一个要点是对行业竞争格局的影响,它可能引发其他厂商的跟进和竞争,加速技术进步。同时,开源也意味着更多的透明度和可解释性,这对于大模型的应用和信任度至关重要。此外,开源将促进人才的流动和合作,吸引更多开发者参与到大模型的开发和优化中。总之,OpenAI 的这一举措将对大模型领域产生深远的影响,值得我们持续关注。


美国西海岸时间2025年8月5日,OpenAI发布了两款开源大模型——GPT-OSS 120B以及GPT-OSS-20B,目前这两款模型均可以从Hugging Face平台下载,用户可以对其进行修改定制和商业应用。包括亚马逊AWS、微软Azure在内的主流云平台也已经开始提供基于这两款模型的服务。这是自从2019年11月以来,OpenAI第一次发布开源大模型。


历史真是讽刺。OpenAI的名称来源,就是“开放”“开源”,这曾被Sam Altman自诩为AI时代的核心精神和生存之道。可是从2019年初开始,OpenAI就处心积虑地偏离了开源轨道:那年2月,它以“安全问题”为借口,拒绝公布GPT-2的全部参数权重,只公布了一个7.74亿参数的“部分模型”;直到当年11月,在GPT-2乏人问津的情况下,它才羞羞答答地公布了全部15亿参数。至于后来大放异彩的GPT-3、GPT-3.5以及GPT-4系列大模型,则既没有公布过参数权重,也没有公布过技术路线白皮书。


截至昨天,OpenAI成为了当今全球AI大模型基础研发第一集团当中,寥寥几家“没有任何新版开源大模型”的开发者之一。还有一家是Anthropic,自从成立以来就从未发布过开源大模型。考虑到Anthropic本来就是对OpenAI不满的离职员工成立的,还真验证了一句话:“不是一家人,不进一家门。”


在它们的竞争对手当中,谷歌从2024年开始就维持着开源的Gemma系列大模型,与闭源的Gemini系列大模型齐头并进;Meta的LLaMA系列大模型是当今主流开源大模型的精神源头,自不必说;来自法国的Mistral的第一版大模型就有开源版本;马斯克的Grok也是在成立之初就公布了开源大模型;阿里巴巴的Qwen已经成为衍生版本系列最多的开源大模型之一;更不要说DeepSeek了,如果不是开源,它绝不可能获得这么大的影响力和应用范围。


有人肯定会追问:为什么要开源?对于竞争对手来说,开源当然是好事,便于互相学习借鉴(以及抄袭)。对于全人类来说,开源当然是好事,因为历史一再证明开放能促进技术进步。但是对于OpenAI这种领先的开发者来说,为什么要开源呢?开源固然会吸引技术社区的更多关注、有助于形成良好的生态系统,可是GPT已经是全世界关注度最高的大模型了,开源还有什么实际意义呢?(除了为自己正名,甩掉“CloseAI”的帽子之外?)


答案很明确:开源大模型可以下载安装到本地硬件设备里,完全从本地运行,这对于一部分客户相当有吸引力。不妨总结一下:


客户可以把所有数据存储在本地,而不是上传到第三方平台,从而最大限度地保护了数据安全。无论对于国家机密还是商业机密来说,这种安全性都很重要。


客户可以基于自身需求,对开源大模型进行微调(fine-tune),从而契合特定行业应用场景。医疗、金融等复杂或敏感行业对此需求尤其旺盛。


对于预算有限的客户来说,在本地硬件上运行大模型,或许比购买闭源大模型使用权更划算。例如GPT-OSS-2B甚至可以运行在笔记本电脑上。


当然,在本地部署开源大模型,就意味着客户要为自己的信息安全和技术维护负责。在权衡利弊之后,许多大型行业客户还是会更偏好开源大模型。这就是LLaMA系列大模型在欧美深受大企业欢迎的原因,也是DeepSeek在今年年初席卷国内政企客户的原因。DeepSeek的技术水平或许能与GPT-4o1相比,但是如果不是开源,它的应用速度会非常慢,无论对B端还是C端都是如此!


现在,在阔别近六年之后,OpenAI终于重返开源大模型战场。在一定程度上,肯定是受到了LLaMA,DeepSeek,Qwen乃至Grok等开源大模型的刺激;但是从商业角度看,这个决策早晚要做出。因为不管怎么说,有些企业客户永远不可能把至关重要的数据上传到第三方平台;政府部门就更不可能了。与其把这片广阔的市场留给竞争对手占领,还不如自己去占领。如果竞争对手技术进步的速度慢一点,OpenAI重返开源赛道的速度或许也会慢一点,但也只是慢一点而已。


这也就意味着,2025年成为了一个“开源之年”:国内曾经领先的百度,以及国外至今还在领先的OpenAI,都发布了开源大模型。Meta发布了最新的开源版本,阿里则明显加快了开源版本的发布速度。此时此刻,整个世界上的主流大模型开发商,只有两家完全没有开源版本。除了上文提到的Anthropic之外,还有国内的字节跳动——豆包大模型(及其前身云雀)目前尚未有任何形式的开源版本,字节跳动官方也完全没有公布过开源计划。不过单纯从技术角度看,豆包尚不属于全球第一集团,开源与否对大模型技术进步的影响不大。


我们再探讨下一个话题:本次OpenAI的开源,对全球大模型技术有什么影响?


我不是技术开发者,只能从常识角度谈一谈。我的观点是:影响是有的,但是有限。这一方面是因为OpenAI没有开源其最新版本、最新技术(废话,换了你也不会),另一方面是因为过去两年外界对OpenAI技术路线的“猜测”还是比较成功的,八九不离十。


OpenAI公布的GPT-OSS两个版本,其训练数据截止于2024年6月,训练结束于2024年8月,其性能大致与GPT-4o3以及o3 mini可比——后两个模型发布至今已经四个月了。很多评测指出,GPT-OSS-120B的表现优于DeepSeek和Qwen的最新版本,其实这没有提供任何新的信息,因为GPT-4o3的表现本来就优于它们。这只能证明OpenAI相对于竞争对手至少还有几个月的领先优势,而这也是我们早就知道了的事情。


在技术路线上,从OpenAI自家的白皮书里,我们大致能知道如下信息:


GPT-OSS采取混合专家架构,这一点早已被外界猜到。混合专家架构是目前的主流,几乎所有大模型都在采用。GPT-OSS 120B每层有128个专家,20B每层有32个专家,每个路径会激活4个最擅长的专家回答——这些细节还是有用的。


GPT-OSS是在标准文本基础上训练的,思维链(CoT,chain of thought)架构不是在预训练阶段、而是在后训练阶段实现的。CoT是所谓“深度推理”大模型的基础,现在可以确定,OpenAI与其竞争对手一样,是在后训练阶段赋予CoT的。


在后训练阶段,与GPT-4o3一样,GPT-OSS采取了CoT RL技术。后训练过程中还使用了外部API,以及RAG Agents等等,在此就不赘述了。在一定程度上,这证实了外界的猜测。


OpenAI没有选择在后训练阶段压制“大模型幻觉”,因为这样做会降低CoT的透明度。所以,GPT-OSS深度推理模式的幻觉率很高,这或许是一切深度推理模型绕不过去的问题。


总而言之,上述大部分技术路线,是外界早已猜测到或者在争辩之中的。某些技术细节,例如后训练的具体手段和工具,或许会给外界很多启发,但带来的改进是有限的。


话说回来,如果OpenAI真的还有什么“独门秘籍”,大概也不会在白皮书当中赤裸裸地公布。这份白皮书证明了一点:过去两年多,全球大模型开发者对OpenAI技术路线的猜测和模仿,大部分是正确的(或者说,OpenAI只承认了其中正确的部分)。作为一个整体,人类模仿的力量是无穷的,因此在历史上很少有技术领先者能够单纯依靠自己的力量,长期维持对领先技术的垄断。


需要强调的是,GPT-OSS只是“开放权重”(Open Weight)大模型,不是完整意义上的“开源”大模型。它公布的只是参数及其取值(权重),一份34页的技术白皮书,以及其他少量选择性的信息。如果我们真的要以相同手段“复刻”一个成品,至少缺失如下环节:


训练中使用的各种“脚手架模型”,包括语料质量、语料相似度检测、语料清洗模型,以及用于“对齐”人类价值观的Reward模型,等等。某些竞争对手会部分予以公布,但OpenAI还没有。


预训练阶段使用的语料库,这是一项核心技术秘密,尤其是在大模型训练语料使用量越来越大、优质语料越来越难找的情况下。Meta曾经部分公布过LLaMA使用的语料,而OpenAI没有公布。


训练过程中使用的其他工具。如果是标准化工具还好,如果是独家工具,那么就算披露了其名称,外界也不可能模仿。


完全满足上述“开源”条件的大模型非常罕见,尤其是商业公司,几乎不可能发布这种“全面开源”的大模型。原因很简单:大家发布开源大模型是为了满足部分客户的需求、培育开发者生态,而不是方便别人抄袭。OpenAI这次提供的信息有价值,但不太足够,这大概就是它想要达到的效果。这不禁让我想起了某些科技巨头的招股说明书——洋洋洒洒几百页,看起来提供了大量财务和业务信息,但是只要涉及到关键的用户和技术问题,就以各种方式回避。在此就不点名了。


附带说一句,OpenAI公布了GPT-OSS的训练细节:基于英伟达H100 GPU,其中1200亿参数版本消耗了210万H100小时,200亿版本则是前者的六分之一。从这里我们可以推断出GPT-OSS训练使用的算力集群规模——假设训练时间为30天,则使用了2917张H100;若为45天,则使用了1944张。考虑到训练数据截止于2024年6月、完成于7月底或8月初,所以训练时间不太可能明显超过45天。


因此,GPT-OSS还没用上最新的Blackwell系列GPU,也没有使用“万卡集群”或更大规模的集群。这是否意味着顶尖大模型的训练算力需求其实没那么高呢?且慢下结论,因为GPT-OSS毕竟不是OpenAI的当家模型,只是OpenAI内部训练的无数个模型之一。GPT-4的参数规模高达1.37万亿,是OSS的十倍以上,算力需求肯定会远过之。宝贵的B100/200 GPU可能完全被用于GPT-4.5以及GPT-5的训练,遗憾的是,OpenAI不太可能披露上面两个模型的训练细节。


我猜,GPT-OSS可能是OpenAI最后几个用Hopper架构GPU训练的大模型之一;GPT-4.5以后的大模型可能完全是基于Blackwell训练的。但这只是我的猜测。至于不再用于训练的H100,则将转而承担推理任务,毕竟深度推理模型的普及就意味着推理需求的大爆发。无论Scaling Law还成不成立,全世界的算力恐怕还需要增长3~4倍以满足蓬勃的训练及推理需求。


本文没有获得OpenAI或其任何竞争对手的资助或背书。


本文作者并不持有OpenAI的任何股份,也不直接持有其竞争对手的任何股份。但是透过基金、信托计划等持有其竞争对手的股份几乎是不可避免的。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...