“文科生”微博,搞出一个数学学霸大模型
创始人
2025-11-28 19:07:06
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

  来源:真故研究室

  撰文 | 龚   正

  编辑 | 脸   叔

  在巨头林立的AI赛场,一个此前可能只配坐小孩桌的玩家,正发起挑战。它是身在北京中关村人工智能宇宙中心、却在AI领域一直被认为技术存在感不太强的微博。

  近日,微博发布了首个开源模型 VibeThinker,它以15亿的微小参数 与7800美元的极低成本,在国际顶级数学测试中获得相对高分,刷新智能极限。这一结果,无异于以轻巧之姿,刺向了规模即智能的行业铁律。

  《真故研究室》独家对话了微博首席科学家张俊林。他直言,这是一场突破行业共识的实验。在此之前,无人相信小模型能解决复杂问题,但VibeThinker证明了可以。” 这场低成本、高智能的奇袭,或许将重新定义AI赛道的游戏规则。

  #01

  夺榜

  当看到VibeThinker在国际顶级数学测试中获得好成绩,我很喜出望外。在北京的Hehson总部大厦,张俊林对《真故研究室》说。

  VibeThinker研发周期从今年9月到11月,为期3个月。如很多新发布的大模型一样,它需要通过打榜来确定自身最强大脑在行业中的卡位。

  评估一个新的大模型的逻辑推理能力,业内有三大基础评测,分别是数学、竞赛编程和科学知识。如果得分卡位靠前,相当于一个职场专业人士,拿到某一领域的职业资格证。这份成绩既能为企业吸引投资、人才,也能完成对市场的宣传与对普通用户的心智教育。

  VibeThinker所获的高评分,主要集中在数学领域的评测上。大模型数学领域的三个高难度测试集分别是AIME2024AIME2025HMMT2025。这些测试集以复杂性和挑战性著称,常用于评估大模型的数学推理能力。

  其中,AIME全名叫美国数学邀请赛,始于1983年,由美国数学协会制定和主办,一般是由30填空题组成。

  HMMT全名叫做哈佛-麻省理工数学锦标赛,始于1998年,由近50道数学题组成。它是一项面向高中生的、最具挑战性的团队国际数学竞赛之一。HMMT题目难度被认为大于AIME

  作为两项极具挑战性的人类数学考试,AIMEHMMT旨在从大量数学能力优秀的学生中,精准筛选出极少数的数学顶尖精英。如今用在大模型评测中,也被寄予发挥 “过滤器强化器的作用,很自然地成为了评估大模型高级推理能力的试金石标杆

  张俊林透露,VibeThinkerAIME2024(即2024年度)、AIME2025(即2025年度)和HMMT2025在三个测试集中的得分,分别是80.4分,74.4分,50.5分。

  这并不是说,VibeThinker的得分是行业中最高的,而应该相对来看。他将通过这三项数学测试的各类大模型,从能力上分为三档。 

  AIME2025为例,通过该数学测试集的大模型最高得分为95分。获得平均90分以上的玩家,仍是以参数量超过1000亿或接近1000亿的超大模型为主,比如智谱的GLM-4.63550亿参数)、Kimi-K2 thinking10000亿参数)、GPT5Gemini 3.0 Pro,是为第一档。

  第二档平均为88分,获得这一分数的模型主要有Gemini2.5 ProOpen AIO4系列模型。

  与之比起来,VibeThinkerAIME2025中评分为74.4分,与前两个档位的模型还是有显著差距,但它胜在模型参数只有15亿,基本上属于最小模型。

  在这个所谓第三档的圈层里,年初发布的DeepSeek-R1得到70分,但R1参数高达6850亿,是VibeThinker参数量的数百倍。VibeThinker的评分也接近于参数为4560亿的MiniMax-M1所获评分,显示出微博凭借技术攻坚在数学领域方面,以小模型刷新了智能极限。

  大模型一般分为文科智能和理科智能。文科智能就是看大模型写文章是否有文采。在数学测试中评分高,意味着理科智能高。但它不是意味着自己要成为一个垂类的数学大模型,而是类似于人们常说的学好数理化,走遍天下都不怕,数学能力是大模型推理能力的重要基础。张俊林说。

  理科智能高,训练成本也创新低。据披露,VibeThinker的后训练成本(指大模型在预训练完成后,通过指令微调、对齐优化等过程中产生的成本)只有7800美元。张俊林有测算,大约比DeepSeek-R1后训练成本降低了40倍,性价比突出。

  至此,在中国已发布的1509个大模型中(新华社7月发布),VibeThinker至少在数学测试子集中,以自己以小博大的成绩和较高的理科智能占据了一席之地。

  微博,这个被认为正在努力用AI改造平台基因的企业,也终于在继此前发布的知微大模型之后,有了第二张具备辨识度的大模型产品。

  但张俊林也强调,“ViberThinker目前拥有的这份能力局限于数学和竞赛编程方面的推理,我们没有用聊天数据调整模型,暂时还不适合用于日常对话,还需要进一步训练。

  #02

  攻坚

  VibeThinkerAIME2025的测评中,74.4分是如何达到的?

  张俊林的答案是:4分开始往上提的。

  作为大模型行业中的轻量级选手VibeThinker挑战高度智能,并不被祝福。因为行业普遍认为,要实现复杂的推理能力,需要1000亿以上的参数才能涌现(1000亿为大模型的入门门槛),10亿左右及以下的小模型,通常因为无法处理高难度问题而被视为天生不足

  不过,这恰好是张俊林希望通过探索新知、来挑战行业传统观点的爽点所在,也是他愿意在微博待多年的原因之一。当初做自然语言处理和检索结合出身的他,认为微博有两个长处。一是社交数据丰厚且开放,这是重要的战略资源,二是微博愿意给出新课题探索空间

  数个月前,VibeThinker项目开始启动,整个研发难度呈现出先易后难的走向。

  一开始,张俊林团队先是利用阿里千问大模型做了一个基础模型(Foundation Model)。相当于先拿到了一块原生矿石,接下来就是要对这块矿石进行雕琢、加工,进行所谓的后训练(模型微调、对齐),来生成属于自己的青铜器。

  张俊林团队用这个基础模型,先在AIME2025的部分子集做了测试,得分只有四点几分。接下来要做的,就是对这块原生矿石进行训练,提高它的解题和推理能力。

  4分多提到50分是相对容易的,张俊林团队使用的训练方法是改进版本GRPO 强化学习算法。

  GRPO强化学习算法由Group(分组) + Relative(相对) + Policy Optimization(策略优化)这几个词组成,此前行业内更多用于模型训练的框架是RLHF,即人类反馈强化学习。

  两个模型的训练机制有区别。AI研发工程师们为了训练一个好的模型,通常需要建立相关的奖惩机制。RLHF机制,是通过雇佣一个考官(即先训练一个奖励模型),根据标准答案,给被训练模型的每一个步骤打分,从而实现训练。但缺点是成本高,训练不太稳定。

  GRPO 训练法,则是建立了一套新的训练机制,让这个学生(即被训练模型)比昨天的自己考得更好,相当于内生驱动。这一框架优点是成本低、训练稳定,效果卓越。

  借助GRPO强化学习算法,VibeThinker快速从4分攀上了50多分,但之后的路越来越难走。张俊林明显感受到,每攀1分都变得困难,有时候就像卡在楼梯上,不知道如何才能突破。

  张俊林认为,与做AI应用强调效果的确定性不同,做AI基础研究是不确定的,谁都不知道结果会怎样。

  这里所谓的“AI基础研究,指的是行业内并不知道15亿参数的最小模型,它的智能上限在哪?

  50分就已经是上限了,还是能更高。每一分所代表的节骨眼,考验的是AI工程师们的决断——是继续往上攀,还是就停在楼梯的这一层。

  像给一个孩子提高考数学分那样,张俊林每日提早1-2小时、约摸8点左右到办公室,通过阅读行业内每日发布的最新论文来获得外部智援

  据他的阅读观察,AI行业每日发布的论文以千篇计,其中有关深度推理的论文,从每日780篇到300多篇计。张俊林阅读的速度极快,会先看标题和摘要来做内容判断,但他发现,99%以上的论文并不具备解决一线开发者问题的落地能力。

  他只好采用最朴素的方法——试错,张俊林把这叫做自我改进。通过在研发过程中,尝试多个训练方法,来一分一分地争取。有点像数学高考前的冲刺,50冲到100分或是难度可控的,但100冲到110分,方法将从普适经验转向个人方法创新。

  在这个过程中,张俊林团队提出了一个名为频谱到信号原理(简称SSP的方法来训练大模型。行业内有相关提法,但并未有专门论文论述。真正把原理付诸独家实操的,正是VibeThinker

  也正是借助这个训练方法,VibeThinker大模型的数学能力,最终战胜了超越其数百倍体量的巨人

  所谓频谱到信号原理方法,其核心要义是张俊林团队重新思考和确立了SFTRL两步训练的关系。

  SFT监督微调Supervised Fine-Tuning英语的缩写,旨在让基础大模型这一原生矿石,进一步适应特定领域的训练,打好基础,比如让VibeThinker打好数学基础。

  RL强化学习英语(Reinforcement Learning的缩写,其核心思想是通过奖励机制引导模型的行为,让大模型的答案生成更加符合人类的偏好,从而提升回答的质量、安全性等。

  张俊林认为,行业内一般通行做法,是SFT训练在前、RL在后,两者目的殊途同归,都是为了提升模型生成内容的准确性。但他觉得SFT+RL的模式问题在于,两者优化目标都一样,没有体现出区别和配合,SFTRL两个阶段都是在优化Pass@1(行话,即重视第一个回答的准确率),相比RL来说,SFT 本身就比较缺乏探索性,如果这么做,接在SFT后面的RL探索空间就很小,这会阻碍模型的效果。

  他的做法是尝试将RLSFT进行分工合作SFT应该配合RL,优先优化Pass@K(行话,即重视模型的一题多解能力),先把解决问题的多样性做好,这样才能为后续RL打开探索空间。

  这个做法就有点像推荐系统里的召回+排序两阶段流程,召回负责多样性,排序负责精准性,是一种频谱到信号原理的呈现。张俊林表示。

  类似于训练一个学生的解题能力,先注重提升他的解题思维和方法,再来实现解题正确性的提高——即先锻炼思维、再实现结果。

  张俊林团队经过实操发现,这样能提高小模型的训练效果,也正是经过这一操作,张俊林团队成功将VibeThinkerAIME2025的得分,从50多分一点一点提升至74.4分。

  其实,通过类似这种模型训练方法的创新来实现降本增效,已成为行业共识。如知识蒸馏就被认为是模型训练的一种战术级创新。

  而微博张俊林团队的频谱到信号原理创新,无疑给行业内又贡献了一套新的选择方案,属于一种大模型建造流程的重新思考,进一步改变了传统模型训练单纯靠堆算力、堆参数、烧钱来实现胜出的惯性依赖。

  VibeThinker将科研成果以合适方式对海内外业界进行了详细说明,尤其在海外产生了广泛影响,吸引诸多权威科技媒体前来报道。张俊林远在美国Meta的朋友来电,希望用频谱到信号原理的方法,来复刻相关模型。

  #03

  应用

  VibeThinker的实践,推翻了行业内的固有结论——小模型难以具备高度的推理能力。

  张俊林表示,“VibeThinker是开源十分彻底的模型,将有助于微博平台继续生成各类AI应用,也能将技术红利外溢给其他主体,尤其是中小企业,完全可以在VibeThinker基础上进行再开发,服务于自己的业务。

  实际上,微博做VibeThinker并非来自于天马行空的前沿未知探索,它的出发点,主要来自于要服务微博平台内一项很实际的应用需求——评论罗伯特

  评论罗伯特,是微博在20237月上线的一款AI机器人。人如其名,它的活跃区域是评论区,其具体运作机制,最先是基于微博自研的闭源大模型——知微大模型,来深度学习微博用户发布的各类帖子,从而生成评论贴,与用户形成互动。

  诞生之初,评论罗伯特以横冲直撞的魔童风格,生成各类评论,一度成为社交话题。

  评论罗伯特,并非微博自上而下策划的公司S级项目,而只是来自微博公司内周期性举办的“AI创新大赛。在ChatGPT诞生以后,微博鼓励员工以2-3人为单位,为平台内可能的AI应用提出创意。

  评论罗伯特,就是诸多方案之一。它并未在员工创意方案评选中获得大奖,但反而微博以试一试的心态,意外将它从创意落实成了具体产品。

  支持评论罗伯特运行的大模型,于今年6月,融合了类似DeepSeek-R1模型的深度思考能力,目的是借用其深度学习与思考能力,提升回复的逻辑深度和个性化水平,让用户的体验更好。

  但这也带来相应的问题。因为模型规模比较大,每进行一次深度思考与回复,耗时长,使用成本也偏贵。有公开报道称,DeepSeek-R1每次推理时激活的参数量为370亿,占总参数量5.5%,虽然在干活时已经实现了降本增效,但仍然成本不算便宜。

  微博方面透露,评论罗伯特每天大约要生成百万AI评论,且专挑粉丝数只有几百人的微博普通用户,追求给很多情绪低沉的用户以心理抚慰

  看似只有一位罗伯特在干活,实际上这一应用背后有67Agent来负责操作。有的Agent专职遴选粉丝数只有数百人的微博用户,有的Agent负责学习用户帖子乃至发的图片内容,有的Agent负责生成评论。甚至连评论风格又被细分为数个Agent负责,有的负责娱乐线、有的负责科技线,有的负责犀利派评论,有的负责温情派留言。

  张俊林恰好也是评论罗伯特项目的负责人。因应项目需求,开发一款参数更小、使用成本便宜、但智能还能保持较高水平的大模型,成了最直接的需求。这才有了VibeThinker模型的诞生,也才有了张俊林团队为期3个月的数学能力攻坚战

  回想起这三个月,张俊林坦言,脑袋转不动、情绪低沉的时刻常有,但作为一名AI研发者,面对万般困难,核心开发者的解题思路,朴素得出奇。

  遇到问题、头脑风暴、思考解决方案、然后进行试错,此路不通,换一条试试,大家彼此用理性说服,几乎就是这样一条平平无奇的路径。这本质上也是AI研发工程师们一种被数学牵引的思维之光。

  目前,微博平台内已实现开源模型与知微大模型双模型引擎。前者还在负责微博平台内另一款广受欢迎的AI应用——微博智搜,它与评论罗伯特,成为微博AI应用的两块看板,进一步激活了微博已有生态。

  据微博发布的2025Q3财报,微博智搜MAU突破7000万,DAU和检索量环比提升超过50%。至于评论罗伯特,虽然有的用户对与评论罗伯特的互动并不感冒,但张俊林曾在内部做过A/B测试。在导入评论罗伯特之后,微博的用户活跃有了提高,平台内的社交氛围得到了改善。而普通人社交,恰好是微博平台需要补强的地方。

  张俊林表示,接下来会基于VibeThinker探索出的技术,一方面融入微博领域数据提升现有AI应用的效果,一方面减少模型参数大幅节省应用成本。同时VibeThinker也将进一步训练,摸索在其它方面提升智能的方法。他也欢迎平台外主体能活用其相关成果,进一步对自身业务主体进行降本增效与应用赋能。

  最后,他也总结了小模型的未来:从罗伯特中来,到罗伯特们中去。类似于大家耳熟能详中的那句话,从群众中来,到群众中去,AI用起来方便、便宜、能成事才是最关键的。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...