DeepSeek开源新模型,数学推理能力大提升
创始人
2025-05-01 09:01:31
0

DeepSeek 近期开源了全新模型,这一举措引起了广泛关注。该模型在数学推理能力方面实现了重大突破,展现出了卓越的性能。通过大量的数据集训练和先进的算法优化,它能够更准确、更高效地处理各种数学问题。无论是复杂的代数运算,还是几何证明,DeepSeek 新模型都能迅速给出合理的答案和推理过程。这不仅为数学研究提供了更强大的工具,也为相关领域的应用开发打开了新的大门,有望在教育、科研等多个领域发挥重要作用,推动数学领域的进一步发展。


赶在五一假期前夕,DeepSeek给我们送出一份惊喜大礼。


延续一贯的开源节奏,DeepSeek在Hugging Face正式发布DeepSeek-Prover-V2,并同步上线模型卡及示例代码。此次共推出两个版本:


  • DeepSeek-Prover-V2-7B:基于上一代V1.5模型,支持最长32K上下文输入;


  • DeepSeek-Prover-V2-671B:在DeepSeek-V3-Base基础上训练,推理性能最强。


*核心贡献者†在DeepSeek-AI实习期间完成的工作


据官方论文披露,DeepSeek-Prover-V2的训练核心是“递归+强化学习”的组合:即先由DeepSeek-V3拆解复杂定理,生成一系列子目标和推理思路;再通过GRPO算法,从多种候选方案中自动学习如何选出最优解。


模型特别引入了两种互补的“解题风格”:


  • 快速模式(non-CoT):专注于速度,像是一位熟练工匠,直接生成精炼的Lean代码答案,不展示思考过程,适合处理大量题目。


  • 逻辑模式(CoT):更像一个耐心的数学老师,会详细列出每一步推理过程,确保逻辑清晰、思路透明。


训练过程分为两阶段,在第一阶段,研究人员主要训练快速模式,采用“专家迭代”方法:模型先尝试解决难题,成功的答案再作为新数据反哺模型,不断打磨自己的能力。


待快速模式趋于稳定后,研究人员进入第二阶段,开始训练更复杂的逻辑推理能力。他们将DeepSeek-V3的数学知识迁移到新模型中,并结合形式化数据,引入“冷启动”机制,构建起更复杂的推理路径。



为了进一步提升推理能力,研究人员引入了GRPO的强化学习算法,不同于传统的PPO,它直接在多个候选答案中比较优劣,引导模型自主学会选择最优解。


具体做法是:每次输入一个定理,系统会生成32个不同的证明方案,然后只保留被Lean验证系统判定为“正确”的答案(奖励1分,否则0分),这样模型就能在高质量反馈中不断进化。


在开发出性能强大的671B模型后,DeepSeek研究团队又尝试把这些能力“蒸馏”到更小的7B模型中,而整个过程就像是师傅教徒弟:


先用大模型生成解题过程,再教会小模型理解并复现;同时将小模型输入长度扩展至与大模型一致,并经历相同的强化训练。


这样,即便在资源有限的设备上,用户也能使用小体积模型获得接近大模型的数学推理能力,并根据需求选择快速或详细解题风格。



在整个体系中,DeepSeek-V3负责拆解复杂定理,生成自然语言的推理草图,同步转译为Lean语言表示的一系列子目标,并生成“思路链”作为中间引导。


7B模型再一步步完成子证明,最终拼接成完整推理。这种“模糊思考+精确证明”的训练机制,有效提升了小模型的数学理解深度。



在最终性能评估中,DeepSeek-Prover-V2-671B在MiniF2F测试中实现了88.9%的通过率,成功解出PutnamBench数据集中的49道难题。


与此同时,DeepSeek还同步推出了一个全新的数学形式化数据集ProverBench,共包含325道问题题目。涵盖:


  • AIME竞赛题(15题);


  • 数论、代数、线性代数、微积分、实分析等多个方向。



这一数据集不仅包含真实的高中竞赛题目,还涵盖从基础代数、实变分析到概率论等多个本科阶段知识点,能够系统评估模型在不同数学领域的推理能力。


结果显示,在15道AIME竞赛题中,DeepSeek-Prover-V2成功解出其中6道,而DeepSeek-V3使用多数投票方式(majority voting)则解决了8道。


按照官方说法,这组对比凸显出一个重要趋势:大型语言模型在“非正式数学推理”和“正式数学推理”之间的表现差距正在明显缩小。


  • 非正式数学推理:指模型像人类一样用自然语言思考、理解并解答数学题,比如我们日常说“这道题怎么算?”的方式。它更灵活、不需要严格的逻辑形式。


  • 正式数学推理:指模型能用像Lean这样的形式语言,写出符合数学逻辑、可被验证器检验的严谨证明。它像数学论文中的证明,强调每一步推理都必须严格准确。


换句话说,过去模型更像是“会算但不会写出严谨证明”。而现在,在模型结构和训练策略不断演进下,语言模型也逐步学会了写出规范、可验证的数学证明。


此外,DeepSeek宣布新模型的使用将遵循其公开许可证。


目前,Prover-V2系列已可通过Hugging Face平台免费下载,并支持Transformers接口部署。Novita AI是首批上线Prover-V2-671B推理服务的第三方提供商,我们也借此测试了一些问题。



经典的“一根5.5米长的竹竿可以通过高4米宽3米的门吗?”很遗憾,结果它没答对。



对于这道抽象代数,它的回答不仅正确,还能从基本定义出发,解释什么是群同态、Z₁₂和Z₄的含义,以及同态的运算规则,显然,这对于初学者很友好。



从论文所透露的方向来看,DeepSeek-Prover-V2给出的不仅是数学答案,更指明了语言模型下一阶段的可能路径。


如果说过去我们关心的是大模型“能说什么”,那么在Prover-V2身上,我们得需要关注它“能证明什么”。


数学只是切入口,推理才是DeepSeek这次真正下注的方向。


从生成内容迈向生成结构化逻辑,这条路线不够性感,也不容易讲故事,却可能最早触碰通用人工智能的底层结构。


毕竟,AI可以不懂人情世故,但它必须学会推理,因为任何知识系统的边界,归根结底都是逻辑能否闭环,以及推理能否成立。


最后附上相关地址:

1. DeepSeek-Prover-V2-7B HuggingFace地址:

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B

2. DeepSeek-Prover-V2-671B HuggingFace地址:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

3. DeepSeek-ProverBench HuggingFace地址:https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench

4. DeepSeek-Prover-V2GitHub地址:


https://github.com/deepseek-ai/DeepSeek-Prover-V2


本文来自微信公众号:APPSO (ID:appsolution),作者:Prover

相关内容

热门资讯

49:49白热化,美参议院对新... 当地时间4月30日,美国参议院以50票同意、49票反对的投票结果,通过了一项动议,暂时搁置了一项涉及...
3月新备案私募基金1423只 中国基金业协会近日发布的数据显示,2025年3月,新备案私募基金数量1423只,新备案规模631.3...
开创电气:2025年一季度净利... 中证智能财讯 开创电气(301448)4月29日披露2025年第一季度报告。公司实现营业总收入1.5...
阳江港接卸全球巨轮破双纪录!载... 阳江广播电视台 ,赞 43 4月27日12:00,停靠在阳江港保丰码头的利比里亚籍散货船“维嘉”...
原创 雷... 以前千元机还是“能开机、能上网、能打电话”的代名词,但如今的红米Turbo4 Pro,直接把“千元机...
从0到1创办一家公司的底层逻辑 从 0 到 1 创办一家公司,其底层逻辑在于清晰的目标与坚定的决心。首先要明确公司的核心价值和独特定...
“4+4”医学教育模式:招生标... “4 4”医学教育模式是一种创新的医学教育体系。招生标准注重学生的综合素质,不仅要求优秀的高考成绩,...
五一假期“人休钱不休”?多家银... “人休钱不休”“闲钱不放假”“假期资金不站岗”……距离“五一”假期的时间越来越近,多家银行理财公司提...
业之峰28岁庆生!张钧发圈&q... 乐居财经李兰4月30日,适逢农历乙巳蛇年四月初三,业之峰迎来28周岁生日。 业之峰董事长张钧在社交平...
天风证券:给予工商银行增持评级 天风证券股份有限公司刘杰近期对工商银行进行研究并发布了研究报告《短期波动不改稳健经营底色》,给予工商...
个人养老金Y份额基金规模破百亿... 【大河财立方 记者 孙凯杰】自2022年11月试点以来,个人养老金制度已运行两年有余。 从多城试点到...
马斯克向特朗普“告别”,留下“... 马斯克向特朗普“告别”,这一事件背后蕴含着重要意义。在其与特朗普的合作历程中,留下了一份令人瞩目的“...
兴业银行管理层:力争今年净利息... 21世纪经济报道记者 周妙妙 深圳报道 4月30日,兴业银行(601166.SH)举行2025年第一...
全世界都在等着美国的五月 全世界都在等着美国的五月,仿佛这是一个充满神秘与期待的时刻。五月的美国,或许将迎来一系列重大的决策与...
营收和净利再现个位数增长 五粮... 4月26日,五粮液(000858.SZ)发布2024年度报告以及2025年一季度报告。数据显示,20...
近十年净利润大涨大跌,喜临门费... 喜临门2024年及2025年一季度归母净利润持续同比下滑,降幅分别为24.84%和4.02% 投资...
五一出行,我劝你别用机场火车站... 五一出行,我劝你别用机场火车站的免费充电线。这些免费充电线往往存在诸多隐患。首先,其质量参差不齐,可...
和讯投顾高璐明:弱信号!小心节... 朋友们弱势信号出现,小心节后的回踩风险。那么当下我们到底应该怎么办?要不要赶紧跑?4月30日,和讯投...
原创 特... 特朗普刚上台那阵子,简直是“总统版”的狂飙模式!签署了130多道行政令,搞得美国鸡飞狗跳,法院都忙不...