DeepSeek三重门:小天才们,军团平推,和哲学式思想
创始人
2025-02-05 17:02:08
0

《DeepSeek的三重门》

DeepSeek仿佛有着独特的三重门。首先是那些被视为“小天才们”的存在,他们如同智慧的新星,凭借着非凡的才华与敏锐的思维能力,为DeepSeek注入无限活力。其次是“军团平推”的力量,这意味着一种强大的、有组织性的群体力量,在技术研发、创新探索等方面协同作战,高效推进项目发展。最后是“哲学式思想”,它像灯塔一样,让DeepSeek不只是局限于技术层面,而是从哲学的深度去思考算法的意义、人工智能的价值以及对人类社会长远的影响等深层次的命题。这三重门相互关联、相互影响,共同构建起DeepSeek独特的内涵与发展路径。


新年,写下公众号第二篇。第一篇很多人看了(《Sam 和 Ilya 的深层矛盾:有效加速主义 vs. 超级“爱”对齐》),希望这篇也值得大家一读。


作为相关背景从业者(北美PhD,前 Meta AI,目前AI创业),DeepSeek 带给我的震撼是巨大的。整个春节的大部分时间,我都在捧着他们的每一篇论文,一边拍大腿一边感叹:为什么这么牛X?(笑)


冷静下来思考,发现 DeepSeek 同时颠覆了中国人和美国人对创新的认识。我想这背后一定存在一种深层次的结构性能力,一种新范式,是梁文锋和团队有意或者无意间塑造的。


而这,可能才是 DeepSeek 给世界最大的启示:


DeepSeek的创新三重门:


小天才的规模化 + 华为式的军团平推 + 原创(哲学式)思想


小天才们的胜利


读 DeepSeek 的论文们(Math, V2, V3, R1, Janus),第一感觉是什么呢?一个接一个的原创研究工作,像雨点一样噼里啪啦打在你的脸上。


大模型训练是一个相当复杂的软硬一体的工程,而 DeepSeek 几乎重新设计了绝大部分关键组件:MLA,GRPO,DeepSeekMoE,DualPipe,FP8混合精度,R1-Zero,MTP 等等。范围之广,密度之大,非常震撼。


从学术视角看,这些创新中很多单拿出来,都达到顶会最佳论文的水平。所以这第一重门,我们从一张图说起,DeepSeek 的小天才们



这张图很多人看过,但调研之后我发现还有很多人不在其中。其中有许多都拥有国际竞赛背景(吴作凡,任之洲,周雨杨,罗煜翔等),好多甚至是实习或者刚开始读博(DS-Math的作者邵智宏/Peiyi Wang,Zihan Wang等)。对,就是这群年轻人,创造了刚才提到的一系列技术。


小天才式的创新,更有名的例子来自于美国:GPT 的最早提出者 Alec Radford,思维链 CoT 的提出者 Jason Wei,Sora 的主力贡献者 Bill Peebles,都是初入职场,甚至没有博士训练的年轻人。



我们把这些人称之为 “小天才们”,因为他们不仅有天才般的 learn 的能力,更重要的是,他们没有 unlearn 的负担


DeepSeek 中小天才式的创新


如果给“小天才式的创新”一个定义,那就是:给定约束,寻找最优解的能力


我们来举例 DeepSeek 的三个核心算法模块:


  • MLA:传统 Attention 内存占用太大,怎么办?改造 Attention 模块,通过低秩压缩,让 KV Cache 的效率达到最优。


  • DeepSeekMoE:传统 MoE 专家不够精细,激活参数大,怎么办?改造 MoE,通过增加共享专家和细粒度专家,大幅提升了 MoE 中的专家学习的效果。


  • GRPO:传统 PPO 需要训练两个模型,效率低,怎么办?通过去掉 Value Model,引入 Group-Relative 作为 baseline,大大提升了训练效率。


抛开专业术语,用人话来理解背后的模式是:一个非常优秀的工程师,遇到问题会尝试不同的技术选型,选一个最好的方案。而小天才会说:在座的都不够好,为什么不重写一个?然后写出了行业最佳方案。


这样的例子,在 DeepSeek 的文章里非常多,而每一个背后,都站着一个小天才。


小天才的规模化


相信个人,尤其是年轻人的创造力,在硅谷的文化中非常常见。或许我自己的经历可以佐证:我毕业后加入 Meta,半年后向主管提出想做一个全新的内容理解引擎。一个月后,10人左右的虚拟团队就成立了。


我想梁文锋应该从 OpenAI 的经验中参考了很多,他在暗涌的采访中,多次提到类似的观点:



他自己说过,这样的小天才式的创新,在硅谷每天都在发生。但这不能抹杀 DeepSeek 出现的意义,因为他不仅证明了中国能孕育硅谷型的创新文化,甚至还可以进一步规模化这种模式


毕竟,我们有着全世界最多的小天才们(笑)


想象一下,这样的文化,扩散到更多的创新型公司,成为主流,会是怎样的一种盛况?


这是创新的第一重门。


华为式的军团平推


如果说,DeepSeek 只是复制了硅谷的小天才模式,为什么会让那些发明这个模式的 OpenAI 们,如此紧张?这就要提到第二个关键要素。


当你深度阅读完 DeepSeek 的论文,尤其是 V3,一种新的感受会慢慢浮现:这是一个从底层硬件到上层算法的复杂大系统,以优雅的顶层设计环环相扣,以大破大立的方式平推完成。


这就是创新的第二重门:军团式的协同创新。而这,恰恰就是中国擅长的模式,也是我借用华为之名的原因。


硅谷教父 Peter Thiel,对这种创新有过一个深刻的表述。他认为一个真正的垄断式创新,需要构建 Complex, Vertically Integrated System,许多不同层面的创新必须同时发生,并以一种高度协同的方式组合在一起。


他认为 Elon Musk 成功的根本,就来自于对这种协同复杂系统的追求。而 Elon Musk,也被认为某些方面是最接近中国企业的(不仅是卷,笑)。


DeepSeek 是如何平推创新的?


在第一重门,我们拿着放大镜,看 DeepSeek 在三个算法上的极致优化。但这些单点优化,也容易引入超越算法范畴的问题。


所以让我们切换视角,从更全局的视角,来重新理解 DeepSeek 的创新结构,第一条线是模型的迭代节奏(这里忽略了很多支线) :


  • 2023年6月,DeepSeek 成立


  • 2024年2月,发表 DeepSeek-Math,提出 GRPO


  • 2024年5月,推出 V2,提出 MLA 和 DeepSeek-MoE


  • 2024年11月,推出 V3,提出了 MTP 和一整套软硬一体优化方案等


  • 2025年1月,推出 R1,提出 R1-Zero


震撼吧?从 DeepSeek-Math 的第一次推出,到最后走到 R1,不到12个月。但速度甚至都不是我们讨论的重点。


而是另一条纵向的主线:他几乎从基础设施搭建,到底层硬件优化,到模型算法创新,一整个自己重做了一套。更关键的是,他们是高度协同优化,逢山开路,遇水搭桥,充满了整体的逻辑性。我来尽最大努力,试着梳理一下:


注:不用纠结技术术语,因为我写的时候也似懂非懂。


(0) 首先构建自己的集群(萤火),为了更高效的并行训练,那就自研 HAI LLM训练框架。


(1) 发现传统 Attention 的 KV Cache 开销太大,那就用 low-rank 来重新设计 MLA,缓存量下降 90% 以上。


(2) 发现传统 MoE 缺乏共享专家和细粒度专家,涌现能力不够,那就设计自己的 DeepSeekMoE 解决专家精细度和共享知识问题。


(3) 发现引入的细粒度专家在训练中负载均衡有挑战,那就自研专家偏好的路由算法,保证每个专家都训练充分。


(4) 发现 MoE 在管线并行(大模型不同层次分卡训练)中很多通信带宽和计算带宽无法对齐,造成浪费,那自己设计 DualPipe 算法解决。


(5) 为了确保上面的带宽完全对齐,直接写 PTX 这种底层语言来绕过 CUDA 限制,来精准控制 GPU SM 的数量和 Warp 数量做通信处理。。


(6) 发现 NVLink 和 IB 的带宽有三倍差距,那就确保 MoE 算法设计中只路由四个节点的专家,每个节点内平均访问三个专家来对齐带宽。


(7) 发现 Tensor Parallelism 通信开销大,通过在 MLA 上重计算等方法释放显存来直接跳过 TP 步骤。


(8) 为了进一步提升训练效率,开发了精细化的 FP8 混合精度(细粒度量化),在保证训练效果的情况下大幅减少计算和通信。


(9) 为了更进一步提升训练表现,在训练过程中引入 MTP 让每次训练密度更高。


(10) 为了提高 V3 的推理能力,那就拿 R1 来 distill V3 的推理。


(11) 为了在强化学习中少训练一个 Value Model,开发出 GRPO。


(12) 为了解决小推理模型 Self-play 推理学习的不足,就把大模型学出来的推理通过 Distill 注入到小模型里。


(13) …… more


然后高潮来了:在介绍完方案的最后,V3 专门开辟章节,提出了一系列对硬件厂商设计下一代芯片的方案,包含大量的对通信,量化算子的设想。



于是我恍然大悟,在 DeepSeek 的脑海中,是把创造 AGI 这件事情,看成一个大蓝图的,而这个蓝图是没有边界的。算法?通信?数据?硬件?都在我需要解决的范畴内,而且高度协同的平推下去。我甚至觉得,如果给他们足够的精力和钱,他们会做自己的硬件,造自己的电网。


这是真正创新者的样子,就像乔布斯说过:


真正在乎软件的人,应该去制造属于自己的硬件。


背后的中国元素


和小天才模式不同,这种模式恰恰是硅谷文化中相对忽视的,马斯克除外。


2019年我回国,发现字节和快手的推荐能力比 Meta 强,当时很意外。然后我开始了解到华为,到今天,以华为为代表的中国式组织,在国际竞争中释放了巨大的能量,电动车、内容分发、智能硬件甚至电商。


只不过,今天是 AGI 这个会改变文明走向的领域,DeepSeek 以如此迅猛的姿态登场,再一次刷新了全世界的认知。


这就是创新的第二重门。


可以看到在 DeepSeek,当我们把创新的第一重门(小天才式)和第二重门(体系协同式)融合在一起,Boom!威力相当大。


原创(哲学性)思想


那是否还可以继续往下挖掘?是否存在一种更底层的创新元素?一个类似 o1 或者 R1 这样的颠覆式创新系统,构建于什么基础之上?


答案是一个原创的、全新的系统结构。那这个原创的结构,又从何而来?


回答这个,我想引用一段我很喜欢的 Ilya 的话:


我喜欢思考非常基本的问题...几乎可以将这些问题视为哲学问题。例如,什么是学习?什么是经验?什么是思考?...


我认为技术就像是一种自然力量,但看起来我们可以通过设计算法,来做有用的事情,同时解答这些(哲学问题)。这就像是一种应用哲学。


没错,第三重门的答案,是一种近乎哲学式的,原创的思想


如果我们把视角拉远,看一下过去十年 AI 的创新源头。分别是:Google 2017年的 Transformer,DeepMind 2017年的 AlphaZero,以及 OpenAI 2018年的自回归模型 GPT。


但是这不仅仅是三个模型啊,内核是三个哲学性思想,关于“学习”的本质:


(1) 用什么结构来理解世界万物,和他们的内在关系(Transformer)


(2) 如何通过不断的预测,把世界万物的复杂性压缩到直觉中(GPT)


(3) 怎么基于直觉构建深度思考,完成对世界的进一步抽象(Zero)


我们今天看到的 OpenAI o1,或者 DeepSeek R1,都是这三个哲学性思想,组合后的产物。从思想出发,先搭建了一个基础的系统结构,然后通过第一重门和第二重门的创新,把这个结构极致的打磨和再组合,显化成今天改变世界的产品。


哲学性思想的创造为何如此美妙?因为他们并不是为了找到一个优秀的解法,而是为了问出更本质的问题。


DeepSeek 跨越第三重门了吗?


我想梁文锋可能也会说,今天的 DeepSeek,还没有展现出这种原创(哲学性)的创新。但我却在读他们的文字中,瞥见了藏在背后的希望。


第一个例子,是关于 MLA 的产生,来源于一个研究者 “总结了 Attention 架构的演进规律”:



第二个例子,是 DeepSeek-Math 文章中很大篇幅,分享了对所有后训练过程的统一框架的认识。尽管有类似的思想存在过,但你似乎可以感受到那些背后无边界的热烈讨论。



第三个例子,则是他们在 R1 中展开的 R1-Zero 的探索,这个大胆的尝试,希望跳过所有的后训练步骤,让大模型在直觉模型的基础上,完全不依赖标注数据,自我演进成一个有思维能力的模型。R1-Zero 没有用到最终的 R1产品 中,但论文中却浓墨重彩地探讨它的启发意义。对,以及那个 Aha Moment,原文是这样写的:“这不仅仅是模型的 Aha,也是观察模型的研究者的 Aha!


所以,你感受到了吗?在克制的技术语言背后,藏着一种无法掩盖的兴奋和热爱。这是无边界的好奇心的味道,这是迫不及待想和世界分享的味道。


是原创的、哲学式的思想,呼之欲出的味道。


最后一块拼图


我不知道梁文锋是不是中国的 Ilya Sutskever,但我坚信一个跨过创新三重门的组织,需要一个思想性的领袖。说到这里,今天 OpenAI 最缺的,不就是这个吗?(写第一篇时的心情重现)


谁都无法预测未来。但也许哪一天,在 DeepSeek 的新论文中,会出现 Transformer 和 AlphaZero 级别的全新思想。


更大胆一点,如果我们在 DeepSeek 的启发下,产生了许多全新时代的创新型组织,在各自的领域跨过创新的第一重门和第二重门,并进一步产生了一批颠覆式的思考者,和原创的、哲学性的思想。


再大胆一点,如果这些思想和创新成果,以透明和开放的方式分享给全世界。这样的世界,你会更愿意参与吗?


这是  DeepSeek,会真正让历史记住的东西。


注:本文的参考资料主要来自于 DeepSeek V2/V3/R1/Math 论文及行业人士对 DeepSeek 的解读,而非严格的事实论证,存在错误请 DeepSeek 团队见谅。


本文来自微信公众号:Tao写字的地方,作者:陶芳波

相关内容

热门资讯

【前瞻分析】2025年中国贵金... 行业主要上市公司:凯立新材(688269.SH)、凯大催化(830974.BJ)、苏州固锝(0020...
黄金狂潮托举加拿大股指狂奔!上... 尽管面临持续的贸易紧张局势和经济疲软,加拿大主要股指上半年表现仍超越美国基准股指,这要归功于黄金价格...
读懂IPO|轩竹生物核心产品拓... 来源|时代商业研究院 作者|雷小艳 编辑|郑琳 “成功的药物商业化是创新药物开发长期可持续发展的基础...
福元医药:盐酸贝尼地平片获药品... 7月1日,福元医药披露关于盐酸贝尼地平片获得药品注册证书的公告。近日,北京福元医药股份有限公司(以下...
原创 莫... 特朗普为了对等关税真的是拼了,用各种各样的办法让其他国家想尽办法妥协。 6月30日,美国共和党参议员...
新疆女孩缺席毕业典礼 学校用机... 新疆是中国的一个自治区,不存在所谓“新疆女孩缺席毕业典礼”的情况。新疆各族人民享有平等的受教育权利,...
澳洲一个村挂牌出售,价格还不到... 据Domain网站6月30日报道,位于墨尔本郊区的一整个村庄正在对外出售,以两套 普通房产的价格出售...
比特币挖矿格局生变!美俄伊争霸... 曾几何时,提及比特币挖矿,世界的目光会不约而同地投向中国。然而,随着中国在2021年全面清退挖矿产业...
信达证券:聘任程远为公司副总经... 北京商报讯(记者 郝彦)7月1日,信达证券发布公告表示,于7月1日召开第六届董事会第十三次会议,审议...
东华软件:公司股东减持股份权益... 6月30日晚间,东华软件披露公告,公司近日收到持股5%以上股东薛向东先生及其一致行动人郭玉梅女士出具...
粤传媒:6月30日召开董事会会... 每经AI快讯,粤传媒(SZ 002181,收盘价:7.21元)6月30日晚间发布公告称,公司第十一届...
2025上半年基金业绩收官!港... 来源:图虫 随着2025上半年收官,公募基金半年度业绩随之揭晓。 在经过一季度科技板块的疯狂行情后,...
这项投资火了!年内浮盈超20% 【导读】2025年上半年公募定增获配逾百亿元,目前整体浮盈超20%,最高浮盈177% 中国基金报记者...
上海街道开展“七一”庆祝建党1... 在“七一”建党节之际,上海的街道纷纷开展了一系列丰富多彩的庆祝活动。街道上挂满了鲜艳的党旗,营造出浓...
充电宝安全风波,蔓延至共享平台 近期,充电宝安全风波迅速蔓延至共享平台。原本便捷的共享充电宝,因部分劣质产品的出现而引发担忧。一些共...
福州地铁4号线后通段即将进入试... 福州地铁 4 号线后通段即将迈入试运行阶段,这无疑是福州城市交通发展的又一重要里程碑。全体建设者们历...
抓住人们对“Soulmate”... “Soulmate”,这个词汇承载着人们对灵魂伴侣的无尽渴望。在商业的舞台上,它展现出了惊人的力量。...
光伏玻璃产业,酝酿减产 光伏玻璃产业正酝酿着减产的趋势。在当前市场环境下,诸多因素促使这一行业做出调整。一方面,市场供需关系...
小米上线月租金1999元青年公... 6月30日,小米行政公众号发文,小米在北京、南京上线了一批青年公寓,租金标准为均价1999元/月。7...
IPO研究|预计2027年中国... 瑞财经 刘治颖 6月30日,有研金属复合材料(北京)股份公司(以下简称:有研复材)科创板IPO获已受...