DeepSeek三重门：小天才们，军团平推，和哲学式思想_资讯

DeepSeek三重门：小天才们，军团平推，和哲学式思想

创始人

2025-02-05 17:02:08

0次

《DeepSeek的三重门》

DeepSeek仿佛有着独特的三重门。首先是那些被视为“小天才们”的存在，他们如同智慧的新星，凭借着非凡的才华与敏锐的思维能力，为DeepSeek注入无限活力。其次是“军团平推”的力量，这意味着一种强大的、有组织性的群体力量，在技术研发、创新探索等方面协同作战，高效推进项目发展。最后是“哲学式思想”，它像灯塔一样，让DeepSeek不只是局限于技术层面，而是从哲学的深度去思考算法的意义、人工智能的价值以及对人类社会长远的影响等深层次的命题。这三重门相互关联、相互影响，共同构建起DeepSeek独特的内涵与发展路径。

新年，写下公众号第二篇。第一篇很多人看了（《Sam 和 Ilya 的深层矛盾：有效加速主义 vs. 超级“爱”对齐》），希望这篇也值得大家一读。

作为相关背景从业者（北美PhD，前 Meta AI，目前AI创业），DeepSeek 带给我的震撼是巨大的。整个春节的大部分时间，我都在捧着他们的每一篇论文，一边拍大腿一边感叹：为什么这么牛X？（笑）

冷静下来思考，发现 DeepSeek 同时颠覆了中国人和美国人对创新的认识。我想这背后一定存在一种深层次的结构性能力，一种新范式，是梁文锋和团队有意或者无意间塑造的。

而这，可能才是 DeepSeek 给世界最大的启示：

DeepSeek的创新三重门：

小天才的规模化 + 华为式的军团平推 + 原创（哲学式）思想

小天才们的胜利

读 DeepSeek 的论文们（Math， V2， V3， R1， Janus），第一感觉是什么呢？一个接一个的原创研究工作，像雨点一样噼里啪啦打在你的脸上。

大模型训练是一个相当复杂的软硬一体的工程，而 DeepSeek 几乎重新设计了绝大部分关键组件：MLA，GRPO，DeepSeekMoE，DualPipe，FP8混合精度，R1-Zero，MTP 等等。范围之广，密度之大，非常震撼。

从学术视角看，这些创新中很多单拿出来，都达到顶会最佳论文的水平。所以这第一重门，我们从一张图说起，DeepSeek 的小天才们。

这张图很多人看过，但调研之后我发现还有很多人不在其中。其中有许多都拥有国际竞赛背景（吴作凡，任之洲，周雨杨，罗煜翔等），好多甚至是实习或者刚开始读博（DS-Math的作者邵智宏/Peiyi Wang，Zihan Wang等）。对，就是这群年轻人，创造了刚才提到的一系列技术。

小天才式的创新，更有名的例子来自于美国：GPT 的最早提出者 Alec Radford，思维链 CoT 的提出者 Jason Wei，Sora 的主力贡献者 Bill Peebles，都是初入职场，甚至没有博士训练的年轻人。

我们把这些人称之为 “小天才们”，因为他们不仅有天才般的 learn 的能力，更重要的是，他们没有 unlearn 的负担。

DeepSeek 中小天才式的创新

如果给“小天才式的创新”一个定义，那就是：给定约束，寻找最优解的能力。

我们来举例 DeepSeek 的三个核心算法模块：

MLA：传统 Attention 内存占用太大，怎么办？改造 Attention 模块，通过低秩压缩，让 KV Cache 的效率达到最优。

DeepSeekMoE：传统 MoE 专家不够精细，激活参数大，怎么办？改造 MoE，通过增加共享专家和细粒度专家，大幅提升了 MoE 中的专家学习的效果。

GRPO：传统 PPO 需要训练两个模型，效率低，怎么办？通过去掉 Value Model，引入 Group-Relative 作为 baseline，大大提升了训练效率。

抛开专业术语，用人话来理解背后的模式是：一个非常优秀的工程师，遇到问题会尝试不同的技术选型，选一个最好的方案。而小天才会说：在座的都不够好，为什么不重写一个？然后写出了行业最佳方案。

这样的例子，在 DeepSeek 的文章里非常多，而每一个背后，都站着一个小天才。

小天才的规模化

相信个人，尤其是年轻人的创造力，在硅谷的文化中非常常见。或许我自己的经历可以佐证：我毕业后加入 Meta，半年后向主管提出想做一个全新的内容理解引擎。一个月后，10人左右的虚拟团队就成立了。

我想梁文锋应该从 OpenAI 的经验中参考了很多，他在暗涌的采访中，多次提到类似的观点：

他自己说过，这样的小天才式的创新，在硅谷每天都在发生。但这不能抹杀 DeepSeek 出现的意义，因为他不仅证明了中国能孕育硅谷型的创新文化，甚至还可以进一步规模化这种模式。

毕竟，我们有着全世界最多的小天才们（笑）。

想象一下，这样的文化，扩散到更多的创新型公司，成为主流，会是怎样的一种盛况？

这是创新的第一重门。

华为式的军团平推

如果说，DeepSeek 只是复制了硅谷的小天才模式，为什么会让那些发明这个模式的 OpenAI 们，如此紧张？这就要提到第二个关键要素。

当你深度阅读完 DeepSeek 的论文，尤其是 V3，一种新的感受会慢慢浮现：这是一个从底层硬件到上层算法的复杂大系统，以优雅的顶层设计环环相扣，以大破大立的方式平推完成。

这就是创新的第二重门：军团式的协同创新。而这，恰恰就是中国擅长的模式，也是我借用华为之名的原因。

硅谷教父 Peter Thiel，对这种创新有过一个深刻的表述。他认为一个真正的垄断式创新，需要构建 Complex， Vertically Integrated System，许多不同层面的创新必须同时发生，并以一种高度协同的方式组合在一起。

他认为 Elon Musk 成功的根本，就来自于对这种协同复杂系统的追求。而 Elon Musk，也被认为某些方面是最接近中国企业的（不仅是卷，笑）。

DeepSeek 是如何平推创新的？

在第一重门，我们拿着放大镜，看 DeepSeek 在三个算法上的极致优化。但这些单点优化，也容易引入超越算法范畴的问题。

所以让我们切换视角，从更全局的视角，来重新理解 DeepSeek 的创新结构，第一条线是模型的迭代节奏（这里忽略了很多支线）：

2023年6月，DeepSeek 成立

2024年2月，发表 DeepSeek-Math，提出 GRPO

2024年5月，推出 V2，提出 MLA 和 DeepSeek-MoE

2024年11月，推出 V3，提出了 MTP 和一整套软硬一体优化方案等

2025年1月，推出 R1，提出 R1-Zero

震撼吧？从 DeepSeek-Math 的第一次推出，到最后走到 R1，不到12个月。但速度甚至都不是我们讨论的重点。

而是另一条纵向的主线：他几乎从基础设施搭建，到底层硬件优化，到模型算法创新，一整个自己重做了一套。更关键的是，他们是高度协同优化，逢山开路，遇水搭桥，充满了整体的逻辑性。我来尽最大努力，试着梳理一下：

注：不用纠结技术术语，因为我写的时候也似懂非懂。

(0) 首先构建自己的集群（萤火），为了更高效的并行训练，那就自研 HAI LLM训练框架。

(1) 发现传统 Attention 的 KV Cache 开销太大，那就用 low-rank 来重新设计 MLA，缓存量下降 90% 以上。

(2) 发现传统 MoE 缺乏共享专家和细粒度专家，涌现能力不够，那就设计自己的 DeepSeekMoE 解决专家精细度和共享知识问题。

(3) 发现引入的细粒度专家在训练中负载均衡有挑战，那就自研专家偏好的路由算法，保证每个专家都训练充分。

(4) 发现 MoE 在管线并行（大模型不同层次分卡训练）中很多通信带宽和计算带宽无法对齐，造成浪费，那自己设计 DualPipe 算法解决。

(5) 为了确保上面的带宽完全对齐，直接写 PTX 这种底层语言来绕过 CUDA 限制，来精准控制 GPU SM 的数量和 Warp 数量做通信处理。。

(6) 发现 NVLink 和 IB 的带宽有三倍差距，那就确保 MoE 算法设计中只路由四个节点的专家，每个节点内平均访问三个专家来对齐带宽。

(7) 发现 Tensor Parallelism 通信开销大，通过在 MLA 上重计算等方法释放显存来直接跳过 TP 步骤。

(8) 为了进一步提升训练效率，开发了精细化的 FP8 混合精度（细粒度量化），在保证训练效果的情况下大幅减少计算和通信。

(9) 为了更进一步提升训练表现，在训练过程中引入 MTP 让每次训练密度更高。

(10) 为了提高 V3 的推理能力，那就拿 R1 来 distill V3 的推理。

(11) 为了在强化学习中少训练一个 Value Model，开发出 GRPO。

(12) 为了解决小推理模型 Self-play 推理学习的不足，就把大模型学出来的推理通过 Distill 注入到小模型里。

(13) …… more

然后高潮来了：在介绍完方案的最后，V3 专门开辟章节，提出了一系列对硬件厂商设计下一代芯片的方案，包含大量的对通信，量化算子的设想。

于是我恍然大悟，在 DeepSeek 的脑海中，是把创造 AGI 这件事情，看成一个大蓝图的，而这个蓝图是没有边界的。算法？通信？数据？硬件？都在我需要解决的范畴内，而且高度协同的平推下去。我甚至觉得，如果给他们足够的精力和钱，他们会做自己的硬件，造自己的电网。

这是真正创新者的样子，就像乔布斯说过：

真正在乎软件的人，应该去制造属于自己的硬件。

背后的中国元素

和小天才模式不同，这种模式恰恰是硅谷文化中相对忽视的，马斯克除外。

2019年我回国，发现字节和快手的推荐能力比 Meta 强，当时很意外。然后我开始了解到华为，到今天，以华为为代表的中国式组织，在国际竞争中释放了巨大的能量，电动车、内容分发、智能硬件甚至电商。

只不过，今天是 AGI 这个会改变文明走向的领域，DeepSeek 以如此迅猛的姿态登场，再一次刷新了全世界的认知。

这就是创新的第二重门。

可以看到在 DeepSeek，当我们把创新的第一重门（小天才式）和第二重门（体系协同式）融合在一起，Boom！威力相当大。

原创（哲学性）思想

那是否还可以继续往下挖掘？是否存在一种更底层的创新元素？一个类似 o1 或者 R1 这样的颠覆式创新系统，构建于什么基础之上？

答案是一个原创的、全新的系统结构。那这个原创的结构，又从何而来？

回答这个，我想引用一段我很喜欢的 Ilya 的话：

我喜欢思考非常基本的问题...几乎可以将这些问题视为哲学问题。例如，什么是学习？什么是经验？什么是思考？...

我认为技术就像是一种自然力量，但看起来我们可以通过设计算法，来做有用的事情，同时解答这些（哲学问题）。这就像是一种应用哲学。

没错，第三重门的答案，是一种近乎哲学式的，原创的思想。

如果我们把视角拉远，看一下过去十年 AI 的创新源头。分别是：Google 2017年的 Transformer，DeepMind 2017年的 AlphaZero，以及 OpenAI 2018年的自回归模型 GPT。

但是这不仅仅是三个模型啊，内核是三个哲学性思想，关于“学习”的本质：

(1) 用什么结构来理解世界万物，和他们的内在关系（Transformer）

(2) 如何通过不断的预测，把世界万物的复杂性压缩到直觉中（GPT）

(3) 怎么基于直觉构建深度思考，完成对世界的进一步抽象（Zero）

我们今天看到的 OpenAI o1，或者 DeepSeek R1，都是这三个哲学性思想，组合后的产物。从思想出发，先搭建了一个基础的系统结构，然后通过第一重门和第二重门的创新，把这个结构极致的打磨和再组合，显化成今天改变世界的产品。

哲学性思想的创造为何如此美妙？因为他们并不是为了找到一个优秀的解法，而是为了问出更本质的问题。

DeepSeek 跨越第三重门了吗？

我想梁文锋可能也会说，今天的 DeepSeek，还没有展现出这种原创（哲学性）的创新。但我却在读他们的文字中，瞥见了藏在背后的希望。

第一个例子，是关于 MLA 的产生，来源于一个研究者 “总结了 Attention 架构的演进规律”：

第二个例子，是 DeepSeek-Math 文章中很大篇幅，分享了对所有后训练过程的统一框架的认识。尽管有类似的思想存在过，但你似乎可以感受到那些背后无边界的热烈讨论。

第三个例子，则是他们在 R1 中展开的 R1-Zero 的探索，这个大胆的尝试，希望跳过所有的后训练步骤，让大模型在直觉模型的基础上，完全不依赖标注数据，自我演进成一个有思维能力的模型。R1-Zero 没有用到最终的 R1产品中，但论文中却浓墨重彩地探讨它的启发意义。对，以及那个 Aha Moment，原文是这样写的：“这不仅仅是模型的 Aha，也是观察模型的研究者的 Aha！”

所以，你感受到了吗？在克制的技术语言背后，藏着一种无法掩盖的兴奋和热爱。这是无边界的好奇心的味道，这是迫不及待想和世界分享的味道。

是原创的、哲学式的思想，呼之欲出的味道。

最后一块拼图

我不知道梁文锋是不是中国的 Ilya Sutskever，但我坚信一个跨过创新三重门的组织，需要一个思想性的领袖。说到这里，今天 OpenAI 最缺的，不就是这个吗？（写第一篇时的心情重现）

谁都无法预测未来。但也许哪一天，在 DeepSeek 的新论文中，会出现 Transformer 和 AlphaZero 级别的全新思想。

更大胆一点，如果我们在 DeepSeek 的启发下，产生了许多全新时代的创新型组织，在各自的领域跨过创新的第一重门和第二重门，并进一步产生了一批颠覆式的思考者，和原创的、哲学性的思想。

再大胆一点，如果这些思想和创新成果，以透明和开放的方式分享给全世界。这样的世界，你会更愿意参与吗？

这是 DeepSeek，会真正让历史记住的东西。

注：本文的参考资料主要来自于 DeepSeek V2/V3/R1/Math 论文及行业人士对 DeepSeek 的解读，而非严格的事实论证，存在错误请 DeepSeek 团队见谅。

本文来自微信公众号：Tao写字的地方，作者：陶芳波

上一篇：更换股票代码，举行AI开放日，贾跃亭的FF又有新动向了！

下一篇：破100亿！2025年春节档新片总票房再创新高

DeepSeek三重门：小天才们，军团平推，和哲学式思想

相关内容

热门资讯