DeepSeek新年炸场!梁文锋署名论文发布
创始人
2026-01-01 22:04:02
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:第一财经资讯)

1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代基础架构的演进指明新方向。

新论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》),DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,而解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)、曹焕琪(Huanqi Cao)则是核心贡献者。

近年来,以超连接(HC)为代表的研究拓展了过去十年确立的通用残差连接范式(深度神经网络的经典连接范式),靠拓宽神经网络的“信息传输通道”、增加通道间的连接,让模型性能变好。但这种多样化也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。

因此,DeepSeek这篇论文针对超连接架构这些问题,提出兼顾性能与效率的改进框架,即mHC 架构,这类似于给超连接的“信息通道”加了一套“交通规则”,在保留性能优势的同时,又恢复了信息原样传递的特性,让模型训练更稳定、更容易做大,从而推动大模型底层架构的工业化落地。

这一论文整体较为技术,但通俗来讲,如果将AI模型想象成一个很长的“计算链条”,传统计算链条的问题在于,传递信息时是一条窄窄的管道,信息量大了就会“堵车”。后来的方法是将管道加宽(超连接),信息流更多,但水流太猛有时候会把水管冲坏。DeepSeek提出的mHC相当于给水管加了“智能调节阀”,能确保水流的稳定,运行的时候更省资源。

在论文中,DeepSeek表示,mHC为未来研究开辟了多个前景广阔的路径。研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC或将有助于突破当前限制,并可能为下一代基础架构的演进指明新方向。

从行业意义上来看,mHC或许能让企业在训练更大规模的基础模型时,减少硬件投入、缩短训练周期。比如算力有限的中小AI企业,也能尝试开发更复杂的大模型,降低了大模型研发的门槛。此外,训练稳定性和可扩展性的提升,能让大模型在更复杂的场景落地,比如需要超大规模参数的多模态模型、工业级的智能决策系统。

有行业人士评价认为,DeepSeek这一研究是底层创新,这次创新的架构看向的是Transformer最基础的问题,结合此前的积累,他预测DeepSeek 有望在V4版本中做出重大的更新。

自2025年初引发广泛关注以来,这一年DeepSeek虽未正式推出R2或V4等重大版本,但在模型迭代与开源上持续发力:仅12月就同步推出了DeepSeek-V3.2与V3.2-Special,11月底也开源了数学推理模型DeepSeek-Math-V2,成为目前首个达到国际奥数金牌水平并开放使用的数学模型。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...