R2来之前,DeepSeek又放了个烟雾弹
创始人
2025-05-15 19:21:54
0

在 R2 即将到来之前,DeepSeek 再度放出了一个烟雾弹。这仿佛是一场精心策划的闹剧,让人们的期待与猜测在瞬间被打乱。那看似神秘的举动,似是在故意营造出一种紧张而又扑朔迷离的氛围。它就像一颗隐藏在黑暗中的定时炸弹,不知何时会引爆,却又总能勾起人们内心深处的好奇与不安。每一个细微的迹象都可能是它的伪装,让人难以分辨真假,而这也让整个局势变得更加扑朔迷离,仿佛一场充满悬念的游戏正在悄然展开。


出品|虎嗅科技组

作者|宋思杭

编辑|苗正卿

头图|视觉中国


5月前后,DeepSeek的动作倒是频繁,却都不是大家期待的R2。不过,一系列前菜已经给R2做足了铺垫。


5月14日,一篇DeepSeek V3论文,揭示了梁文峰是如何做到“极致降本”的。这篇论文也让业界得以一窥这家以技术立身的公司,其“内功”究竟修炼到了何种火候。


与此前发布的V3技术报告不同,这篇论文详细阐述了DeepSeek如何做到在硬件资源的的“紧箍咒”下,通过精妙的“软硬一体”协同设计,将成本效益这笔账算到极致。(虎嗅注:DeepSeek-V3仅使用了2048块英伟达H800 GPU)


在AI大模型这条烧钱的赛道上,算力即权力,但也可能是压垮骆驼的最后一根稻草。DeepSeek V3论文的核心,恰恰点出了一个行业痛点:如何让大模型不再是少数巨头的专属游戏?


论文中,DeepSeek毫不吝啬地分享了其“降本增效”的几大秘籍,这些技术细节,字里行间都透露出对现有硬件潜能的极致压榨,也预示着未来DeepSeek系列模型在性能与效率上的野心:


其一,是给模型的“记忆系统”瘦身。AI处理长文本、多轮对话时,需要记住海量的上下文信息,这部分“记忆”(即KV Cache)对显存的消耗极为惊人。DeepSeek V3祭出了“多头隐注意力机制”(MLA),好比给模型的记忆装上了一个高效压缩软件,能将冗长的信息浓缩成精华,大幅降低显存占用。这意味着,即便是处理越来越长的上下文,模型也能更加从容不迫,这对于解锁更多复杂应用场景至关重要。


其二,是打造“专家各司其职”的团队。面对大模型天文数字般的参数量,传统的“一人生万物”模式难免力不从心。DeepSeek V3沿用并优化了“混合专家模型”(MoE)架构。想象一下,一个庞大的项目被分解给一群各有所长的专家,遇到具体问题时,系统会自动“摇人”,只激活最相关的几位专家协同作战。这样一来,不仅运算效率提升,模型的“有效规模”也能在控制之下,避免了不必要的资源浪费。DeepSeek的优化,让这些“专家”间的沟通更顺畅,协作成本更低。


其三,是大胆拥抱“差不多就行”的数字精度。在AI训练中,数字的精确度并非越高越好。FP8,一种低精度数字格式,就像我们日常生活中算账,有时精确到“角”甚至“元”就已足够,不必非要到“分”。DeepSeek V3在训练中引入FP8混合精度,在对精度不那么敏感的环节“粗略”计算,直接效果就是计算量和内存占用大幅下降,训练速度更快、更省电。关键在于,论文证明了这种“偷懒”并不会明显牺牲模型的最终性能。


其四,是铺设更畅通的“信息高速公路”。大规模训练离不开GPU集群的协同作战,GPU之间的数据交换效率,直接决定了训练的整体速度。DeepSeek V3采用了“多平面网络拓扑结构”,优化了集群内部的数据传输路径,减少了拥堵和瓶颈,确保信息流转如丝般顺滑。


可以说,DeepSeek V3的最新论文,更像是一次技术自信的展示。它传递出一个清晰的信号:即便没有最顶级的硬件配置,通过极致的工程优化和算法创新,依然可以打造出具备行业领先潜力的大模型。这无疑为那些在算力焦虑中挣扎的追赶者们,提供了一条更具可行性的攀登路径。


实际上,4月30日,DeepSeek还上了另一道“前菜”。


当时,DeepSeek Prover V2以671B的参数重磅亮相,要知道,DeepSeek上一次发布V2模型的时候仅有7B。对于DeepSeek Prover V2,行业观察者们普遍认为,这是AI在辅助科学发现,特别是挑战人类智力极限的数学领域迈出的重要一步。


而DeepSeek近期的系列动作,放置于当前AI大模型产业的宏观背景下,更耐人寻味。


一方面,我们看到的是头部厂商在模型参数、多模态能力、应用生态上的全方位“内卷”,技术迭代的速度令人目不暇接,资本的热情也持续高涨。但另一方面,算力成本的持续攀升、商业化路径的尚不清晰、以及“智能涌现”之后如何实现真正的价值创造,这些都是悬在所有从业者头顶的达摩克利斯之剑。


在这样的背景下,DeepSeek V3论文所强调的“成本效益”和“软硬件协同”,以及Prover V2所代表的在特定高壁垒领域的深耕,似乎在传递一种不同的信号:在追求更大、更强的同时,对效率的极致追求和对特定价值场景的深度挖掘,可能成为AI下半场竞争的关键变量。


当“大力出奇迹”的边际效应开始递减,当市场开始从对技术本身的狂热转向对实际应用价值的考量,那些能够更聪明地利用现有资源、更精准地切入真实需求、更深入地理解并解决复杂问题的玩家,或许才能在喧嚣过后,笑到最后。


DeepSeek的这些“前菜”,无疑吊足了市场的胃口。人们期待的,不仅仅是一个性能更强的R2模型,更是一个能够为行业带来新思路、新变量的DeepSeek。在AI的牌桌上,这家以技术为底色的公司,显然还想打出更多意想不到的牌。

文章标题:R2来之前,DeepSeek又放了个烟雾弹

文章链接:https://www.huxiu.com/article/4352471.html

阅读原文:R2来之前,DeepSeek又放了个烟雾弹_虎嗅网

相关内容

热门资讯

深圳,一座423家A股上市公司... 423家,总市值8.53万亿元 据深圳证监局消息,截至2025年4月底,深圳423家A股上市公司(深...
机构喜欢的一些基金 就好像昨天不知道为何大涨,今天又不知道为何大跌。市场就是这样让人捉摸不透,我们去找所谓的涨跌原因,只...
走访企业送服务 护航发展解难题 (程志)为进一步优化营商环境,助力企业发展,近日,哈尔滨市公安局平房分局经侦大队深入辖区企业开展走访...
科森科技参股公司特丽亮豪掷1.... 许广彬的债务“雪球”引发的实控人变更风险持续发酵。 5月14日晚,东方材料(603110.SH,股价...
巴基斯坦与印度停火延长至18日 巴基斯坦副总理兼外长达尔15日说,在巴基斯坦和印度军方当天的通话中,双方已同意延长停火至18日。
外贸“爆单”的虚与实 外贸“爆单”,看似一片繁荣景象,实则虚实参半。虚的一面,可能只是短期的市场波动或个别订单的集中爆发,...
新消费催生新职业 年轻人解锁这... 消费需求是催生新职业的核心驱动力之一。随着我国新消费业态的蓬勃发展,一批又一批充满活力的青年人干起了...
科华数据(002335)5月9... 证券之星消息,近日科华数据披露,截至2025年5月9日公司股东户数为7.0万户,较4月30日减少50...
界面晚报 | 年内首次降准正式... 中办、国办:推进城镇老旧小区整治改造 《意见》提出,更新改造小区燃气等老化管线管道,整治楼栋内人行...
可能存在被证监会行政处罚的风险... 今日聚焦 【2连板新华锦:公司、公司关联方可能存在被中国证监会行政处罚或被证券交易所实施纪律处分的风...
深创投加码蛛丝蛋白纤维!灵蛛科... 【生物基能源与材料】获悉,2025年5月,深圳灵蛛科技有限公司(以下简称“灵蛛科技”)宣布完成深圳市...
现在的住家阿姨,也太贵了吧 现在的住家阿姨,真的是太贵啦!以前请个阿姨帮忙做家务、照顾家人,价格相对还比较亲民。可如今,市场行情...
佩斯科夫:俄方代表团从早上开始... 当地时间5月15日,俄总统新闻秘书佩斯科夫在回答记者关于俄乌代表团在土耳其伊斯坦布尔谈判的问题时表示...
做好这三点,预防慢性心力衰竭|... “做好这三点,预防慢性心力衰竭|科普时间”。首先,保持健康的生活方式至关重要,合理饮食,减少高盐、高...
战投何时来?复飞何时定?欠薪何... 战投何时来?复飞何时定?欠薪何时发?这些问题如同一把把悬在幸福航空管理层头上的利剑。面对外界的急切问...
*ST星光主力净流出2579.... 雷达财经雷助吧出品 文|肖文竹 编|深海 东财Choice金融数据显示,2025年5月15日,*ST...
AI浪潮下炒股如何不当韭菜?5... 新京报贝壳财经讯(记者胡萌)随着DeepSeek的惊艳亮相,各行各业都想借此东风找寻AI技术落地的可...
科创板和创业板改革措施将出台,... 截至收盘,上证科创板50成份指数下跌1.3%,中证科创创业50指数下跌1.8%,创业板指数下跌1.9...
数据出炉!金融总量增长既“稳”... 央视网消息:中国人民银行5月14日发布的4月份金融数据显示,金融总量增长既“稳”又“实”,广义货币(...
多次宴请公职人员,南通爱尔眼科... 南通爱尔眼科医院 CEO 因多次宴请公职人员这一不当行为,其政协委员身份被撤销。这种行为严重违反了公...