李飞飞团队50美元训练出DeepSeek R1?
创始人
2025-02-07 00:21:55
0

《李飞飞团队与DeepSeek R1的低成本训练》

李飞飞团队达成了一项引人瞩目的成果,仅用50美元就训练出了DeepSeek R1。这一壮举展示出该团队在高效利用资源进行模型训练方面的卓越能力。50美元的低成本训练打破了人们对大规模模型训练需要高昂投入的固有认知。这意味着他们可能采用了创新性的算法优化策略、巧妙的数据处理方式或者独特的模型结构调整。这一成果不仅体现了技术上的突破,也为人工智能研究在资源受限的情况下开展大规模模型训练提供了极具价值的范例,有望激发更多研究人员探索性价比更高的训练模式。


本文来自微信公众号:傅里叶的猫,作者:张海军,题图来自:AI生成


今天下午简直被这条新闻刷屏了,“震惊”“李飞飞”“50美元”“Deep Seek R1”,这几个词连到一起,简直是掀了 OpenAI 和英伟达的桌子,即便是蒸馏出来的模型,那这么低的成本,OpenAI 花了几十、几百亿美元做出来的模型,被轻松复制,那 OpenAI 的估值不得打个骨折?



我就赶紧看了下论文:


https://arxiv.org/html/2501.19393v1

Github:https://github.com/simplescaling/s1


结果发现并不是那么回事。


首先这个 50 美元咋来的?因为论文中提到用了 16 块 H100 GPU,而且只花了 26min,如果是租服务器的话,确实也就是几十美元。



但问题是,论文中并不是训练出了 DeepSeek R1!


论文的核心内容是基于开源的 Qwen2.5 - 32B 模型,该模型是蒸馏出来的模型,32B 只能算是中等参数模型,作为本次实验对比的 R1 和 o1 都是大几千亿参数的模型。用小数据集进行监督微调,而且微调后的参数数量跟之前基本保持一致,然后在特定任务上把性能优化了,而这些任务的性能表现可以媲美 DeepSeek R1 和 OpenAI o1。


怎么经过中文博主翻译过来后,就成了 50 美元蒸馏出了 DeepSeek R1?


以下是论文解读(使用豆包解读):


  1. 研究背景与目标:语言模型性能提升多依赖训练时计算资源扩展,测试时缩放是新范式,OpenAI 的 o1 模型展示了其潜力,但方法未公开。本文旨在探寻实现测试时缩放和强推理性能的最简方法。


  2. s1K 数据集构建


  3. 初始数据收集:依据质量、难度和多样性原则,从 16 个来源收集 59029 个问题,涵盖现有数据集整理和新的定量推理数据集创建,用 Google Gemini Flash Thinking API 生成推理轨迹和解决方案,并进行去重和去污染处理。


    最终样本选择:经质量、难度和多样性三步筛选得到 1000 个样本的 s1K 数据集。质量筛选去除 API 错误和低质量样本;难度筛选依据两个模型的性能和推理轨迹长度排除过易问题;多样性筛选按数学学科分类,从不同领域采样,且倾向选择推理轨迹长的样本。


  4. 测试时缩放方法


  5. 方法分类与提出:将测试时缩放方法分为顺序和并行两类,重点研究顺序缩放。提出预算强制(Budget forcing)方法,通过强制设定思考令牌的最大或最小数量,控制模型思考时间,引导模型检查答案、修正推理步骤。


    基准对比:将预算强制与条件长度控制方法(令牌条件控制、步骤条件控制、类别条件控制)和拒绝采样进行对比。使用控制(Control)、缩放(Scaling)和性能(Performance)三个指标评估,结果表明预算强制在控制、缩放和最终性能上表现最佳。


  6. 实验结果


  7. 实验设置:用 s1K 对 Qwen2.5-32B-Instruct 进行监督微调得到 s1-32B 模型,在 AIME24、MATH500 和 GPQA Diamond 三个推理基准上评估,并与 OpenAI o1 系列、DeepSeek r1 系列等模型对比。


    性能表现:s1-32B 在测试时缩放中,性能随测试时计算资源增加而提升,在 AIME24 上超过 o1-preview 达 27%,且是最具样本效率的开源数据推理模型,接近 Gemini 2.0 在 AIME24 上的性能,验证了蒸馏过程的有效性。


  8. 消融实验


  9. 数据相关:测试数据质量、多样性和难度组合的重要性。随机选择(仅质量)、仅多样性选择、仅难度选择(选最长推理轨迹样本)的数据集性能均不如 s1K,训练 59K 全量样本虽性能强但资源消耗大,证明 s1K 构建方法的有效性。


    测试时缩放方法:预算强制在 AIME24 测试中控制完美、缩放良好、得分最高,“Wait”作为扩展性能的字符串效果最佳。令牌条件控制在无预算强制时失败,步骤条件控制下模型可绕过计算约束,类别条件控制虽能提升性能但综合表现不如预算强制,拒绝采样呈现反向缩放趋势。


  10. 讨论与展望


  11. 样本高效推理:众多研究致力于复制 o1 性能,本文通过 1000 样本监督微调结合预算强制,构建出有竞争力的模型,推测预训练使模型具备推理能力,微调激活该能力。同时,介绍了相关基准和方法的发展情况。


    测试时缩放:对比了并行和顺序测试时缩放方法,分析了预算强制的局限性,提出改进方向,如改进预算强制策略或结合强化学习探索新的测试时缩放方式 ,并指出并行缩放可作为突破顺序缩放限制的解决方案。


国内的网络环境真的是太浮躁了,这种信息,完全不确认一下就发出来误导大众,希望大家以后看到这种信息要多思考一下。


本文来自微信公众号:傅里叶的猫,作者:张海军

相关内容

热门资讯

原创 陕... 雷达财经出品 文|孟帅 编|深海 在隆基绿能迈入第25个年头的关键节点,身家数百亿的陕西富豪李振国选...
牧原食品冲刺港股:年营收137... 雷递网 雷建平 5月27日 牧原食品股份有限公司(简称:“牧原食品”)日前递交招股书,准备在港交所上...
养电子鱼体验赛博人生!网友:再... 养电子鱼体验赛博人生,这是一场全新的视觉与心灵之旅!在虚拟的世界中,电子鱼仿佛拥有了生命,它们游弋在...
首家直销银行即将退场 多家银行... 每经记者:刘嘉魁 每经编辑:陈旭 2025年5月26日,北京银行发布公告称,其直销银行App服务将于...
A股继续调整,浮动费率基金重磅... (转自:ETF炼金师) 5月27日,A股市场延续震荡格局,三大指数普遍收跌,市场成交额持续低迷,两市...
大跌17%,拼多多怎么了? 5月27日晚,拼多多发布2025年第一季度财报,公司该季度实现营收956.72亿元,同比增长10%;...
“上证·院士说”做客“徽客厅”... 5月22日,上海证券报“上证·院士说”系列活动第九期做客“徽客厅”。在华安证券全程深度支持下,本次活...
申万菱信半年清盘4只基金,最快... 作者 | 郑理 来源 | 独角金融 申万菱信基金管理有限公司(下称“申万菱信基金”)一只偏债混合型基...
同时官宣!重组上市,终止! 【导读】招商轮船、安通控股公告,终止重组上市事项 中国基金报记者 闻言 5月27日晚间,招商轮船、安...
三星等海外巨头减产或退出 国内... 随着全球三大存储芯片厂商相继减产、退出NOR Flash、DDR3、DDR4市场,利基型存储市场竞争...
全国碳市场配额价格较高点跌超3... 近期,全国碳排放权交易市场(以下简称全国碳市场)CEA(碳配额)价格持续走低,引发市场关注。上海环境...
第一批深圳00后,已经财富自由... 第一批深圳 00 后,已悄然实现财富自由。在这座充满机遇与活力的城市,他们凭借敏锐的商业眼光和敢于尝...
新人作家,需要自己的“天才捕手... 这位新人作家怀揣着对文字的热爱与梦想,如同怀揣着一颗璀璨星辰。在文学的海洋中独自漂泊,虽有着无尽的灵...
全固态电池新标准出台,储能电池... 截至收盘,中证新能源指数下跌0.6%,国证新能源电池指数下跌0.2%,中证光伏产业指数、中证上海环交...
银行存款利率下调,理财“新三金... 5月下旬,新一轮存款利率调降启幕,国有六大行定期存款整存整取1年期利率在0.95%—0.98%。 曾...
隆基绿能管理层变阵:李振国第二... 李振国退出隆基董事会旨在专注科研,其独生女李姝璇走向台前 文|《财经》记者 徐沛宇 郑慧 编辑|韩舒...
原创 与... 由于对欧盟提交的方案感到不满,特朗普威胁对其征收50%的关税,并且打算从6月1日开始执行。为了阻止这...
精准医疗板块4月23日涨1.1... 证券之星消息,4月23日精准医疗板块较上一交易日上涨1.12%,药明康德领涨。当日上证指数报收于32...
广州一家汤粉店能吃免费餐,店主... 近日,一则“广州一家汤粉店能吃免费餐”的新闻引发关注。 在广州市番禺区市桥街德兴社区清河东路313号...