李飞飞团队50美元训练出DeepSeek R1?_资讯

李飞飞团队50美元训练出DeepSeek R1?

创始人

2025-02-07 00:21:55

0次

《李飞飞团队与DeepSeek R1的低成本训练》

李飞飞团队达成了一项引人瞩目的成果，仅用50美元就训练出了DeepSeek R1。这一壮举展示出该团队在高效利用资源进行模型训练方面的卓越能力。50美元的低成本训练打破了人们对大规模模型训练需要高昂投入的固有认知。这意味着他们可能采用了创新性的算法优化策略、巧妙的数据处理方式或者独特的模型结构调整。这一成果不仅体现了技术上的突破，也为人工智能研究在资源受限的情况下开展大规模模型训练提供了极具价值的范例，有望激发更多研究人员探索性价比更高的训练模式。

本文来自微信公众号：傅里叶的猫，作者：张海军，题图来自：AI生成

今天下午简直被这条新闻刷屏了，“震惊”“李飞飞”“50美元”“Deep Seek R1”，这几个词连到一起，简直是掀了 OpenAI 和英伟达的桌子，即便是蒸馏出来的模型，那这么低的成本，OpenAI 花了几十、几百亿美元做出来的模型，被轻松复制，那 OpenAI 的估值不得打个骨折？

我就赶紧看了下论文：

https://arxiv.org/html/2501.19393v1

Github：https://github.com/simplescaling/s1

结果发现并不是那么回事。

首先这个 50 美元咋来的？因为论文中提到用了 16 块 H100 GPU，而且只花了 26min，如果是租服务器的话，确实也就是几十美元。

但问题是，论文中并不是训练出了 DeepSeek R1！

论文的核心内容是基于开源的 Qwen2.5 - 32B 模型，该模型是蒸馏出来的模型，32B 只能算是中等参数模型，作为本次实验对比的 R1 和 o1 都是大几千亿参数的模型。用小数据集进行监督微调，而且微调后的参数数量跟之前基本保持一致，然后在特定任务上把性能优化了，而这些任务的性能表现可以媲美 DeepSeek R1 和 OpenAI o1。

怎么经过中文博主翻译过来后，就成了 50 美元蒸馏出了 DeepSeek R1?

以下是论文解读（使用豆包解读）：

研究背景与目标：语言模型性能提升多依赖训练时计算资源扩展，测试时缩放是新范式，OpenAI 的 o1 模型展示了其潜力，但方法未公开。本文旨在探寻实现测试时缩放和强推理性能的最简方法。
s1K 数据集构建

初始数据收集：依据质量、难度和多样性原则，从 16 个来源收集 59029 个问题，涵盖现有数据集整理和新的定量推理数据集创建，用 Google Gemini Flash Thinking API 生成推理轨迹和解决方案，并进行去重和去污染处理。

最终样本选择：经质量、难度和多样性三步筛选得到 1000 个样本的 s1K 数据集。质量筛选去除 API 错误和低质量样本；难度筛选依据两个模型的性能和推理轨迹长度排除过易问题；多样性筛选按数学学科分类，从不同领域采样，且倾向选择推理轨迹长的样本。

测试时缩放方法

方法分类与提出：将测试时缩放方法分为顺序和并行两类，重点研究顺序缩放。提出预算强制（Budget forcing）方法，通过强制设定思考令牌的最大或最小数量，控制模型思考时间，引导模型检查答案、修正推理步骤。

基准对比：将预算强制与条件长度控制方法（令牌条件控制、步骤条件控制、类别条件控制）和拒绝采样进行对比。使用控制（Control）、缩放（Scaling）和性能（Performance）三个指标评估，结果表明预算强制在控制、缩放和最终性能上表现最佳。

实验结果

实验设置：用 s1K 对 Qwen2.5-32B-Instruct 进行监督微调得到 s1-32B 模型，在 AIME24、MATH500 和 GPQA Diamond 三个推理基准上评估，并与 OpenAI o1 系列、DeepSeek r1 系列等模型对比。

性能表现：s1-32B 在测试时缩放中，性能随测试时计算资源增加而提升，在 AIME24 上超过 o1-preview 达 27%，且是最具样本效率的开源数据推理模型，接近 Gemini 2.0 在 AIME24 上的性能，验证了蒸馏过程的有效性。

消融实验

数据相关：测试数据质量、多样性和难度组合的重要性。随机选择（仅质量）、仅多样性选择、仅难度选择（选最长推理轨迹样本）的数据集性能均不如 s1K，训练 59K 全量样本虽性能强但资源消耗大，证明 s1K 构建方法的有效性。

测试时缩放方法：预算强制在 AIME24 测试中控制完美、缩放良好、得分最高，“Wait”作为扩展性能的字符串效果最佳。令牌条件控制在无预算强制时失败，步骤条件控制下模型可绕过计算约束，类别条件控制虽能提升性能但综合表现不如预算强制，拒绝采样呈现反向缩放趋势。

讨论与展望

样本高效推理：众多研究致力于复制 o1 性能，本文通过 1000 样本监督微调结合预算强制，构建出有竞争力的模型，推测预训练使模型具备推理能力，微调激活该能力。同时，介绍了相关基准和方法的发展情况。

测试时缩放：对比了并行和顺序测试时缩放方法，分析了预算强制的局限性，提出改进方向，如改进预算强制策略或结合强化学习探索新的测试时缩放方式，并指出并行缩放可作为突破顺序缩放限制的解决方案。

国内的网络环境真的是太浮躁了，这种信息，完全不确认一下就发出来误导大众，希望大家以后看到这种信息要多思考一下。

本文来自微信公众号：傅里叶的猫，作者：张海军

上一篇：原创台积电变“美积电”？美国还没有动手，先遭到了当头一棒

下一篇：火锅店春节3天盈利全部分给员工

李飞飞团队50美元训练出DeepSeek R1?

相关内容

热门资讯