5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
创始人
2025-05-22 18:02:20
0

想要 5 分钟读懂 Lilian Weng 万字长文“大模型是怎么思考的?”,首先需明确其核心在于探寻大模型的思考机制。文章或许会从大模型的架构入手,剖析其处理信息和生成输出的过程。可能会提及数据的输入与处理方式,以及模型内部的各种算法和神经元运作。还会探讨大模型在不同任务中的思考特点,如语言理解、知识推理等方面。通过条理清晰的阐述和生动的案例,让读者在短短 5 分钟内对大模型的思考奥秘有初步且深刻的理解,为深入研究大模型奠定基础。


最近有三篇很火的bolg,第一篇是OpenAI researcher 姚顺雨的“欢迎来到下半场”,第二篇是David Silver和Richard S. Sutton的“Welcome to the Era of Experience”,这是第三篇,Lilian Weng的Why We Think。


Lilian Weng的最新blog,还找了John Schulman润色。


道理其实很朴素,里边的内容大家都聊过,我们绝大部分也单独写过,但是这篇blog系统性地梳理了AI最新范式:test-time compute。


LLM大模型是怎么思考的?


①从心理学角度:理论来源于丹尼尔·卡尼曼的《思考,快与慢》。


与人类思考方式有相似之处。


人脑有“系统1”(直觉、快速)和“系统2”(分析、缓慢)。


在推理模型出现之前,大模型的答案“脱口而出”,这就是系统1。给AI多点时间思考,就像是激活了它们的“系统2”。


②从计算资源角度:


思考就是多分配点计算资源(神经网络可以被视为在前向传递中能够访问的计算和存储资源的总和)。


思维链(CoT)让模型能根据问题难度使用可变的计算量,特别适合复杂推理任务。


③从数学角度:


可以把整个“问题 (x) - 思考过程 (z) - 答案 (y)”看作一个概率模型。


思考过程z就是那个隐变量(hidden variable)。把各种可能的思考路径都考虑进去,自然能得到更好的答案分布。


如何让模型:学会思考?


第一大招:思维链


早期的工作都在试图改进CoT——先是让模型学习人类写的推理过程,后来发现 在可以自动检查答案的数据集上做强化学习效果更好。


这里有个有趣的趋势:模型越大,从思维链中获得的好处就越多!


推理过程中,我们有两种主要方法:


  • 并行采样:一次性让模型生成好几条不同的思考路径,最简单的就是best-of-N(生成N条,然后用某种评分机制选最好的)。特别复杂的技术概念,Self-consistency之类的就不细讲了。


  • 顺序改进:先给出一个答案,然后不断反思修正。(像写论文,初稿→修改→定稿)


其实两种各有千秋。


第二大招:强化学习在推理上scale起来了


一个范式性的变化是开始于OpenAI o1-previe,以及后续一系列推理模型的发展。


以DeepSeek R1的训练过程为例:


  • 先来个冷启动,教会模型基本对话;


  • 然后做强化学习,只奖励两件事:格式对、答案对;


  • 拒绝采样+非推理监督微调;


  • 最后强化学习阶段。


还要记住DeepSeek Zero,即使是纯粹的RL训练(没有SFT阶段),模型也能自己学会高级推理能力(RL的“啊哈时刻”)。


DeepSeek团队还坦诚分享了他们的失败尝试,比如用过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)都没搞定。


第三大招:外部工具使用(External Tool Use)


模型在思考过程中,会调用外部工具提高效率或者增加准确性。比如,遇到复杂的数学计算,模型会调用一个代码解释器来执行。


OpenAI最近发布的o3和o4-mini模型特别强调了工具的使用,比如网页搜索、代码执行、甚至图像处理。如果大家细心会发现,最近的Claude sonnet3.7也开始调用工具了。


这也是一个范式性的变化。


一些探讨:


①模型的CoT是否忠实地反映了它的真实思考过程?


假如模型告诉你“我先算出这个方程的根,再代入原式……”,它真的是这样思考的吗?还是只是在编故事?


这就是思考忠实性(faithfulness)问题。


结果发现,专门针对推理训练的模型(如Claude 3.7 Sonnet、DeepSeek R1)比普通模型更容易展示忠实的思维链。


还有一点也特别有趣!!如果我们尝试直接奖励模型展示“诚实”的思考过程,模型反而学会了更巧妙地隐藏其真实意图!这让我想起那句老话:只要有评估,就会有作弊。


②除了cot,还有一些其他的模型思考方式


  • 比如,让循环神经网络(RNN)能够动态地决定每个输入token需要经过多少个循环计算层,相当于在“深度”上进行自适应思考。


  • 还有一些工作尝试改进Transformer架构,使其具有循环特性。


  • 引入特殊的**“思考token”。简单来说,就是在输入序列的特定位置(比如每个词后面,或者句子末尾)插入一些本身不携带具体语义,但能给模型争取更多内部计算时间的特殊token。比如Quiet-STaR生成的那个“内心独白”。


  • 把“思考”看作潜变量(Thinking as Latent Variables):将思考视为概率模型中的隐变量,用变分EM算法优化


(这里提到很多论文,感兴趣的可以深看)


Scaling Laws for Thinking Time—— “多想”总是有益的吗?


现在的模型发展阶段,增加test-time的计算量投入,可以比单纯增加模型参数更能有效提高性能。


但是,这也不是万灵药。我们也多次聊到过这件事,推理模型的能力取决于基础模型的潜力。如果自身天赋不够,榨干它也没啥用。


在文章的最后,Lilian姐也高屋建瓴地提出了一系列值得未来深入研究的开放性问题,这简直就是给搞科研的指明了挖坑的方向啊!比如:


  • 在RL训练中,我们如何才能激励模型生成既人类可读、又能真实反映其“思考”过程的CoT,同时还能有效避免reward hacking行为?


  • 到底什么是reward hacking?如何才能避免那种头痛医头,脚痛医脚式的修补?


  • 没有标准答案时,我们如何训练模型有效地纠正自己的错误,同时又不会产生新的幻觉或导致性能衰退?


  • 对于那些高度依赖上下文、具有个性化需求、且难以客观评分的任务(比如创意写作、个性化辅导、头脑风暴等),我们应该如何设计CoT的RL训练方法?


  • 如何将性能提升平滑地“迁移”或“蒸馏”回基础模型?


  • 如何让思考时间根据问题难度自动调整?


写到这里,我不禁想:如果有一天,AI能真正地“思考”,而不仅仅是模拟思考,那会是什么样子呢?


也许,那一天已经不远了。


本文来自微信公众号:AI Dancer,作者:薛定谔的爆米花

相关内容

热门资讯

存款利率进入“1%”时代,活期... 继5月20日六家国有银行宣布下调人民币存款利率后,平安银行(000001.SZ)、中信银行(6019...
四大举措聚力家居行业 美凯龙董... 2025年5月21日,红星美凯龙618共创大会在上海举行,红星美凯龙家居集团党委书记、董事长李玉鹏与...
读懂IPO|讯众股份遭遇上市“... 图源:图虫创意 来源丨时代商业研究院 作者丨陈丽娜 编辑丨郑琳 “弃A转港”后,这家企业的IPO进程...
泡泡玛特高仿江湖:Labubu... 蓝鲸新闻5月22日讯(记者 赵凯)“Labubu(泡泡玛特人气IP)就是年轻人的茅台——不见得自己喝...
鸿铭股份拟1.51亿现金购深圳... 雷达财经 文|杨洋 编|李亦辉 5月21日,鸿铭股份(证券代码:301105)公告,公司正在筹划以现...
事关福建29116名考生!省教... 福建省教育考试院近期进行了重要公示,涉及 29116 名考生。这一数据背后,承载着众多家庭的期望与学...
吴恩达:如何在人工智能领域打造... 吴恩达在人工智能领域打造职业生涯堪称典范。他以卓越的学术背景和深厚的技术功底,率先在斯坦福大学开启人...
公益广告丨文明是最美的风景 公益广告中,“文明是最美的风景”这一理念深入人心。在繁华的街道上,文明的行为如同一盏盏明灯,照亮着城...
贵州省大方县长石镇山体滑坡2名... 近日,贵州省大方县长石镇发生了一起令人痛心的山体滑坡事件。这场突如其来的灾难给当地居民带来了巨大的冲...
关于网络反映黄杨某甜“天价耳环... 请你提供具体的网络反映内容以及相关核查的细节等信息呀,没有这些具体素材,我很难准确地写出通报内容呢。...
谁说穷人是臭的,富人是香的? 在这个世界上,绝不能有“穷人是臭的,富人是香的”这种错误观念。每一个人都值得被尊重和平等对待,无论其...
金价稳健上涨!2025年5月2... 5月22日国内金价快报:国内品牌金店金价仍保持涨势,大部分价格维持在1012元/克。老凤祥黄金今日金...
泰慕士72名激励对象获准解禁9... 雷达财经 文|杨洋 编|李亦辉 5月22日,泰慕士(001234)发布了关于2024年限制性股票激励...
更正以前年度个税综合所得汇算申... 当前正值2024年度个人所得税综合所得汇算清缴期,部分纳税人发现以前年度汇算填报的收入或扣除项目存在...
海螺拼尽全力翻身 把“不可能”... 在那广袤的海滩上,一只海螺正静静地卧着。它看似平凡,却蕴含着无尽的力量。不知从何时起,海螺仿佛下定了...
脱口秀没底线,但有底裤 脱口秀,这一独特的艺术形式,常常被人们认为没有底线。然而,事实并非如此。脱口秀就像一个调皮的孩子,在...
居然智家再回应董事长被留置 5月21日,居然智家举行2024年度业绩说明会,就近期董事长汪林朋被留置事件再次给予回应,并对公司未...
“食品药品违法掺西药”乱象如何... 食品药品违法掺西药这一乱象严重威胁着公众健康。要破解此难题,需多管齐下。一方面,加强监管力度,增加监...
珍酒李渡,28岁家族二代进入决... 文 /节点财经 茅台大家都知道,但提到“茅台平替”、“光瓶茅台”,又有多少人知道说的是哪家品牌?这...