关于“月之暗面”这一概念,通常是指月球背面,即月球永远背对地球的一面。不过,在这里它可能被用作一种比喻,表示那些尚未被充分探索或理解的领域。在讨论长思维链和长文本(Long-CoT)的有效性时,我们实际上是在探讨如何通过复杂的推理过程来解决更深层次的问题。
一年前,我们已经通过实验验证了长思维链(Long-CoT)在某些复杂任务中的有效性。然而,由于其高昂的成本,我们选择首先关注长文本(Long-CoT),即通过较长的文本描述来进行推理。尽管这种方法在一定程度上提高了效率,但它仍然存在局限性。因此,现在我们需要重新审视长思维链的价值,并思考如何平衡其高成本与潜在收益之间的关系。这不仅涉及技术层面的优化,还要求我们在理论研究和应用场景之间找到合适的结合点。
月之暗面研究员Flood Sung近日分享了k1.5模型背后的完整思考过程,并透露称,2024年9月12日OpenAI o1发布的震撼效果让他陷入了对Long-CoT有效性的反思。一年多前,月之暗面Kimi联合创始人Tim周昕宇已经验证过Long-CoT的有效性,通过使用小型模型进行几十位的加减乘除运算,将细粒度的运算过程合成很长的CoT数据进行SFT训练,可以获得非常好的效果。Flood Sung表示,公司意识到了长上下文的重要性,因此首先考虑延长上下文长度,但在Long-CoT方面却不够重视,主要还是出于成本考虑。