2月18日,DeepSeek官方在海外社交平台X上发布了一篇关于NSA(Natively Sparse Attention,原生稀疏注意力)的技术论文。这种机制用于超快速长文本训练与推理,硬件对齐且可原生训练。NSA针对现代硬件进行了优化设计,能够加速推理过程,降低预训练成本,且不牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。
论文指出,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。推动这一需求的应用包括深度推理、仓库级代码生成和多轮自主代理系统。然而,随着序列长度的增加,标准注意力机制的高复杂度成为关键的延迟瓶颈。理论估计表明,在使用softmax架构时,注意力计算占解码64k长度上下文总延迟的70%-80%,这凸显了对更高效注意力机制的迫切需求。
DeepSeek团队表示,NSA的核心价值在于平衡效率与性能,既降低计算成本,又保持甚至提升模型能力。NSA为处理长上下文任务提供了一种高效的解决方案,有助于推动更强大、更经济的语言模型的发展,尤其是在需要处理长文本的应用场景中。通过高效的长序列处理能力,NSA使模型能够直接处理整本书籍、代码仓库或多轮对话,扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。
此外,NSA能够降低算力门槛与部署成本。端到端稀疏训练可以减少预训练所需的计算资源,降低企业开发大模型的资金与技术门槛。同时,它可以加速推理,使长文本生成(如代码补全、故事续写)的实时性更高,适用于边缘设备或低延迟场景。
一位X用户在DeepSeek帖子下评论称,“NSA机制改变了游戏规则。超快速长上下文训练对于扩大教育领域AI至关重要,这与个性化学习愿景完美契合。”还有网友对此调侃“RIP Nvidia”。
自1月20日发布DeepSeek-R1以来,DeepSeek一直较为低调,这是他们在这段时间内唯一发布的技术动态。有X网友表示,“DeepSeek团队正在积极工作!”
上一篇:夜深沉歌词 夜深沉歌词完整版