DeepSeek推出NSA:快速进行长上下文训练和推理
创始人
2025-09-27 06:02:30
0

DeepSeek近期发布了一款名为“NSA”的创新技术,旨在显著提升在处理长上下文时的训练与推理效率。这一突破性进展解决了深度学习模型在处理长文本序列时常见的性能瓶颈问题,例如在机器翻译、文档摘要和情感分析等任务中。NSA技术通过优化内存管理和计算资源分配,使得模型能够在更短的时间内完成对大量数据的学习,并且在实际应用中实现更为精准和流畅的预测结果。此外,NSA还支持高效的并行处理能力,进一步加速了模型的训练过程。这项技术不仅极大地提升了长文本处理任务中的用户体验,也为研究者们提供了强大的工具来探索更复杂、更大规模的语言模型。

快科技2月18日消息,据报道,DeepSeek团队在其新发表的论文中介绍了NSA(Native Sparse Attention),这是一种创新的稀疏注意力机制,该机制专为与现代硬件高度协同且支持本机训练而设计,旨在实现超高速的长上下文训练与推理过程。

NSA通过一系列针对现代硬件特性的优化设计,不仅显著提升了推理速度,还有效降低了预训练成本,同时确保了模型性能的丝毫不减。

据官方介绍,NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异,与完全注意力模型相比表现相当甚至更佳。

据悉,DeepSeek设计了一种分层的稀疏策略,将注意力分为三个分支:压缩(compression)、选择(selection)和滑动窗口(sliding window),以便同时捕捉全局上下文和局部精细信息。

NSA不仅在算法上实现了稀疏注意力的高效建模,还通过硬件对齐的设计,优化了内存访问和计算调度,使得模型在处理长文本时能够大幅减少计算延迟和资源消耗。

论文地址:https://arxiv.org/pdf/2502.11089v1




相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...