DeepSeek发布最新NSA技术论文！创始人梁文锋参与引人注目

教程来源：快科技 2025-02-19 13:47:48 阅读：209

近日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，其主要内容是关于NSA（即Natively Sparse Attention，原生稀疏注意力）。

与此同时，在论文署名中，第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是，据论文署名排名，DeepSeek创始人梁文锋现身论文著作者之中，在作者排名中位列倒数第二。

根据论文摘要，DeepSeek团队认为，业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而，随着序列长度的增加，标准注意力机制的高复杂度成为了关键的延迟瓶颈。

据了解，NSA通过高效的长序列处理能力，使模型能够直接处理整本书籍、代码仓库或多轮对话（如千轮客服场景），扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。

同时，NSA通过针对现代硬件的优化设计，在提高推理速度的同时、降低预训练成本，而不会牺牲性能。

它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。

DeepSeek团队表示，稀疏注意力为提高效率同时保持模型能力，提供了一个有前景的方向。

公开资料显示，NSA（即Natively Sparse Attention，原生稀疏注意力）是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

它专为长文本训练与推理设计，能够利用动态分层稀疏策略等方法，通过针对现代硬件的优化设计，显著优化传统AI模型在训练和推理过程中的表现。

延伸阅读

Deepseek官网入口 Deepseek网页版登录地址

Deepseek官网入口是https://www.deepseek.com，这是访问DeepSeek最主要且稳定的途径。在任意主流浏览器的地址栏中，准确输入该网址，随后按下回车键，即可迅速加载 Dee
深度deepin 23.1正式发布！AI默认引擎切换至DeepSeek

今天，深度操作系统宣布，deepin 23.1版本已正式发布。此版本聚焦于解决基础组件更新后的安装效率问题，大幅提升新用户安装体验，同时集成多项功能优化与问题修复，进一步优化系统使用。本次版本的重点改
同程旅行推出“AI+实时预订”服务，首批用户今日可体验

作为首家接入DeepSeek大模型的OTA平台，同程旅行整合了覆盖数亿用户的出行数据、全品类文旅资源库及20余个智慧城市合作经验。据“程心”项目负责人介绍，该模型通过逻辑推理能力将模糊需求转化为可执行

[广告]赞助链接：

*文章为作者独立观点，不代表 SSLHUB 立场

本文由 CSDN发表，转载此文章须经作者同意，并请附上出处( SSLHUB )及本页链接。

原文链接 https://www.sslhub.cn/freessl/tutorial/3165.html

DeepSeek NSA 梁文锋 Natively Sparse Attention 原生稀疏注意力袁景阳

关注KnowSafe微信公众号
随时掌握互联网精彩