DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目

近日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,其主要内容是关于NSA(即Natively Sparse Attention,原生稀疏注意力)。
与此同时,在论文署名中,第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。
根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。
据了解,NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。
同时,NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。
它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。
DeepSeek团队表示,稀疏注意力为提高效率同时保持模型能力,提供了一个有前景的方向。
公开资料显示,NSA(即Natively Sparse Attention,原生稀疏注意力)是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。
它专为长文本训练与推理设计,能够利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现。
-
QQ浏览器宣布接入DeepSeek-R1满血版:支持深度思考、联网搜索
日前,QQ浏览器宣布正式接入DeepSeek-R1模型满血版,支持深度思考、联网搜索、多轮对话、历史记录回溯。在QQ浏览器手机或电脑端的搜狗搜索(或全网搜索)模式下搜索“DeepSeek”,或点击手机
-
DeepSeek服务器“裸奔”互联网现漏洞 专家提醒:立即修改配置
连日来,伴随DeepSeek大模型在各领域的迅速流行,越来越多的公司和个人选择将该开源大模型私有化部署或本地部署。值得一提的是,进行此类部署的主流方式之一是使用开源大型语言模型服务工具“Ollama”
-
王炸级组合官宣!微信等腾讯旗下多个产品将接入DeepSeek:辐射14亿人
微信灰度测试接入DeepSeek之后,官方表示,腾讯旗下多个产品正探索接入。据央视消息,今日从腾讯集团了解到,微信搜一搜在调用混元大模型丰富AI搜索的同时,近日正式灰度测试接入DeepSeek。被灰度
[广告]赞助链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- Olauncher Android 开源启动器
- ARC浏览器 - 让人爱不释手替代 Chrome 的 “最新爆火” AI 浏览器
- Frida-objection 基础使用获取FLAG
- 深圳市盐田港集团与华为签署战略合作协议,加速港口数字化转型
- 好高的佣金,《新程序员》合伙人计划来袭,人人皆可参与!
- Qualcomm招聘|梦想燃动夏日,来一起迎接创新热潮
- 谷歌高级软件工程师的一天
- 十个形象比喻,助你理解计算机面试必备的知识点
- 英超引入 AI 球探,寻找下一个足球巨星
- 在看 | 一周网安回顾 2020.1.23~1.29
- 2021,要不断学习!吴恩达等 AI 大佬发表新年寄语
- 报名倒计时!2020京麒大会 物联网安全攻防实战训练营