DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
近日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,其主要内容是关于NSA(即Natively Sparse Attention,原生稀疏注意力)。
与此同时,在论文署名中,第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。
根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。
据了解,NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。
同时,NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。
它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。
DeepSeek团队表示,稀疏注意力为提高效率同时保持模型能力,提供了一个有前景的方向。
公开资料显示,NSA(即Natively Sparse Attention,原生稀疏注意力)是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。
它专为长文本训练与推理设计,能够利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现。
-
深度deepin 23.1正式发布!AI默认引擎切换至DeepSeek
今天,深度操作系统宣布,deepin 23.1版本已正式发布。此版本聚焦于解决基础组件更新后的安装效率问题,大幅提升新用户安装体验,同时集成多项功能优化与问题修复,进一步优化系统使用。本次版本的重点改
-
同程旅行推出“AI+实时预订”服务,首批用户今日可体验
作为首家接入DeepSeek大模型的OTA平台,同程旅行整合了覆盖数亿用户的出行数据、全品类文旅资源库及20余个智慧城市合作经验。据“程心”项目负责人介绍,该模型通过逻辑推理能力将模糊需求转化为可执行
-
超越DeepSeek!腾讯元宝登苹果App Store免费下载榜第一
今晚,腾讯旗下大模型AI应用——腾讯元宝在苹果中国区App Store免费App下载排行榜上升至第一,超越DeepSeek。目前,免费榜前五的App分别是腾讯元宝、DeepSeek、个人所得税、豆包、
关注公众号:拾黑(shiheibook)了解更多
赞助链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- 百度地图V20国庆版发布:首发车道级护航 部分手机可直连北斗/天通
- 港币对人民币汇率2023年12月24日
- 澳元兑换人民币汇率2023年8月25日
- 飞象网恭祝您新春快乐,2023大展宏“兔”!
- 博通公司亚太区副总裁张卫:创新是应对市场挑战的法宝
- 网易治不好"游戏依赖症"
- 从蛮荒时代进入数字经济:中国互联网基建三十载 #电脑报30周年#
- 传小红书考虑今年在美国上市;创维集团宣布造车;学而思网校、猿辅导、高途课堂等全面下架学前课程 | Do晚报
- 开源免费,能比得过拥有 300 万用户的老牌付费工具吗?
- 激光雷达进入量产元年
- 数字化时代,Azure 成为道明银行集团加深客户关系的“秘密武器”
- 我为“十四五”建言丨成都锐成芯微科技股份有限公司总经理沈莉:优先布局核心IP 加快集成电路产业链建设