DeepSeek推出NSA机制提升长上下文训练与推理效率
时间:2025年02月18日 16:52
比特之家 2月18日消息,DeepSeek宣布推出NSA(稀疏注意力机制),该机制与硬件高度一致且支持本机训练,旨在实现超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA在加速推理速度的同时显著降低预训练成本,且不会影响模型性能。
据官方介绍,NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异,与完全注意力模型相比表现相当甚至更佳。
本分分类: 快讯
版权声明:本文由比特之家用户上传发布,不代表比特之家立场,转载联系作者并注明出处:https://www.liangxinseo.com/newsflash/29643.html