1. 首页
  2. 快讯
  3. 正文

DeepSeek发布DeepGEMM:高效FP8 GEMM库,优化V3/R1训练与推理

比特之家 2月26日消息,DeepSeek在其开源周(OpenSourceWeek)第三天推出 DeepGEMM,一个支持 FP8 GEMM 的CUDA库,可用于稠密矩阵计算和混合专家(MoE)架构,优化V3/R1模型的训练和推理。 DeepGEMM 关键特性: • 超高性能:在Hopper GPU上实现 1350+ FP8 TFLOPS • 极简依赖:无繁重依赖,代码简洁如教程 • JIT即时编译:无需预编译,运行时自动优化 • 核心代码仅约300行,但在大多数矩阵尺寸下性能超越专家级优化内核 • 支持稠密布局和两种MoE布局

本分分类: 快讯

版权声明:本文由比特之家用户上传发布,不代表比特之家立场,转载联系作者并注明出处:https://www.liangxinseo.com/newsflash/30489.html

下一篇:
没有更多了