2 月 24 日,DeepSeek 第一天的开源项目 FlashMLA 正式发布。 DeepSeek 官方在 X 平台发文称: 「很荣幸能分享 FlashMLA —— 我们专为 Hopper GPU 优化的高效 MLA 解码内核,不仅支持变长序列处理,现在已经投入生产使用。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上实现 3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能」 据官方介绍,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。 网页链接