AI 摘要
前往原文
DeepSeek发布为英伟达Hopper GPU优化的高效MLA解码内核FlashMLA,专门设计用于处理可变长度序列,展现出卓越的计算效率。分析称,通过使用FlashMLA,可以在更少的Hopper GPU服务器的情况下部署完成相同的任务量,而无需昂贵的硬件升级,使推理成本大大下降。
相关资讯
AI 摘要
DeepSeek发布为英伟达Hopper GPU优化的高效MLA解码内核FlashMLA,专门设计用于处理可变长度序列,展现出卓越的计算效率。分析称,通过使用FlashMLA,可以在更少的Hopper GPU服务器的情况下部署完成相同的任务量,而无需昂贵的硬件升级,使推理成本大大下降。
AI 摘要
2 月 24 日,DeepSeek 第一天的开源项目 FlashMLA 正式发布。 DeepSeek 官方在 X 平台发文称: 「很荣幸能分享 FlashMLA —— 我们专为 Hopper GPU 优化的高效 MLA 解码内核,不仅支持变长序列处理,现在已经投入生产使用。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上实现 3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能」 据官方介......
35万热度
·
·
·
2025年2月24日
·
AI 摘要
DeepSeek的开源,尤其是infra开源,短期内极大地加强了英伟达生态的护城河。据了解,英伟达内部把DeepSeek的支持重要性排到了Llama之前,成为了最重要的开源项目,内部的资源和流程也是一路绿灯。
AI 摘要
DeepSeek今日宣布,接下来一周,会陆续开源5个代码库,每日都有新内容解锁,进一步分享新的进展。DeepSeek还表示,当前在线服务的模块已经经过测试、部署完备,可以投入生产环境。这个领域没有高高在上的象牙塔,只有纯粹的车库创业精神与社区共筑的创新力量。
相关榜单
热点推荐
换一批