相关资讯
AI 摘要
DeepSeek发布为英伟达Hopper GPU优化的高效MLA解码内核FlashMLA,专门设计用于处理可变长度序列,展现出卓越的计算效率。分析称,通过使用FlashMLA,可以在更少的Hopper GPU服务器的情况下部署完成相同的任务量,而无需昂贵的硬件升级,使推理成本大大下降。
AI 摘要
2 月 24 日,DeepSeek 第一天的开源项目 FlashMLA 正式发布。 DeepSeek 官方在 X 平台发文称: 「很荣幸能分享 FlashMLA —— 我们专为 Hopper GPU 优化的高效 MLA 解码内核,不仅支持变长序列处理,现在已经投入生产使用。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上实现 3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能」 据官方介......
35万热度
·
·
·
2025年2月24日
·
AI 摘要
幻方代表了开源相对闭源的胜利,其贡献将促进开源社区繁荣,并可能导致北美闭源模型API价值归零。幻方在降低推理成本方面表现突出,其架构能轻松支持各种类型的卡,推理成本的降低将促进应用繁荣,拉动更大算力需求。
AI 摘要
DeepSeek因“服务器资源紧张”突然暂停API服务充值,引发外界对其算力不足的猜测。分析认为,DeepSeek可能难以满足日益增长的需求,如果这种情况持续下去,DeepSeek可能只能借鉴OpenAI的做法,加大对基础设施的投资。
热点推荐
换一批