AI 摘要
前往原文
时隔一年,FlashAttention-3已经全方位升级。训练速度提升1.5-2倍,FP16下计算吞吐量高达740TFLOPs/s,达理论最大吞吐量75%,更充分利用计算资源,此前只能做到35%。FP8下速度接近1.2PFLOPs/s!同时误差也进一步减小,FP8下的误差比标准Attention减少2.6倍。
相关资讯
AI 摘要
时隔一年,FlashAttention-3已经全方位升级。训练速度提升1.5-2倍,FP16下计算吞吐量高达740TFLOPs/s,达理论最大吞吐量75%,更充分利用计算资源,此前只能做到35%。FP8下速度接近1.2PFLOPs/s!同时误差也进一步减小,FP8下的误差比标准Attention减少2.6倍。
AI 摘要
媒体称,今年字节跳动已订购价值超20亿美元的20余万块英伟达H20芯片,还计划让台积电代工数十万快自研芯片,成本将比从英伟达购买低数十亿美元;字节希望,大致相同成本下,自有芯片集群实现四倍于单个H100芯片的计算性能。
AI 摘要
DeepSeek的“暴利”表明,通过极致的infra优化能实现极高的算力利用率和性能。但是关于DeepSeek的是否是对算力的核弹,外界仍有不少分歧。知名投资人段永平赞同此前英伟达CEO黄仁勋的观点,DeepSeek会激发市场对更高效AI模型的追求,认为算力需求会持续增长。但是也有国外科技博主表示,DeepSeek已经把英伟达“击倒”,按照DeepSeek目前对算力的超高利用率,满足全球的AI需求绰绰有余。
相关榜单
热点推荐
换一批