AI 摘要
前往原文
时隔一年,FlashAttention-3已经全方位升级。训练速度提升1.5-2倍,FP16下计算吞吐量高达740TFLOPs/s,达理论最大吞吐量75%,更充分利用计算资源,此前只能做到35%。FP8下速度接近1.2PFLOPs/s!同时误差也进一步减小,FP8下的误差比标准Attention减少2.6倍。
相关资讯
AI 摘要
时隔一年,FlashAttention-3已经全方位升级。训练速度提升1.5-2倍,FP16下计算吞吐量高达740TFLOPs/s,达理论最大吞吐量75%,更充分利用计算资源,此前只能做到35%。FP8下速度接近1.2PFLOPs/s!同时误差也进一步减小,FP8下的误差比标准Attention减少2.6倍。
AI 摘要
媒体称,今年字节跳动已订购价值超20亿美元的20余万块英伟达H20芯片,还计划让台积电代工数十万快自研芯片,成本将比从英伟达购买低数十亿美元;字节希望,大致相同成本下,自有芯片集群实现四倍于单个H100芯片的计算性能。
相关榜单
热点推荐
换一批