40万热度
·
·
·
2025/02/02 08:48:07
·
AI 摘要
前往原文
英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力? 硬件媒体Tom‘s Hardware带来开年最新热议: DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。 这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。 来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。 在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。 变相绕过了硬件对通信速度的限制。 △DeepSeek-V3 Technical Report 这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。 PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。 这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言......
相关资讯
AI 摘要
英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力? 硬件媒体Tom‘s Hardware带来开年最新热议: DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。 这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。 来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了......
40万热度
·
·
·
2025年2月02日
·
AI 摘要
DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。来自Mirae Asset Securities Research的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
相关榜单
热点推荐
换一批