英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力? 硬件媒体Tom‘s Hardware带来开年最新热议: DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。 这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。 来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。 在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。 变相绕过了硬件对通信速度的限制。 △DeepSeek-V3 Technical Report 这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。 PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。 这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言......