DeepSeek 绕开 CUDA 垄断，针对英伟达 PTX 进行优化实现最大性能，英伟达护城河还在吗？ - 知乎热榜 - 知乎

知乎

知乎热榜

40万热度

2025/02/02 08:48:07

AI 摘要

英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来，又面临新的压力？硬件媒体Tom‘s Hardware带来开年最新热议： DeepSeek甚至绕过了CUDA，使用更底层的编程语言做优化。这一次是DeepSeek-V3论文中的更多细节，被人挖掘出来。来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务。变相绕过了硬件对通信速度的限制。 △DeepSeek-V3 Technical Report 这种操作是用英伟达的PTX（Parallel Thread Execution）语言实现的，而不是CUDA。 PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言......

相关资讯

DeepSeek 绕开 CUDA 垄断，针对英伟达 PTX 进行优化实现最大性能，英伟达护城河还在吗？

AI 摘要

40万热度

知乎热榜

知乎

2025年2月02日

前往原文