国产之光 DeepSeek 把 AI 大佬全炸出来了，对 AI 行业竞争格局有何影响？ - 知乎热榜 - 知乎

知乎

知乎热榜

3.2万热度

2025/01/25 13:21:16

AI 摘要

物联网技术DeepSeek新版模型正式发布，技术大佬们都转疯了！延续便宜大碗特点的基础之上，DeepSeek V3发布即完全开源，直接用了53页论文把训练细节和盘托出的那种。怎么说呢，QLoRA一作的一个词评价就是：优雅。具体来说，DeepSeek V3是一个参数量为671B的MoE模型，激活37B，在14.8T高质量token上进行了预训练。在多项测评上，DeepSeek V3达到了开源SOTA，超越Llama 3.1 405B，能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——而其价格比Claude 3.5 Haiku还便宜，仅为Claude 3.5 Sonnet的9%。更重要的是，大家伙儿还第一时间在论文中发现了关键细节：DeepSeek V3整个训练过程仅用了不到280万个GPU小时，相比之下，Llama 3 405B的训练时长是3080万GPU小时（p.s． GPU型号也不同）。直观地从钱上来对比就是，训练671B的DeepSeek V3的成本是557.6万美元（约合4070万人民币），而只是训练一个7B的Llama 2，就要花费76万美元（约合......

相关资讯

国产之光 DeepSeek 把 AI 大佬全炸出来了，对 AI 行业竞争格局有何影响？

AI 摘要

3.2万热度

知乎热榜

知乎

2025年1月25日

前往原文