相关资讯
AI 摘要
什么是推理大模型?DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么?什么时候该使用推理大模型?
49万热度
·
·
·
2025年3月09日
·
AI 摘要
在Deepseek R1发布后,北大联合香港科技大学团队基于自研框架align-anything,在一周之内迅速地将Deepseek R1系列模型扩展至图文模态,并取得了优越的视觉理解表现。
87W
·
·
·
2025年2月06日
·
AI 摘要
DeepSeek V3/R1推理系统通过跨节点专家并行 (EP)、计算-通信重叠和精细的负载均衡策略,实现了惊人的性能和效率。简单来说,EP就像是“多人协作”,把模型中的“专家”分散到多张 GPU 上进行计算,大幅提升Batch Size,榨干 GPU 算力,同时专家分散,降低内存压力,更快响应。
相关榜单
热点推荐
换一批