AI 摘要
前往原文
DeepSeek和清华的研究者提出了一种新方法——自我原则点评调优(SPCT),用于推动通用奖励建模在推理阶段实现有效的可扩展性,最终构建出DeepSeek-GRM系列模型。同时引入了元奖励模型(meta RM),进一步提升推理扩展性能。
相关资讯
AI 摘要
DeepSeek和清华的研究者提出了一种新方法——自我原则点评调优(SPCT),用于推动通用奖励建模在推理阶段实现有效的可扩展性,最终构建出DeepSeek-GRM系列模型。同时引入了元奖励模型(meta RM),进一步提升推理扩展性能。
AI 摘要
DeepSeek新论文来了!在清华研究者共同发布的研究中,他们发现了奖励模型推理时Scaling的全新方法...
66W
·
·
·
2025年4月05日
·
AI 摘要
DeepSeek计划加速推出新一代AI模型DeepSeek-R2。据三位知情人士透露,DeepSeek原本计划在5月初发布R2,但现在可能提前推出,具体时间及细节尚未披露。
94W
·
·
·
2025年2月25日
·
AI 摘要
DeepSeek原计划于5月初发布R2模型,但据路透社援引知情人士透露,公司正寻求尽快推出。R2预计将在编程和多语言推理方面实现更优性能。
AI 摘要
DeepSeek R2 预计基于 V3 基座模型,利用现有路线、算力及 infra 能力,有望实现推理等能力提升,对标 o3 完整版,并且会继续开源。
相关榜单
热点推荐
换一批