相关资讯
AI 摘要
DeepSeek新论文来了!在清华研究者共同发布的研究中,他们发现了奖励模型推理时Scaling的全新方法...
68W
·
·
·
2025年4月05日
·
AI 摘要
大语言模型真的可以推理吗?LLM 都是“参数匹配大师”?苹果研究员质疑 LLM 推理能力,称其“不堪一击”!
AI 摘要
Transformers without Normalization? 论文链接:https://arxiv.org/pdf/2503.10622
85万热度
·
·
·
2025年3月14日
·
AI 摘要
DeepSeek和清华的研究者提出了一种新方法——自我原则点评调优(SPCT),用于推动通用奖励建模在推理阶段实现有效的可扩展性,最终构建出DeepSeek-GRM系列模型。同时引入了元奖励模型(meta RM),进一步提升推理扩展性能。
AI 摘要
一天的总收入为 $562,027,成本利润率 545%DeepSeek:DeepSeek-V3 / R1 推理系统概览
14万热度
·
·
·
2025年3月01日
·
AI 摘要
来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上最低!同时,微软亚研院的一项工作,也受DeepSeek-R1启发,让7B模型涌现出了高级推理技能。
相关榜单
热点推荐
换一批