相关资讯
AI 摘要
DeepSeek和清华的研究者提出了一种新方法——自我原则点评调优(SPCT),用于推动通用奖励建模在推理阶段实现有效的可扩展性,最终构建出DeepSeek-GRM系列模型。同时引入了元奖励模型(meta RM),进一步提升推理扩展性能。
AI 摘要
Meta发布Llama 4系列,强调多模态和超长上下文窗口,部分模型将开源。OpenAI确认O3和O4-mini即将上线,GPT-5推迟发布但将免费。DeepSeek与清华发布新论文,提出SPCT方法和元奖励模型,显著提升推理扩展性能。
热点推荐
换一批