目前可以提高模型效果的Scaling方法,按照性价比由高到低排序的话:Test time Scaling Law RL Scaling Law预训练阶段Scaling Law。如果哪天RL Scaling Law和Test Time Scaling Law到了天花板,又没有找到新的性价比更合算的Scaling Law,仍然可以回归预训练阶段的Scaling Law。
目前可以提高模型效果的Scaling方法,按照性价比由高到低排序的话:Test time Scaling Law RL Scaling Law预训练阶段Scaling Law。如果哪天RL Scaling Law和Test Time Scaling Law到了天花板,又没有找到新的性价比更合算的Scaling Law,仍然可以回归预训练阶段的Scaling Law。