"如果把参数规模扩大x倍,模型能力就会得到y倍的提升" ——这条支撑着AI领域几年狂飙突进的Scaling Law,似乎正在走向尽头。 从GPT-3到GPT-4,从BERT到PaLM,AI的进化史几乎就是一部算力竞赛史。但最近的发展却给这个故事带来了转折:Claude 3在维持3.2B上下文的同时显著压缩了参数规模;Anthropic的研究人员公开表示"更大的模型未必更好";DeepMind在近期论文中更是直指Scaling Law在逼近人类认知能力时可能存在根本性限制。 当千亿参数、万亿tokens逐渐成为标配,简单的堆料堆算力似乎越来越难以带来质的飞跃。这不禁让人思考:是我们对Scaling Law的理解还不够深入,还是这条路径本身就存在天花板?基座大模型的下一个突破点究竟在哪? 此问题为知乎「互联网破局者」活动定制内容,欢迎大家一同探讨大模型未来演进方向。