登录
注册
据 Woofun AI 消息,前 OpenAI 副总裁 Lilian Weng 在停更三年后发布长文《Scaling Laws, Carefully》,直指支撑 AI 行业数百亿美元投入的 Scaling Laws 定律存在根本性脆弱。这条被奉为圭臬的公式曾让 AI 从玄学转变为可计算的生意,指挥了上千亿美金的流向,但 Weng 通过逐行复现与深度推导,揭示了其背后的统计口径差异、实验规模局限以及优化算法的致命缺陷,表明单纯依靠堆砌规模的增长逻辑已面临严峻挑战。
Scaling Laws 的核心逻辑在于将模型训练的损失画在对数坐标上,随着模型参数量 N、数据量 D 或算力 C 的增加,损失呈直线下降,其数学表达为 L(x) = E + A/x^α,其中 E 代表理论最优损失,A 和α为拟合常数。训练一个 N 参数模型跑 D 个 token 的总算力 C 约等于 6ND,前向传播消耗 2ND,反向传播消耗 4ND。
这一线性关系意味着性能提升具有可预测性,只需训练几个小模型拟合出直线,即可外推预估大模型表现,无需耗费数亿美元进行完整训练。2020 年 OpenAI 的 Kaplan 团队发表幂律,首次将深度学习从'炼金术'带入'可预测'领域,成为各大模型公司敢于砸钱的底气。
然而,关于在给定算力预算下如何分配模型与数据资源,OpenAI 与 DeepMind 给出了截然相反的答案,直接导致了行业训练策略的巨大分歧。
2020 年 Kaplan 团队得出的结论是,最优模型大小 N_opt 与算力 C 的 0.73 次方成正比,即 N_opt ∝ C^0.73。这意味着算力每翻 10 倍,模型规模应增加 5.5 倍,而数据量仅增加 1.8 倍,模型增长需远快于数据。
这一结论直接指导了 GPT-3 的训练方案,该模型拥有 1750 亿参数,却仅喂入 3000 亿个 token,按后续标准看属于严重训练不足。2022 年 DeepMind 的 Chinchilla 团队则提出相反观点,认为 N_opt ∝ C^0.50,模型与数据应等比增长,工程师将其提炼为最优 token 与参数比约为 20:1。DeepMind 随即展开正面对决,用相同算力训练了 2800 亿参数配 3000 亿 token 的 Gopher,以及 700 亿参数配 1.4 万亿 token 的 Chinchilla。结果 Chinchilla 全面碾压,一个更小但'吃得多'的模型击败了更大却'饿着'的对手,行业共识随之翻转,从'把模型做大'转向'大多数模型都训练不足'。
0.73 与 0.50 的指数差异,导致算力预算被导向两个完全不同的方向。2024 年,两位研究者在机器学习顶刊 TMLR 发表论文,将这一分歧追溯至根源。首要原因在于参数统计口径的不一致:模型中的 embedding 层负责将文字转换为向量,在小模型中占比极高,几千万参数的模型中可能占三分之一。Kaplan 统计时排除了 embedding,而 Chinchilla 将其计入。
这一簿记问题足以扭曲幂律指数。研究者提出校正公式 N = N_\E + ω·N_\E^(1/3),其中 N_\E 为去 embedding 后的参数量,ω为常数。小模型时第二项占比大,embedding 影响显著;模型越大,第二项趋近于零,两种数法殊途同归。其次,Kaplan 的实验规模过小,其测试最大模型仅 15 亿参数,而 Chinchilla 扫到了 160 亿以上。在对数坐标中,微小拟合偏差在外推时会被急剧放大。统一口径重推后发现,幂律指数随算力规模增大而变化:在 Kaplan 的小规模范围内指数接近 0.73,规模增大后收敛至 0.50。Kaplan 并未完全错误,只是将局部规律误作全局结论。
Woofun AI 整理数据显示,Chinchilla 论文虽被奉为行业标准,但其方法论本身存在严重瑕疵。该论文采用三种独立方法交叉验证:固定模型变数据、画等算力曲线、直接对损失公式 L(N,D) = E + A/N^α + B/D^β做参数拟合。方法 3 的数学推导尤为优雅,在约束 C ≈ 6ND 下求最优,可得闭合解 N_opt ∝ (C/6)^(β/(α+β)),当α≈β时指数约为 0.5。
然而,2024 年 Epoch AI 团队从 Chinchilla 图表中提取原始数据点重跑拟合,发现了两个离谱的 Bug。第一个 Bug 在于损失函数计算:Chinchilla 在最小化预测与实际损失差距时,对每个样本的 Huber Loss 取了平均值而非求和。几百个样本一平均,损失值被压缩至极小量级,导致 L-BFGS-B 优化器误判收敛而提前停止,输出的参数并非真正最优解。第二个 Bug 在于精度丢失:论文中控制幂律形状的核心指数仅保留两位小数,看似无伤大雅,但在反推其他常数时误差被指数级放大,最终置信区间窄得不合理,需超过 60 万次实验才能达到,而实际仅跑了不到 500 次。一个被全行业照抄两年的公式,背后竟藏着优化器未跑完的 Bug。
Weng 在博客中附带交互式模拟器,通过调整损失精度、噪声和拟合区间,直观展示拟合结果的剧烈波动。OpenAI 结论存在局部性偏差,DeepMind 结论存在方法论瑕疵,AI 行业最重要的学术争论双方皆有裂缝。即便修正了拟合方法问题,经典 Scaling Laws 仍面临更根本的隐患:它假设训练数据无限且唯一,不重复、不训多轮。现实是,高质量文本数据预计在 2026 到 2028 年间将被各大实验室扫荡殆尽,数据重复训练不可避免。2023 年一项大规模实验训练了约 400 个模型,参数从千万到 90 亿,最多重复训练 1500 轮,引入'有效数量。公式 D_eff = U·(1 - e^(-R)) 显示,若有 U 条唯一数据重复 R 轮,有效数据量按指数衰减折算,边际收益趋近于零。实验发现,多余参数比重复数据'贬值'更快,预算有限时,多跑几轮训练比加大模型更划算。
2026 年 5 月的一篇新论文提出新思路,不在公式中折算有效数据量,而是直接在经典损失公式后加入显式过拟合惩罚项。完整公式中,R 为重复次数,N/U 为模型参量与唯一数据量比值,P、δ、κ为拟合常数。重复越多、模型越大,惩罚越重。核心发现是大模型对数据重复更敏感:同样重复训练 10 轮,5 亿参数模型尚可承受,50 亿参数模型性能则严重下降。工程上,加强权重衰减可显著缓解过拟合。这也解释了为何 2025 到 2026 年,行业注意力集体转向三条绕过数据墙的路径:强化学习,如 DeepSeek R1、OpenAI o 系列,让模型在可验证任务上自我博弈;测试时计算,不增训练成本,让模型多'想'几步;合成数据,用强模型生成新数据训练下一代。这三条路径的潜台词一致:纯粹靠'堆规模'的幂律已不够用。
Lilian Weng 的背景为北大本科,印第安纳大学伯明顿分校博士,研究方向为网络科学与复杂系统。她毕业后先任 Dropbox 数据科学家,后加入 Affirm,2018 年入职 OpenAI。其首个项目是机器人 Dactyl,耗时两年学会解魔方,她是核心贡献者。后转组应用研究,GPT-4 发布后组建 Safety Systems 团队,离开时该团队已有 80 多位专家。2024 年 8 月升任 VP of Research and Safety,三个月后离职。2017 年她开设个人博客 Lil'Log,初衷是整理笔记,坚持九年,涵盖强化学习、扩散模型等,成为 AI 领域引用最多的个人技术博客之一。2025 年 2 月,她与 Mira Murati 成立 Thinking Machines Lab,联创包括 John Schulman、Barret Zoph 和 Luke Metz,获 a16z 领投种子轮 20 亿美元,估值 120 亿。在公司高速推进之际,她仍耗时写完这篇拖更三年的长文。ChatGPT、Claude、Gemini 等模型的下一代训练,皆由这些公式决定。未来 AI 的优劣,不取决于谁的 GPU 更多,而取决于谁将这些细节处理得更精确。这是继参数统计口径之争后,对 Scaling Laws 适用边界的又一次深刻修正。