万亿参数外推失效：DeepMind 公式藏两年致命 Bug

2026-06-26 12:41

据 Woofun AI 消息，前 OpenAI 副总裁 Lilian Weng 在停更三年后发布长文《Scaling Laws, Carefully》，直指支撑 AI 行业数百亿美元投入的 Scaling Laws 定律存在根本性脆弱。这条被奉为圭臬的公式曾让 AI 从玄学转变为可计算的生意，指挥了上千亿美金的流向，但 Weng 通过逐行复现与深度推导，揭示了其背后的统计口径差异、实验规模局限以及优化算法的致命缺陷，表明单纯依靠堆砌规模的增长逻辑已面临严峻挑战。

Scaling Laws 的核心逻辑在于将模型训练的损失画在对数坐标上，随着模型参数量 N、数据量 D 或算力 C 的增加，损失呈直线下降，其数学表达为 L(x) = E + A/x^α，其中 E 代表理论最优损失，A 和α为拟合常数。训练一个 N 参数模型跑 D 个 token 的总算力 C 约等于 6ND，前向传播消耗 2ND，反向传播消耗 4ND。

这一线性关系意味着性能提升具有可预测性，只需训练几个小模型拟合出直线，即可外推预估大模型表现，无需耗费数亿美元进行完整训练。2020 年 OpenAI 的 Kaplan 团队发表幂律，首次将深度学习从'炼金术'带入'可预测'领域，成为各大模型公司敢于砸钱的底气。

然而，关于在给定算力预算下如何分配模型与数据资源，OpenAI 与 DeepMind 给出了截然相反的答案，直接导致了行业训练策略的巨大分歧。

2020 年 Kaplan 团队得出的结论是，最优模型大小 N_opt 与算力 C 的 0.73 次方成正比，即 N_opt ∝ C^0.73。这意味着算力每翻 10 倍，模型规模应增加 5.5 倍，而数据量仅增加 1.8 倍，模型增长需远快于数据。

这一结论直接指导了 GPT-3 的训练方案，该模型拥有 1750 亿参数，却仅喂入 3000 亿个 token，按后续标准看属于严重训练不足。2022 年 DeepMind 的 Chinchilla 团队则提出相反观点，认为 N_opt ∝ C^0.50，模型与数据应等比增长，工程师将其提炼为最优 token 与参数比约为 20:1。DeepMind 随即展开正面对决，用相同算力训练了 2800 亿参数配 3000 亿 token 的 Gopher，以及 700 亿参数配 1.4 万亿 token 的 Chinchilla。结果 Chinchilla 全面碾压，一个更小但'吃得多'的模型击败了更大却'饿着'的对手，行业共识随之翻转，从'把模型做大'转向'大多数模型都训练不足'。

0.73 与 0.50 的指数差异，导致算力预算被导向两个完全不同的方向。2024 年，两位研究者在机器学习顶刊 TMLR 发表论文，将这一分歧追溯至根源。首要原因在于参数统计口径的不一致：模型中的 embedding 层负责将文字转换为向量，在小模型中占比极高，几千万参数的模型中可能占三分之一。Kaplan 统计时排除了 embedding，而 Chinchilla 将其计入。

这一簿记问题足以扭曲幂律指数。研究者提出校正公式 N = N_\E + ω·N_\E^(1/3)，其中 N_\E 为去 embedding 后的参数量，ω为常数。小模型时第二项占比大，embedding 影响显著；模型越大，第二项趋近于零，两种数法殊途同归。其次，Kaplan 的实验规模过小，其测试最大模型仅 15 亿参数，而 Chinchilla 扫到了 160 亿以上。在对数坐标中，微小拟合偏差在外推时会被急剧放大。统一口径重推后发现，幂律指数随算力规模增大而变化：在 Kaplan 的小规模范围内指数接近 0.73，规模增大后收敛至 0.50。Kaplan 并未完全错误，只是将局部规律误作全局结论。

Woofun AI 整理数据显示，Chinchilla 论文虽被奉为行业标准，但其方法论本身存在严重瑕疵。该论文采用三种独立方法交叉验证：固定模型变数据、画等算力曲线、直接对损失公式 L(N,D) = E + A/N^α + B/D^β做参数拟合。方法 3 的数学推导尤为优雅，在约束 C ≈ 6ND 下求最优，可得闭合解 N_opt ∝ (C/6)^(β/(α+β))，当α≈β时指数约为 0.5。

然而，2024 年 Epoch AI 团队从 Chinchilla 图表中提取原始数据点重跑拟合，发现了两个离谱的 Bug。第一个 Bug 在于损失函数计算：Chinchilla 在最小化预测与实际损失差距时，对每个样本的 Huber Loss 取了平均值而非求和。几百个样本一平均，损失值被压缩至极小量级，导致 L-BFGS-B 优化器误判收敛而提前停止，输出的参数并非真正最优解。第二个 Bug 在于精度丢失：论文中控制幂律形状的核心指数仅保留两位小数，看似无伤大雅，但在反推其他常数时误差被指数级放大，最终置信区间窄得不合理，需超过 60 万次实验才能达到，而实际仅跑了不到 500 次。一个被全行业照抄两年的公式，背后竟藏着优化器未跑完的 Bug。

Weng 在博客中附带交互式模拟器，通过调整损失精度、噪声和拟合区间，直观展示拟合结果的剧烈波动。OpenAI 结论存在局部性偏差，DeepMind 结论存在方法论瑕疵，AI 行业最重要的学术争论双方皆有裂缝。即便修正了拟合方法问题，经典 Scaling Laws 仍面临更根本的隐患：它假设训练数据无限且唯一，不重复、不训多轮。现实是，高质量文本数据预计在 2026 到 2028 年间将被各大实验室扫荡殆尽，数据重复训练不可避免。2023 年一项大规模实验训练了约 400 个模型，参数从千万到 90 亿，最多重复训练 1500 轮，引入'有效数量。公式 D_eff = U·(1 - e^(-R)) 显示，若有 U 条唯一数据重复 R 轮，有效数据量按指数衰减折算，边际收益趋近于零。实验发现，多余参数比重复数据'贬值'更快，预算有限时，多跑几轮训练比加大模型更划算。

2026 年 5 月的一篇新论文提出新思路，不在公式中折算有效数据量，而是直接在经典损失公式后加入显式过拟合惩罚项。完整公式中，R 为重复次数，N/U 为模型参量与唯一数据量比值，P、δ、κ为拟合常数。重复越多、模型越大，惩罚越重。核心发现是大模型对数据重复更敏感：同样重复训练 10 轮，5 亿参数模型尚可承受，50 亿参数模型性能则严重下降。工程上，加强权重衰减可显著缓解过拟合。这也解释了为何 2025 到 2026 年，行业注意力集体转向三条绕过数据墙的路径：强化学习，如 DeepSeek R1、OpenAI o 系列，让模型在可验证任务上自我博弈；测试时计算，不增训练成本，让模型多'想'几步；合成数据，用强模型生成新数据训练下一代。这三条路径的潜台词一致：纯粹靠'堆规模'的幂律已不够用。

Lilian Weng 的背景为北大本科，印第安纳大学伯明顿分校博士，研究方向为网络科学与复杂系统。她毕业后先任 Dropbox 数据科学家，后加入 Affirm，2018 年入职 OpenAI。其首个项目是机器人 Dactyl，耗时两年学会解魔方，她是核心贡献者。后转组应用研究，GPT-4 发布后组建 Safety Systems 团队，离开时该团队已有 80 多位专家。2024 年 8 月升任 VP of Research and Safety，三个月后离职。2017 年她开设个人博客 Lil'Log，初衷是整理笔记，坚持九年，涵盖强化学习、扩散模型等，成为 AI 领域引用最多的个人技术博客之一。2025 年 2 月，她与 Mira Murati 成立 Thinking Machines Lab，联创包括 John Schulman、Barret Zoph 和 Luke Metz，获 a16z 领投种子轮 20 亿美元，估值 120 亿。在公司高速推进之际，她仍耗时写完这篇拖更三年的长文。ChatGPT、Claude、Gemini 等模型的下一代训练，皆由这些公式决定。未来 AI 的优劣，不取决于谁的 GPU 更多，而取决于谁将这些细节处理得更精确。这是继参数统计口径之争后，对 Scaling Laws 适用边界的又一次深刻修正。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WOOFUN.AI 你的加密智能助理。以智能技术重构加密体验，化繁为简，打破专业门槛，让每个人都能安心、聪明、快乐地拥抱数字未来。

iOS

Google Play

Android Apk

市场生态 Alpha 失乐园评级资讯快讯日历交易所钱包