萬億參數外推失效：DeepMind 公式藏兩年致命 Bug

2026-06-26 12:41

據 Woofun AI 消息，前 OpenAI 副總裁 Lilian Weng 在停更三年後發佈長文《Scaling Laws, Carefully》，直指支撐 AI 行業數百億美元投入的 Scaling Laws 定律存在根本性脆弱。這條被奉爲圭臬的公式曾讓 AI 從玄學轉變爲可計算的生意，指揮了上千億美金的流向，但 Weng 通過逐行復現與深度推導，揭示了其背後的統計口徑差異、實驗規模侷限以及優化算法的致命缺陷，表明單純依靠堆砌規模的增長邏輯已面臨嚴峻挑戰。

Scaling Laws 的核心邏輯在於將模型訓練的損失畫在對數座標上，隨着模型參數量 N、數據量 D 或算力 C 的增加，損失呈直線下降，其數學表達爲 L(x) = E + A/x^α，其中 E 代表理論最優損失，A 和α爲擬合常數。訓練一個 N 參數模型跑 D 個 token 的總算力 C 約等於 6ND，前向傳播消耗 2ND，反向傳播消耗 4ND。

這一線性關係意味着性能提升具有可預測性，只需訓練幾個小模型擬合出直線，即可外推預估大模型表現，無需耗費數億美元進行完整訓練。2020 年 OpenAI 的 Kaplan 團隊發表冪律，首次將深度學習從'鍊金術'帶入'可預測'領域，成爲各大模型公司敢於砸錢的底氣。

然而，關於在給定算力預算下如何分配模型與數據資源，OpenAI 與 DeepMind 給出了截然相反的答案，直接導致了行業訓練策略的巨大分歧。

2020 年 Kaplan 團隊得出的結論是，最優模型大小 N_opt 與算力 C 的 0.73 次方成正比，即 N_opt ∝ C^0.73。這意味着算力每翻 10 倍，模型規模應增加 5.5 倍，而數據量僅增加 1.8 倍，模型增長需遠快於數據。

這一結論直接指導了 GPT-3 的訓練方案，該模型擁有 1750 億參數，卻僅喂入 3000 億個 token，按後續標準看屬於嚴重訓練不足。2022 年 DeepMind 的 Chinchilla 團隊則提出相反觀點，認爲 N_opt ∝ C^0.50，模型與數據應等比增長，工程師將其提煉爲最優 token 與參數比約爲 20:1。DeepMind 隨即展開正面對決，用相同算力訓練了 2800 億參數配 3000 億 token 的 Gopher，以及 700 億參數配 1.4 萬億 token 的 Chinchilla。結果 Chinchilla 全面碾壓，一個更小但'喫得多'的模型擊敗了更大卻'餓着'的對手，行業共識隨之翻轉，從'把模型做大'轉向'大多數模型都訓練不足'。

0.73 與 0.50 的指數差異，導致算力預算被導向兩個完全不同的方向。2024 年，兩位研究者在機器學習頂刊 TMLR 發表論文，將這一分歧追溯至根源。首要原因在於參數統計口徑的不一致：模型中的 embedding 層負責將文字轉換爲向量，在小模型中佔比極高，幾千萬參數的模型中可能佔三分之一。Kaplan 統計時排除了 embedding，而 Chinchilla 將其計入。

這一簿記問題足以扭曲冪律指數。研究者提出校正公式 N = N_\E + ω·N_\E^(1/3)，其中 N_\E 爲去 embedding 後的參數量，ω爲常數。小模型時第二項佔比大，embedding 影響顯著；模型越大，第二項趨近於零，兩種數法殊途同歸。其次，Kaplan 的實驗規模過小，其測試最大模型僅 15 億參數，而 Chinchilla 掃到了 160 億以上。在對數座標中，微小擬合偏差在外推時會被急劇放大。統一口徑重推後發現，冪律指數隨算力規模增大而變化：在 Kaplan 的小規模範圍內指數接近 0.73，規模增大後收斂至 0.50。Kaplan 並未完全錯誤，只是將局部規律誤作全局結論。

Woofun AI 整理數據顯示，Chinchilla 論文雖被奉爲行業標準，但其方法論本身存在嚴重瑕疵。該論文采用三種獨立方法交叉驗證：固定模型變數據、畫等算力曲線、直接對損失公式 L(N,D) = E + A/N^α + B/D^β做參數擬合。方法 3 的數學推導尤爲優雅，在約束 C ≈ 6ND 下求最優，可得閉合解 N_opt ∝ (C/6)^(β/(α+β))，當α≈β時指數約爲 0.5。

然而，2024 年 Epoch AI 團隊從 Chinchilla 圖表中提取原始數據點重跑擬合，發現了兩個離譜的 Bug。第一個 Bug 在於損失函數計算：Chinchilla 在最小化預測與實際損失差距時，對每個樣本的 Huber Loss 取了平均值而非求和。幾百個樣本一平均，損失值被壓縮至極小量級，導致 L-BFGS-B 優化器誤判收斂而提前停止，輸出的參數並非真正最優解。第二個 Bug 在於精度丟失：論文中控制冪律形狀的核心指數僅保留兩位小數，看似無傷大雅，但在反推其他常數時誤差被指數級放大，最終置信區間窄得不合理，需超過 60 萬次實驗才能達到，而實際僅跑了不到 500 次。一個被全行業照抄兩年的公式，背後竟藏着優化器未跑完的 Bug。

Weng 在博客中附帶交互式模擬器，通過調整損失精度、噪聲和擬合區間，直觀展示擬合結果的劇烈波動。OpenAI 結論存在局部性偏差，DeepMind 結論存在方法論瑕疵，AI 行業最重要的學術爭論雙方皆有裂縫。即便修正了擬合方法問題，經典 Scaling Laws 仍面臨更根本的隱患：它假設訓練數據無限且唯一，不重複、不訓多輪。現實是，高質量文本數據預計在 2026 到 2028 年間將被各大實驗室掃蕩殆盡，數據重複訓練不可避免。2023 年一項大規模實驗訓練了約 400 個模型，參數從千萬到 90 億，最多重複訓練 1500 輪，引入'有效數量。公式 D_eff = U·(1 - e^(-R)) 顯示，若有 U 條唯一數據重複 R 輪，有效數據量按指數衰減折算，邊際收益趨近於零。實驗發現，多餘參數比重複數據'貶值'更快，預算有限時，多跑幾輪訓練比加大模型更划算。

2026 年 5 月的一篇新論文提出新思路，不在公式中折算有效數據量，而是直接在經典損失公式後加入顯式過擬合懲罰項。完整公式中，R 爲重複次數，N/U 爲模型參量與唯一數據量比值，P、δ、κ爲擬合常數。重複越多、模型越大，懲罰越重。核心發現是大模型對數據重複更敏感：同樣重複訓練 10 輪，5 億參數模型尚可承受，50 億參數模型性能則嚴重下降。工程上，加強權重衰減可顯著緩解過擬合。這也解釋了爲何 2025 到 2026 年，行業注意力集體轉向三條繞過數據牆的路徑：強化學習，如 DeepSeek R1、OpenAI o 系列，讓模型在可驗證任務上自我博弈；測試時計算，不增訓練成本，讓模型多'想'幾步；合成數據，用強模型生成新數據訓練下一代。這三條路徑的潛臺詞一致：純粹靠'堆規模'的冪律已不夠用。

Lilian Weng 的背景爲北大本科，印第安納大學伯明頓分校博士，研究方向爲網絡科學與複雜系統。她畢業後先任 Dropbox 數據科學家，後加入 Affirm，2018 年入職 OpenAI。其首個項目是機器人 Dactyl，耗時兩年學會解魔方，她是核心貢獻者。後轉組應用研究，GPT-4 發佈後組建 Safety Systems 團隊，離開時該團隊已有 80 多位專家。2024 年 8 月升任 VP of Research and Safety，三個月後離職。2017 年她開設個人博客 Lil'Log，初衷是整理筆記，堅持九年，涵蓋強化學習、擴散模型等，成爲 AI 領域引用最多的個人技術博客之一。2025 年 2 月，她與 Mira Murati 成立 Thinking Machines Lab，聯創包括 John Schulman、Barret Zoph 和 Luke Metz，獲 a16z 領投種子輪 20 億美元，估值 120 億。在公司高速推進之際，她仍耗時寫完這篇拖更三年的長文。ChatGPT、Claude、Gemini 等模型的下一代訓練，皆由這些公式決定。未來 AI 的優劣，不取決於誰的 GPU 更多，而取決於誰將這些細節處理得更精確。這是繼參數統計口徑之爭後，對 Scaling Laws 適用邊界的又一次深刻修正。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

WOOFUN.AI 你的加密智能助理。以智能技術重構加密體驗，化繁為簡，打破專業門檻，讓每個人都能安心、聰明、快樂地擁抱數字未來。

iOS

Google Play

Android Apk

市場生態 Alpha 失樂園評級資訊快訊日歷交易所錢包