登錄
註冊
據 Woofun AI 消息,前 OpenAI 副總裁 Lilian Weng 在停更三年後發佈長文《Scaling Laws, Carefully》,直指支撐 AI 行業數百億美元投入的 Scaling Laws 定律存在根本性脆弱。這條被奉爲圭臬的公式曾讓 AI 從玄學轉變爲可計算的生意,指揮了上千億美金的流向,但 Weng 通過逐行復現與深度推導,揭示了其背後的統計口徑差異、實驗規模侷限以及優化算法的致命缺陷,表明單純依靠堆砌規模的增長邏輯已面臨嚴峻挑戰。
Scaling Laws 的核心邏輯在於將模型訓練的損失畫在對數座標上,隨着模型參數量 N、數據量 D 或算力 C 的增加,損失呈直線下降,其數學表達爲 L(x) = E + A/x^α,其中 E 代表理論最優損失,A 和α爲擬合常數。訓練一個 N 參數模型跑 D 個 token 的總算力 C 約等於 6ND,前向傳播消耗 2ND,反向傳播消耗 4ND。
這一線性關係意味着性能提升具有可預測性,只需訓練幾個小模型擬合出直線,即可外推預估大模型表現,無需耗費數億美元進行完整訓練。2020 年 OpenAI 的 Kaplan 團隊發表冪律,首次將深度學習從'鍊金術'帶入'可預測'領域,成爲各大模型公司敢於砸錢的底氣。
然而,關於在給定算力預算下如何分配模型與數據資源,OpenAI 與 DeepMind 給出了截然相反的答案,直接導致了行業訓練策略的巨大分歧。
2020 年 Kaplan 團隊得出的結論是,最優模型大小 N_opt 與算力 C 的 0.73 次方成正比,即 N_opt ∝ C^0.73。這意味着算力每翻 10 倍,模型規模應增加 5.5 倍,而數據量僅增加 1.8 倍,模型增長需遠快於數據。
這一結論直接指導了 GPT-3 的訓練方案,該模型擁有 1750 億參數,卻僅喂入 3000 億個 token,按後續標準看屬於嚴重訓練不足。2022 年 DeepMind 的 Chinchilla 團隊則提出相反觀點,認爲 N_opt ∝ C^0.50,模型與數據應等比增長,工程師將其提煉爲最優 token 與參數比約爲 20:1。DeepMind 隨即展開正面對決,用相同算力訓練了 2800 億參數配 3000 億 token 的 Gopher,以及 700 億參數配 1.4 萬億 token 的 Chinchilla。結果 Chinchilla 全面碾壓,一個更小但'喫得多'的模型擊敗了更大卻'餓着'的對手,行業共識隨之翻轉,從'把模型做大'轉向'大多數模型都訓練不足'。
0.73 與 0.50 的指數差異,導致算力預算被導向兩個完全不同的方向。2024 年,兩位研究者在機器學習頂刊 TMLR 發表論文,將這一分歧追溯至根源。首要原因在於參數統計口徑的不一致:模型中的 embedding 層負責將文字轉換爲向量,在小模型中佔比極高,幾千萬參數的模型中可能佔三分之一。Kaplan 統計時排除了 embedding,而 Chinchilla 將其計入。
這一簿記問題足以扭曲冪律指數。研究者提出校正公式 N = N_\E + ω·N_\E^(1/3),其中 N_\E 爲去 embedding 後的參數量,ω爲常數。小模型時第二項佔比大,embedding 影響顯著;模型越大,第二項趨近於零,兩種數法殊途同歸。其次,Kaplan 的實驗規模過小,其測試最大模型僅 15 億參數,而 Chinchilla 掃到了 160 億以上。在對數座標中,微小擬合偏差在外推時會被急劇放大。統一口徑重推後發現,冪律指數隨算力規模增大而變化:在 Kaplan 的小規模範圍內指數接近 0.73,規模增大後收斂至 0.50。Kaplan 並未完全錯誤,只是將局部規律誤作全局結論。
Woofun AI 整理數據顯示,Chinchilla 論文雖被奉爲行業標準,但其方法論本身存在嚴重瑕疵。該論文采用三種獨立方法交叉驗證:固定模型變數據、畫等算力曲線、直接對損失公式 L(N,D) = E + A/N^α + B/D^β做參數擬合。方法 3 的數學推導尤爲優雅,在約束 C ≈ 6ND 下求最優,可得閉合解 N_opt ∝ (C/6)^(β/(α+β)),當α≈β時指數約爲 0.5。
然而,2024 年 Epoch AI 團隊從 Chinchilla 圖表中提取原始數據點重跑擬合,發現了兩個離譜的 Bug。第一個 Bug 在於損失函數計算:Chinchilla 在最小化預測與實際損失差距時,對每個樣本的 Huber Loss 取了平均值而非求和。幾百個樣本一平均,損失值被壓縮至極小量級,導致 L-BFGS-B 優化器誤判收斂而提前停止,輸出的參數並非真正最優解。第二個 Bug 在於精度丟失:論文中控制冪律形狀的核心指數僅保留兩位小數,看似無傷大雅,但在反推其他常數時誤差被指數級放大,最終置信區間窄得不合理,需超過 60 萬次實驗才能達到,而實際僅跑了不到 500 次。一個被全行業照抄兩年的公式,背後竟藏着優化器未跑完的 Bug。
Weng 在博客中附帶交互式模擬器,通過調整損失精度、噪聲和擬合區間,直觀展示擬合結果的劇烈波動。OpenAI 結論存在局部性偏差,DeepMind 結論存在方法論瑕疵,AI 行業最重要的學術爭論雙方皆有裂縫。即便修正了擬合方法問題,經典 Scaling Laws 仍面臨更根本的隱患:它假設訓練數據無限且唯一,不重複、不訓多輪。現實是,高質量文本數據預計在 2026 到 2028 年間將被各大實驗室掃蕩殆盡,數據重複訓練不可避免。2023 年一項大規模實驗訓練了約 400 個模型,參數從千萬到 90 億,最多重複訓練 1500 輪,引入'有效數量。公式 D_eff = U·(1 - e^(-R)) 顯示,若有 U 條唯一數據重複 R 輪,有效數據量按指數衰減折算,邊際收益趨近於零。實驗發現,多餘參數比重複數據'貶值'更快,預算有限時,多跑幾輪訓練比加大模型更划算。
2026 年 5 月的一篇新論文提出新思路,不在公式中折算有效數據量,而是直接在經典損失公式後加入顯式過擬合懲罰項。完整公式中,R 爲重複次數,N/U 爲模型參量與唯一數據量比值,P、δ、κ爲擬合常數。重複越多、模型越大,懲罰越重。核心發現是大模型對數據重複更敏感:同樣重複訓練 10 輪,5 億參數模型尚可承受,50 億參數模型性能則嚴重下降。工程上,加強權重衰減可顯著緩解過擬合。這也解釋了爲何 2025 到 2026 年,行業注意力集體轉向三條繞過數據牆的路徑:強化學習,如 DeepSeek R1、OpenAI o 系列,讓模型在可驗證任務上自我博弈;測試時計算,不增訓練成本,讓模型多'想'幾步;合成數據,用強模型生成新數據訓練下一代。這三條路徑的潛臺詞一致:純粹靠'堆規模'的冪律已不夠用。
Lilian Weng 的背景爲北大本科,印第安納大學伯明頓分校博士,研究方向爲網絡科學與複雜系統。她畢業後先任 Dropbox 數據科學家,後加入 Affirm,2018 年入職 OpenAI。其首個項目是機器人 Dactyl,耗時兩年學會解魔方,她是核心貢獻者。後轉組應用研究,GPT-4 發佈後組建 Safety Systems 團隊,離開時該團隊已有 80 多位專家。2024 年 8 月升任 VP of Research and Safety,三個月後離職。2017 年她開設個人博客 Lil'Log,初衷是整理筆記,堅持九年,涵蓋強化學習、擴散模型等,成爲 AI 領域引用最多的個人技術博客之一。2025 年 2 月,她與 Mira Murati 成立 Thinking Machines Lab,聯創包括 John Schulman、Barret Zoph 和 Luke Metz,獲 a16z 領投種子輪 20 億美元,估值 120 億。在公司高速推進之際,她仍耗時寫完這篇拖更三年的長文。ChatGPT、Claude、Gemini 等模型的下一代訓練,皆由這些公式決定。未來 AI 的優劣,不取決於誰的 GPU 更多,而取決於誰將這些細節處理得更精確。這是繼參數統計口徑之爭後,對 Scaling Laws 適用邊界的又一次深刻修正。