>
正文
Sakana Fugu與Fable 5基準測試差異達10-20分
2026-06-26 17:33

Woofun AI 關注到,Sakana AI 開發的 Fugu Ultra 在多項基準測試中表現優於 Anthropic 的 Fable 5,但該對比結果引發業界質疑。批評者指出,非統一測試環境下的自我測試數據缺乏客觀性,不同運行框架可能導致分數相差 10 到 20 分。

獨立評估顯示,基於大型模型構建的智能體運行框架對成績影響顯著。在相同的 Claude Opus 4.5 模型下,僅更換三種開源框架,SWE-bench Pro 得分波動範圍即達 50.2% 至 55.4%。Scale AI 分析表明,提示模板、嘗試次數限制等運營策略同樣足以導致同模型權重下分數出現 10 到 20 分的差異。由於雙方數據均基於各自優化的閉源框架得出,且未在 Scale SEAL 等標準化第三方環境中統一測試,現有數據無法準確反映模型實際實力。

免責聲明:本內容為作者獨立觀點,不代表平臺立場。未經允許不得轉載,文中內容僅供參考,不作為實際操作建議,交易風險自擔。
標簽:
Fugu Ultra
Fable 5
Claude Opus 4.5
SWE-bench Pro
Scale SEAL
分享:
back