Sakana Fugu與Fable 5基準測試差異達10-20分

2026-06-26 17:33

Woofun AI 關注到，Sakana AI 開發的 Fugu Ultra 在多項基準測試中表現優於 Anthropic 的 Fable 5，但該對比結果引發業界質疑。批評者指出，非統一測試環境下的自我測試數據缺乏客觀性，不同運行框架可能導致分數相差 10 到 20 分。

獨立評估顯示，基於大型模型構建的智能體運行框架對成績影響顯著。在相同的 Claude Opus 4.5 模型下，僅更換三種開源框架，SWE-bench Pro 得分波動範圍即達 50.2% 至 55.4%。Scale AI 分析表明，提示模板、嘗試次數限制等運營策略同樣足以導致同模型權重下分數出現 10 到 20 分的差異。由於雙方數據均基於各自優化的閉源框架得出，且未在 Scale SEAL 等標準化第三方環境中統一測試，現有數據無法準確反映模型實際實力。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

熱門資訊

35000枚ETH換15%股權：Kraken 豪賭 Aave 背後的 IPO 野心

提款停滯引擔憂：AscendEX 儲備結構存疑

月流150億：凱西伍德押注真實美股上鍊

1.5 億現金換 2.5 萬比特幣：微策略與 BSTR 的 OTC 豪賭

沉睡八年巨鯨甦醒：拋售三萬枚 ETH 套現兩千七百萬

從鄙視到擁抱：穩定幣如何撬動萬億機構市場

以太坊架構重構：12 秒確認與萬億級吞吐的終極博弈

比特幣跌破6萬引發6.96億美元單日巨幅流出

HBM 增速超 40% 卻難敵產能瓶頸，五年短缺難解

前 Celsius 高管關聯錢包拋售 1.76 萬 ETH