登錄
註冊
Woofun AI 關注到,Sakana AI 開發的 Fugu Ultra 在多項基準測試中表現優於 Anthropic 的 Fable 5,但該對比結果引發業界質疑。批評者指出,非統一測試環境下的自我測試數據缺乏客觀性,不同運行框架可能導致分數相差 10 到 20 分。
獨立評估顯示,基於大型模型構建的智能體運行框架對成績影響顯著。在相同的 Claude Opus 4.5 模型下,僅更換三種開源框架,SWE-bench Pro 得分波動範圍即達 50.2% 至 55.4%。Scale AI 分析表明,提示模板、嘗試次數限制等運營策略同樣足以導致同模型權重下分數出現 10 到 20 分的差異。由於雙方數據均基於各自優化的閉源框架得出,且未在 Scale SEAL 等標準化第三方環境中統一測試,現有數據無法準確反映模型實際實力。