>
正文
Sakana Fugu与Fable 5基准测试差异达10-20分
2026-06-26 17:33

Woofun AI 关注到,Sakana AI 开发的 Fugu Ultra 在多项基准测试中表现优于 Anthropic 的 Fable 5,但该对比结果引发业界质疑。批评者指出,非统一测试环境下的自我测试数据缺乏客观性,不同运行框架可能导致分数相差 10 到 20 分。

独立评估显示,基于大型模型构建的智能体运行框架对成绩影响显著。在相同的 Claude Opus 4.5 模型下,仅更换三种开源框架,SWE-bench Pro 得分波动范围即达 50.2% 至 55.4%。Scale AI 分析表明,提示模板、尝试次数限制等运营策略同样足以导致同模型权重下分数出现 10 到 20 分的差异。由于双方数据均基于各自优化的闭源框架得出,且未在 Scale SEAL 等标准化第三方环境中统一测试,现有数据无法准确反映模型实际实力。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
Fugu Ultra
Fable 5
Claude Opus 4.5
SWE-bench Pro
Scale SEAL
分享:
back