登录
注册
Woofun AI 关注到,Sakana AI 开发的 Fugu Ultra 在多项基准测试中表现优于 Anthropic 的 Fable 5,但该对比结果引发业界质疑。批评者指出,非统一测试环境下的自我测试数据缺乏客观性,不同运行框架可能导致分数相差 10 到 20 分。
独立评估显示,基于大型模型构建的智能体运行框架对成绩影响显著。在相同的 Claude Opus 4.5 模型下,仅更换三种开源框架,SWE-bench Pro 得分波动范围即达 50.2% 至 55.4%。Scale AI 分析表明,提示模板、尝试次数限制等运营策略同样足以导致同模型权重下分数出现 10 到 20 分的差异。由于双方数据均基于各自优化的闭源框架得出,且未在 Scale SEAL 等标准化第三方环境中统一测试,现有数据无法准确反映模型实际实力。