Sakana Fugu与Fable 5基准测试差异达10-20分

2026-06-26 17:33

Woofun AI 关注到，Sakana AI 开发的 Fugu Ultra 在多项基准测试中表现优于 Anthropic 的 Fable 5，但该对比结果引发业界质疑。批评者指出，非统一测试环境下的自我测试数据缺乏客观性，不同运行框架可能导致分数相差 10 到 20 分。

独立评估显示，基于大型模型构建的智能体运行框架对成绩影响显著。在相同的 Claude Opus 4.5 模型下，仅更换三种开源框架，SWE-bench Pro 得分波动范围即达 50.2% 至 55.4%。Scale AI 分析表明，提示模板、尝试次数限制等运营策略同样足以导致同模型权重下分数出现 10 到 20 分的差异。由于双方数据均基于各自优化的闭源框架得出，且未在 Scale SEAL 等标准化第三方环境中统一测试，现有数据无法准确反映模型实际实力。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

热门资讯

35000枚ETH换15%股权：Kraken 豪赌 Aave 背后的 IPO 野心

提款停滞引担忧：AscendEX 储备结构存疑

月流150亿：凯西伍德押注真实美股上链

1.5 亿现金换 2.5 万比特币：微策略与 BSTR 的 OTC 豪赌

沉睡八年巨鲸苏醒：抛售三万枚 ETH 套现两千七百万

从鄙视到拥抱：稳定币如何撬动万亿机构市场

以太坊架构重构：12 秒确认与万亿级吞吐的终极博弈

比特币跌破6万引发6.96亿美元单日巨幅流出

HBM 增速超 40% 却难敌产能瓶颈，五年短缺难解

前 Celsius 高管关联钱包抛售 1.76 万 ETH