>
正文
CoffeeBench基准测试显示GPT-5.5商业决策能力领先
2026-06-26 15:58

据 Woofun AI 消息,Sakana AI 联合日本 KPMG 及 Azsa 审计公司发布 CoffeeBench 多智能体长周期经济评估基准,相关论文已被 ICML 2026 研讨会收录。该基准构建包含种植、烘焙及零售环节的动态市场环境,模拟为期 90 天的咖啡供应链运营,测试大型模型在多方博弈中的长期决策与财务管理能力。

评估结果显示各模型商业行为模式差异显著。GPT-5.5 与 Claude Opus 4.7 采取积极沟通策略,通过协商价格扩大销量;Gemini 3.1 Pro 表现为被动响应;Kimi K2.6 虽工具使用频繁,但因缺乏定价策略陷入高效率零利润循环;Claude Haiku 4.5 虽具备完美策略,却因执行阶段反复等待指令导致业务停滞并造成损失。研究指出,随着模型长期规划能力提升,未来需重点监管其可能产生的不正当经济行为。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
Sakana AI
CoffeeBench
GPT-5.5
Claude Opus 4.7
Gemini 3.1 Pro
Kimi K2.6
Claude Haiku 4.5
KPMG Japan
Azsa Audit Firm
分享:
back