CoffeeBench基准测试显示GPT-5.5商业决策能力领先

2026-06-26 15:58

据 Woofun AI 消息，Sakana AI 联合日本 KPMG 及 Azsa 审计公司发布 CoffeeBench 多智能体长周期经济评估基准，相关论文已被 ICML 2026 研讨会收录。该基准构建包含种植、烘焙及零售环节的动态市场环境，模拟为期 90 天的咖啡供应链运营，测试大型模型在多方博弈中的长期决策与财务管理能力。

评估结果显示各模型商业行为模式差异显著。GPT-5.5 与 Claude Opus 4.7 采取积极沟通策略，通过协商价格扩大销量；Gemini 3.1 Pro 表现为被动响应；Kimi K2.6 虽工具使用频繁，但因缺乏定价策略陷入高效率零利润循环；Claude Haiku 4.5 虽具备完美策略，却因执行阶段反复等待指令导致业务停滞并造成损失。研究指出，随着模型长期规划能力提升，未来需重点监管其可能产生的不正当经济行为。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

热门资讯

比特币跌破6万引发6.96亿美元单日巨幅流出

HBM 增速超 40% 却难敌产能瓶颈，五年短缺难解

日活不足却月利过亿？以太坊拟效仿比特币减半

囤币四万枚股价却腰斩：融资陷阱

前 Celsius 高管关联钱包抛售 1.76 万 ETH

前端注入盗走2.94万美元：预测市场安全防线再遭突破

3.5 万 ETH 换 15% 股权？Kraken 借 Aave 布局 IPO

韩元外流千亿美元，巨头抢跑稳定币与RWA

希腊拒批后币安撤申请：监管套利时代终结

DeFi 损失激增 9.42 亿：AI 让黑客攻击成本归零