登录
注册
据 Woofun AI 消息,Sakana AI 联合日本 KPMG 及 Azsa 审计公司发布 CoffeeBench 多智能体长周期经济评估基准,相关论文已被 ICML 2026 研讨会收录。该基准构建包含种植、烘焙及零售环节的动态市场环境,模拟为期 90 天的咖啡供应链运营,测试大型模型在多方博弈中的长期决策与财务管理能力。
评估结果显示各模型商业行为模式差异显著。GPT-5.5 与 Claude Opus 4.7 采取积极沟通策略,通过协商价格扩大销量;Gemini 3.1 Pro 表现为被动响应;Kimi K2.6 虽工具使用频繁,但因缺乏定价策略陷入高效率零利润循环;Claude Haiku 4.5 虽具备完美策略,却因执行阶段反复等待指令导致业务停滞并造成损失。研究指出,随着模型长期规划能力提升,未来需重点监管其可能产生的不正当经济行为。