登錄
註冊
據 Woofun AI 消息,Sakana AI 聯合日本 KPMG 及 Azsa 審計公司發佈 CoffeeBench 多智能體長週期經濟評估基準,相關論文已被 ICML 2026 研討會收錄。該基準構建包含種植、烘焙及零售環節的動態市場環境,模擬爲期 90 天的咖啡供應鏈運營,測試大型模型在多方博弈中的長期決策與財務管理能力。
評估結果顯示各模型商業行爲模式差異顯著。GPT-5.5 與 Claude Opus 4.7 採取積極溝通策略,通過協商價格擴大銷量;Gemini 3.1 Pro 表現爲被動響應;Kimi K2.6 雖工具使用頻繁,但因缺乏定價策略陷入高效率零利潤循環;Claude Haiku 4.5 雖具備完美策略,卻因執行階段反覆等待指令導致業務停滯並造成損失。研究指出,隨着模型長期規劃能力提升,未來需重點監管其可能產生的不正當經濟行爲。