CoffeeBench基準測試顯示GPT-5.5商業決策能力領先

2026-06-26 15:58

據 Woofun AI 消息，Sakana AI 聯合日本 KPMG 及 Azsa 審計公司發佈 CoffeeBench 多智能體長週期經濟評估基準，相關論文已被 ICML 2026 研討會收錄。該基準構建包含種植、烘焙及零售環節的動態市場環境，模擬爲期 90 天的咖啡供應鏈運營，測試大型模型在多方博弈中的長期決策與財務管理能力。

評估結果顯示各模型商業行爲模式差異顯著。GPT-5.5 與 Claude Opus 4.7 採取積極溝通策略，通過協商價格擴大銷量；Gemini 3.1 Pro 表現爲被動響應；Kimi K2.6 雖工具使用頻繁，但因缺乏定價策略陷入高效率零利潤循環；Claude Haiku 4.5 雖具備完美策略，卻因執行階段反覆等待指令導致業務停滯並造成損失。研究指出，隨着模型長期規劃能力提升，未來需重點監管其可能產生的不正當經濟行爲。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

熱門資訊

比特幣跌破6萬引發6.96億美元單日巨幅流出

HBM 增速超 40% 卻難敵產能瓶頸，五年短缺難解

囤幣四萬枚股價卻腰斬：融資陷阱

前 Celsius 高管關聯錢包拋售 1.76 萬 ETH

日活不足卻月利過億？以太坊擬效仿比特幣減半

前端注入盜走2.94萬美元：預測市場安全防線再遭突破

3.5 萬 ETH 換 15% 股權？Kraken 借 Aave 佈局 IPO

韓元外流千億美元，巨頭搶跑穩定幣與RWA

希臘拒批後幣安撤申請：監管套利時代終結

DeFi 損失激增 9.42 億：AI 讓黑客攻擊成本歸零