登录
注册
午方 AI 梳理数据显示,评估机构 Artificial Analysis 重构了 AI 智能指数评价体系,摒弃单纯的选择题测试,转而聚焦于自主规划、工具调用及复杂任务完成能力。新版指标核心在于量化任务执行的时间与费用,其中真实世界知识测试 GDPval-AA 权重提升至 20%,并将单次对话长度限制扩展至 250 字。
在最新榜单中,已下线的 Claude Fable 5 以 60 分领跑,而当前可用的 Claude Opus 4.8 以 56 分位居市场第一,略高于 GPT-5.5 的 55 分。国产模型表现强劲,开源模型 DeepSeek V4 Pro 与 MiniMax M3 同获 44 分,Kimi K2.6 紧随其后得 43 分。成本方面呈现巨大鸿沟:完成同一任务,Claude Opus 4.8 需耗费 1.78 美元,而 DeepSeek V4 Pro 仅需 0.04 美元,前者成本为后者的 44 倍。效率上,xAI Grok 4.3 以 1.5 分钟最快完成,最慢的 Claude Sonnet 4.6 则耗时 13.5 分钟。