登录
注册
据 Woofun AI 消息,清华大学教授、上海人工智能实验室主任周伯文团队联合合作者推出了跨学科基准 NatureBench,旨在系统评估 AI coding Agent 在 Nature 系列论文核心实验中的复现与改进能力。该研究直指当前评测体系的盲区:现有标准多聚焦于论文复现或工程优化,却缺乏对 AI 能否在真实科学设定下独立改进方法并超越原论文 SOTA 的验证。结果显示,即便是表现最强的 Claude Opus 4.7 配合 Claude Code,也仅在 17.8% 的任务上实现 Surpass-SOTA,在 47.8% 的任务上达到或超过论文 SOTA,表明当前 AI 虽能接近人类成果,但稳定超越能力依然有限。NatureBench 包含 90 个真实科学任务,覆盖 6 大领域,其核心创新在于将真实科学论文转化为可运行、可评分且可复现的容器化任务,彻底改变了科学任务评测的范式。为了构建这一基准,研究团队设计了自动化流程 NatureGym,这是一套将 Nature 系列已发表论文转化为可直接运行的 Agent 任务的流水线。NatureGym 将格式、工具链和数据模态各异的论文统一标准化为同一可复现的任务格式,同时设置了一个信息防火墙,对原始方法保密,强制要求 Agent 自主发现解决方案而非直接复现。评估器、真实标签与 SOTA 目标均驻留于宿主侧评估服务中,Agent 无法直接访问,从而确保了测试的公平性与真实性。具体构建流程分为三个严密步骤:首先是筛选论文,团队从 10 本 Nature 系列期刊中收集了 2022 到 2025 年约 5500 篇论文,剔除新闻、社论、综述等非研究文章,再筛选出能转成机器学习任务、评估可自动化、数据公开完整且不超过 50GB 的论文。其次是获取代码和数据并划定任务起点,保证 Agent 只能从核心算法的输入端开始,不能看到中间结果或最终结果。最后是将论文封装成标准任务包,并通过 36 项自动化检查,最终约 160 个任务包进入后续校准阶段。任务包构建完成后,团队进行了两轮质量校准:Base 模式用于排查任务定义、评测和环境是否有问题;Reproduce 模式则让 Agent 额外看到源论文,用来验证任务包是否支持复现原方法。最终,NatureBench 定稿为 90 个任务、333 个评估实例,覆盖 6 本 Nature 系列期刊的多个研究方向,共涉及 81 种主要指标。为统一比较不同任务的结果,研究团队定义了归一化相对差距 g,其中 g ≥ 0 表示达到或超过论文 SOTA,g > 0.1 则算作明确超越。每个任务给 Agent 留出 4 小时完成,并允许通过评估多次提交查看反馈。任务结束后,团队使用 Claude Sonnet 4.6 做事后检查,排除伪造输出、反查答案以及利用反馈机制取巧等行为。研究团队共评测了 10 款 Agent 配置,覆盖 Claude Code、Codex CLI 和 Gemini CLI 三种 harness,所有 Agent 均禁用 Web 搜索,以避免直接检索源论文或数据集内容。
Woofun AI 整理数据显示,在 10 款配置中,Claude Opus 4.7 + Claude Code 按整体 Surpass-SOTA 排名第一,Surpass-SOTA 为 17.8%,Match-SOTA 为 47.8%。在提交质量上,Claude Opus 的两种配置最稳定,Completion Rate 和 Score Rate 均为 100%,没有无效提交;GPT-5.5 的 Score Rate 为 98.9%,Completion Rate 为 84.4%,还有 13 次提交被事后 judge 判定为无效捷径。从任务分布看,关系推理的 Match-SOTA 率最高,达到 60.0%;蛋白质生物学和细胞组学分别为 37.5% 和 35.5%;物理建模、分子设计和生物医学建模则分别为 26.9%、18.2% 和 17.9%。
此外,相比单学科任务,跨学科任务的 Match-SOTA 率和中位 g 都更低,75 个单学科任务的 Match-SOTA 率为 33.1%,15 个跨学科任务为 28.0%,中位 g 分别为 -0.13 和 -0.21。研究团队还对 900 次运行进行了路径标注,在达到 Match-SOTA 的运行中,监督代理预测、搜索/调参、工程流水线和预训练/扩展共计占 82.7%。在未达到 Match-SOTA 或没有有效分数的运行中,失败更多出现在方法层和执行层,分别占 61.1% 和 28.7%,其中错误方法选择占 45.1%,预算或时间不足占 24.4%。具体案例进一步揭示了各模型的差异:在癌症基因识别任务中,Claude Opus 4.7 采用 ChebNet/GNN 集成方法,将 g 值从 -0.017 提升至 +0.177,达到 Match-SOTA 水平;在基因组序列预测任务中,GPT-5.5 共进行了 258 次提交,最佳 g 值为 -0.141,仍低于 SOTA;在有机反应产物预测任务中,DeepSeek-V4-Pro 使用 Seq2Seq 反应建模方法,Top-1 准确率为 58.5%,距离原任务 90.8% 的 SOTA 水平仍有明显差距。
尽管 NatureBench 让科学任务评测变得更可执行、更标准化,但研究团队也指出该基准存在不足:首先,它只覆盖能够被抽象为机器学习任务且可以自动评分的核心定量问题,湿实验验证、纯理论推导、硬件或物理交互类研究,以及依赖人工判断或外部服务评分的贡献均未涉及。其次,部分任务并非完整复现整篇论文,而是抽取其中一个核心实验进行评测,因此衡量的是 Agent 在具体任务上的表现,而非对原论文全部贡献的完整评价。
此外,统一的 4 小时墙钟预算和单卡设置也可能影响部分任务的完成度,部分失败源于既定资源约束下的方法探索和执行不足。NatureBench 基于公开论文和公开数据构建,尽管通过禁用 Web 搜索、设置隐藏评测服务并使用 post-hoc judge 过滤投机式提交,但仍存在数据泄露隐患。最后,g 值本身也有解释边界,当论文 SOTA 已经接近指标上限时,普通性能差距可能被放大为较大的负值,单一主指标也可能只覆盖原论文多目标评估的一部分。未来研究方向包括扩大任务覆盖范围,从单个核心实验走向更完整的论文复现;设计更细分的资源预算,区分短时、长时、单卡和多卡设置;改进评测判定方式,更清楚地区分理解错误、方法选择错误、执行不足和资源受限带来的失败;引入更丰富的实验实例和指标,让评测结果更接近真实科研复现中的复杂度。这是继通用大模型评测之后,针对科学垂直领域深度能力的一次关键性基准确立,标志着 AI 科研辅助从'工具'向'独立研究者'跨越的艰难起步。