登錄
註冊
據 Woofun AI 消息,清華大學教授、上海人工智能實驗室主任周伯文團隊聯合合作者推出了跨學科基準 NatureBench,旨在系統評估 AI coding Agent 在 Nature 系列論文核心實驗中的復現與改進能力。該研究直指當前評測體系的盲區:現有標準多聚焦於論文復現或工程優化,卻缺乏對 AI 能否在真實科學設定下獨立改進方法並超越原論文 SOTA 的驗證。結果顯示,即便是表現最強的 Claude Opus 4.7 配合 Claude Code,也僅在 17.8% 的任務上實現 Surpass-SOTA,在 47.8% 的任務上達到或超過論文 SOTA,表明當前 AI 雖能接近人類成果,但穩定超越能力依然有限。NatureBench 包含 90 個真實科學任務,覆蓋 6 大領域,其核心創新在於將真實科學論文轉化爲可運行、可評分且可復現的容器化任務,徹底改變了科學任務評測的範式。爲了構建這一基準,研究團隊設計了自動化流程 NatureGym,這是一套將 Nature 系列已發表論文轉化爲可直接運行的 Agent 任務的流水線。NatureGym 將格式、工具鏈和數據模態各異的論文統一標準化爲同一可復現的任務格式,同時設置了一個信息防火牆,對原始方法保密,強制要求 Agent 自主發現解決方案而非直接復現。評估器、真實標籤與 SOTA 目標均駐留於宿主側評估服務中,Agent 無法直接訪問,從而確保了測試的公平性與真實性。具體構建流程分爲三個嚴密步驟:首先是篩選論文,團隊從 10 本 Nature 系列期刊中收集了 2022 到 2025 年約 5500 篇論文,剔除新聞、社論、綜述等非研究文章,再篩選出能轉成機器學習任務、評估可自動化、數據公開完整且不超過 50GB 的論文。其次是獲取代碼和數據並劃定任務起點,保證 Agent 只能從核心算法的輸入端開始,不能看到中間結果或最終結果。最後是將論文封裝成標準任務包,並通過 36 項自動化檢查,最終約 160 個任務包進入後續校準階段。任務包構建完成後,團隊進行了兩輪質量校準:Base 模式用於排查任務定義、評測和環境是否有問題;Reproduce 模式則讓 Agent 額外看到源論文,用來驗證任務包是否支持復現原方法。最終,NatureBench 定稿爲 90 個任務、333 個評估實例,覆蓋 6 本 Nature 系列期刊的多個研究方向,共涉及 81 種主要指標。爲統一比較不同任務的結果,研究團隊定義了歸一化相對差距 g,其中 g ≥ 0 表示達到或超過論文 SOTA,g > 0.1 則算作明確超越。每個任務給 Agent 留出 4 小時完成,並允許通過評估多次提交查看反饋。任務結束後,團隊使用 Claude Sonnet 4.6 做事後檢查,排除僞造輸出、反查答案以及利用反饋機制取巧等行爲。研究團隊共評測了 10 款 Agent 配置,覆蓋 Claude Code、Codex CLI 和 Gemini CLI 三種 harness,所有 Agent 均禁用 Web 搜索,以避免直接檢索源論文或數據集內容。
Woofun AI 整理數據顯示,在 10 款配置中,Claude Opus 4.7 + Claude Code 按整體 Surpass-SOTA 排名第一,Surpass-SOTA 爲 17.8%,Match-SOTA 爲 47.8%。在提交質量上,Claude Opus 的兩種配置最穩定,Completion Rate 和 Score Rate 均爲 100%,沒有無效提交;GPT-5.5 的 Score Rate 爲 98.9%,Completion Rate 爲 84.4%,還有 13 次提交被事後 judge 判定爲無效捷徑。從任務分佈看,關係推理的 Match-SOTA 率最高,達到 60.0%;蛋白質生物學和細胞組學分別爲 37.5% 和 35.5%;物理建模、分子設計和生物醫學建模則分別爲 26.9%、18.2% 和 17.9%。
此外,相比單學科任務,跨學科任務的 Match-SOTA 率和中位 g 都更低,75 個單學科任務的 Match-SOTA 率爲 33.1%,15 個跨學科任務爲 28.0%,中位 g 分別爲 -0.13 和 -0.21。研究團隊還對 900 次運行進行了路徑標註,在達到 Match-SOTA 的運行中,監督代理預測、搜索/調參、工程流水線和預訓練/擴展共計佔 82.7%。在未達到 Match-SOTA 或沒有有效分數的運行中,失敗更多出現在方法層和執行層,分別佔 61.1% 和 28.7%,其中錯誤方法選擇佔 45.1%,預算或時間不足佔 24.4%。具體案例進一步揭示了各模型的差異:在癌症基因識別任務中,Claude Opus 4.7 採用 ChebNet/GNN 集成方法,將 g 值從 -0.017 提升至 +0.177,達到 Match-SOTA 水平;在基因組序列預測任務中,GPT-5.5 共進行了 258 次提交,最佳 g 值爲 -0.141,仍低於 SOTA;在有機反應產物預測任務中,DeepSeek-V4-Pro 使用 Seq2Seq 反應建模方法,Top-1 準確率爲 58.5%,距離原任務 90.8% 的 SOTA 水平仍有明顯差距。
儘管 NatureBench 讓科學任務評測變得更可執行、更標準化,但研究團隊也指出該基準存在不足:首先,它只覆蓋能夠被抽象爲機器學習任務且可以自動評分的核心定量問題,溼實驗驗證、純理論推導、硬件或物理交互類研究,以及依賴人工判斷或外部服務評分的貢獻均未涉及。其次,部分任務並非完整復現整篇論文,而是抽取其中一個核心實驗進行評測,因此衡量的是 Agent 在具體任務上的表現,而非對原論文全部貢獻的完整評價。
此外,統一的 4 小時牆鍾預算和單卡設置也可能影響部分任務的完成度,部分失敗源於既定資源約束下的方法探索和執行不足。NatureBench 基於公開論文和公開數據構建,儘管通過禁用 Web 搜索、設置隱藏評測服務並使用 post-hoc judge 過濾投機式提交,但仍存在數據泄露隱患。最後,g 值本身也有解釋邊界,當論文 SOTA 已經接近指標上限時,普通性能差距可能被放大爲較大的負值,單一主指標也可能只覆蓋原論文多目標評估的一部分。未來研究方向包括擴大任務覆蓋範圍,從單個核心實驗走向更完整的論文復現;設計更細分的資源預算,區分短時、長時、單卡和多卡設置;改進評測判定方式,更清楚地區分理解錯誤、方法選擇錯誤、執行不足和資源受限帶來的失敗;引入更豐富的實驗實例和指標,讓評測結果更接近真實科研復現中的複雜度。這是繼通用大模型評測之後,針對科學垂直領域深度能力的一次關鍵性基準確立,標誌着 AI 科研輔助從'工具'向'獨立研究者'跨越的艱難起步。