登錄
註冊
人工智能領域正逼近一個關鍵的轉折點,Anthropic 聯合創始人傑克·克拉克(Jack Clark)在最新分析中提出,到 2028 年底,人工智能系統在沒有人類干預的情況下實現自我演進的概率可能超過 60%。這一判斷並非空穴來風,而是基於對大量公開數據的深度梳理。午方 AI 梳理發現,在 CORE-Bench、PostTrainBench、MLE-Bench 及 SWE-Bench 等關鍵基準測試中,AI 模型在復現研究論文、自主微調開源模型、解決 Kaggle 競賽任務以及修復 GitHub 代碼庫等核心研發環節的表現呈指數級上升。克拉克將這種跨越不同層級和範圍的進步描述爲“分形式”上升趨勢,預示着端到端自動化研發能力的臨近。一旦實現,AI 將能夠自主構建後續系統,開啓自我迭代的閉環。這一觀點在學術界與業界引發了激烈討論,華盛頓大學計算機科學教授佩德羅·多明戈斯(Pedro Domingos)指出,雖然自 20 世紀 50 年代 LISP 語言誕生以來 AI 已具備“自我構建”雛形,但關鍵在於這種能力是否能帶來邊際收益的持續增長,目前尚缺乏確鑿證據。
同時,也有聲音質疑爲何從 2027 年到 2028 年概率會突然激增 30%,這是否意味着 2027 年底前將出現顛覆性技術突破。
此外,鑑於克拉克現任 Anthropic 公關負責人的身份,部分觀察者認爲這可能是公司新戰略的一部分,旨在通過引用大量文獻來強化其長期以來的風險預警。克拉克在《Import AI 455》專欄中詳細闡述了這一“不受歡迎的判斷”,承認完全理解其深遠影響極具挑戰性,但他堅信人類正處於一個特殊時刻:AI 研究即將步入全面自動化階段,一旦跨越這條分界線,未來將變得難以預測。克拉克明確表示,雖然 2026 年實現全面自動化尚不現實,但在未來一兩年內,非最先進模型層面出現端到端訓練後續系統的概念驗證案例可能性極高;而對於最先進模型,受限於高昂的計算成本和複雜的人類協作需求,挑戰依然巨大。午方 AI 注意到,克拉克的結論主要基於 arXiv、bioRxiv 和 NBER 上的論文以及領先 AI 公司的產品驗證,他認爲當前 AI 開發中的工程環節自動化已基本就緒。若此趨勢延續,未來模型將具備足夠的創造力,不僅能自動改進現有方法,甚至可能取代人類研究人員提出原創性方向。軟件即代碼,而 AI 正在重塑代碼編寫方式。一方面,AI 在編寫複雜應用代碼上日益熟練;另一方面,它能在極少監督下串聯線性編碼任務,如編寫代碼後自動測試。SWE-Bench 數據極具說服力:2023 年底表現最佳的 Claude 2 整體成功率僅約 2%,而 Claude Mythos Preview 已飆升至 93.9%,幾乎攻克該基準。儘管基準測試存在誤差(如 ImageNet 驗證集中約 6% 標籤錯誤),但 SWE-Bench 仍被視爲衡量 AI 通用編程能力及對軟件工程影響的關鍵指標。克拉克指出,硅谷前沿實驗室的工程師和研究人員已普遍使用 AI 編寫代碼、測試用例及檢查代碼,這顯著加速了研發進程。METR 創建的圖表進一步量化了 AI 任務複雜度的演變,以人類完成同類任務所需小時數爲標尺。2022 年 GPT-3.5 對應 30 秒任務,2023 年 GPT-4 對應 4 分鐘,2024 年 o1 對應 40 分鐘,2025 年 GPT-5.2 High 對應 6 小時,至 2026 年 Opus 4.6 已能處理約 12 小時的任務。長期專注 AI 預測的阿杰亞·科特拉(Ajeya Cotra)認爲,到 2026 年底,AI 獨立完成需人類 100 小時的任務並非不切實際。這種時間跨度的顯著增長與代理編碼工具的興起密切相關,這些工具能代表人類長時間獨立執行任務,重新定義了 AI 研發的內涵。許多原本需數小時的數據清洗、讀取及實驗啓動等任務,現已落入現代 AI 系統的處理能力範圍內。隨着 AI 成熟度提升,其能獨立承擔的工作量增加,進而推動研發流程更多環節的自動化。這種自動化依賴於對 AI 能力的信任及其獨立完成任務的可靠性,無需人類持續監督。午方 AI 分析認爲,隨着 AI 編程能力與世界建模能力的雙重提升,一套完整的工具鏈已出現,助力科學家在更廣泛場景中加速研究並實現部分自動化,包括復現研究結果、結合機器學習解決技術問題以及優化 AI 系統本身。在復現研究結果這一核心任務上,CORE-Bench(計算可復現性代理基準測試)要求 AI 安裝依賴、運行代碼並回答相關問題。2024 年 9 月推出時,GPT-4o 在最具挑戰任務集上得分約 21.5%;而到 2025 年 12 月,Opus 4.5 已以 95.5 分的成績宣告該基準被攻破。OpenAI 開發的 MLE-Bench 則評估 AI 在離線環境下參加 Kaggle 競賽的能力,涵蓋 75 種任務。2024 年 10 月發佈時最佳系統 o1 得分 16.9%,至 2026 年 2 月,Gemini 3 在具備搜索功能的代理框架下得分達 64.4%。核函數優化作爲決定訓練與推理效率的關鍵環節,正成爲 AI 驅動研發的熱點。從 DeepSeek 模型設計 GPU 核函數,到 PyTorch 轉 CUDA 代碼,再到利用大語言模型生成優化的 Triton 核函數,相關研究層出不窮。PostTrainBench 則更具挑戰性,評估先進模型能否接管小型開放權重模型並通過微調提升性能。2026 年 3 月,AI 系統在後訓練任務中性能較人類訓練結果提升約 50%,涉及 Qwen 3、SmolLM3、Gemma 3 等多個模型及 AIME 2025、HumanEval 等基準測試。Anthropic 過去一年的數據同樣驚人:在僅用 CPU 訓練小語言模型的任務中,Claude Opus 4 於 2025 年 5 月實現 2.9 倍加速,Opus 4.5 在 2025 年 11 月達 16.5 倍,Opus 4.6 在 2026 年 2 月達 30 倍,而 Claude Mythos Preview 在 2026 年 4 月更是達到 52 倍。相比之下,人類研究人員通常需 4 至 8 小時努力才能實現 4 倍加速。
此外,AI 系統已開始學習管理其他 AI 系統,如 Claude Code 和 OpenCode 等產品中,主代理可協調多個子代理處理大型項目。儘管克拉克認爲目前 AI 尚無法產生真正革命性的新想法,但他強調,實現研發自動化未必需要這種創新能力,因爲 AI 領域的發展在很大程度上依賴於規模日益擴大的實驗以及數據與計算資源的投入。