登錄
註冊
自主 AI Agent 正以前所未有的速度滲透醫療、金融及企業核心運營環節,然而一項由斯坦福大學、MIT CSAIL、卡內基梅隆大學、ITU 哥本哈根及 NVIDIA 聯合開展的迄今最大規模安全研究卻揭示了令人震驚的真相:絕大多數在生產環境運行的 Agent 存在嚴重安全漏洞,而當前主流的安全評估手段對此幾乎束手無策。午方 AI 梳理發現,在評估的 847 個自主智能體生產部署中,高達 91% 存在工具鏈攻擊漏洞,89.4% 在執行約 30 步後出現目標偏移,更有 94% 的記憶增強型智能體面臨「投毒」風險。研究團隊共挖掘出 2,347 個此前未知的漏洞,其中 23% 被評定爲嚴重級別,這標誌着 AI 安全威脅已從理論推演徹底走向現實。論文第一作者 Owen Sakawa 援引 2026 年初爆發的「OpenClaw/Moltbook 事件」作爲鐵證:Moltbook 平臺數據庫中的單一漏洞,導致平臺上 77 萬個運行中的 AI Agent 同時遭到攻陷,每個 Agent 均持有對其用戶設備、電子郵件及文件的特權訪問權限,Sakawa 強調這不再是假設性威脅。這對正加速佈局 AI Agent 的企業和投資者構成直接警示,因爲當前主流安全評估框架均基於無狀態語言模型設計,無法識別多步驟執行中湧現的組合性漏洞,意味着大量企業可能正在對自身 AI Agent 的真實安全狀況存在系統性誤判。美國認知心理學和 AI 領域專家 Gary Marcus 對此評論稱,自主代理 Agents 簡直一團糟。
研究覆蓋醫療、金融、客戶服務及代碼生成四大行業,其中醫療領域佔比最高,達 289 個部署(34.1%),金融領域緊隨其後,爲 247 個(29.2%)。研究建立了一套針對自主智能體的六類漏洞分類體系,包括目標漂移與指令衰減、規劃器 - 執行器去同步、工具權限提升、記憶投毒、靜默多步驟策略違規以及委託失敗。在生產環境評估中,狀態操縱以 612 個實例居首,佔總量 26.1%,目標漂移以 573 個實例(24.4%)緊隨其後。工具誤用與鏈式調用雖在總量上以 489 個實例排名第三,但其嚴重性最高,其中 198 個實例被評爲嚴重級,在所有類別中佔比最高。更廣泛的關鍵數字同樣觸目驚心:67% 的智能體在執行 15 步後出現目標漂移,84% 無法跨會話維持安全策略,73% 缺乏狀態投毒檢測機制,58% 存在時序一致性漏洞。研究還發現,記憶投毒的效果平均在初次注入後 3.7 個會話才顯現,這大幅增加了安全檢測的難度。
OpenClaw 案例爲上述威脅模型提供了迄今最直觀的現實驗證。這款由奧地利開發者 Peter Steinberger 於 2025 年 11 月發佈的開源 AI Agent,數週內積累逾 16 萬個 GitHub 星標,具備自主發送電子郵件、管理日程、執行終端命令及部署代碼的能力,並可跨會話保持持久記憶。安全公司 Astrix Security 通過自研掃描工具 ClawdHunter 發現,公開網絡上存在 42,665 個 OpenClaw 實例,其中 8 個完全開放且未經任何身份驗證。午方 AI 注意到,Cisco 的 AI 安全研究團隊將 OpenClaw 描述爲「從能力角度看具有突破性,但從安全角度看是徹頭徹尾的噩夢」,卡巴斯基在 2026 年 1 月的安全審計中識別出 512 個漏洞,其中 8 個爲嚴重級別。Moltbook 事件的發生過程尤爲典型,這一專爲 OpenClaw Agent 打造的社交平臺通過病毒式傳播吸引了逾 77 萬個 Agent 註冊,用戶將 Moltbook 告知自己的 Agent,Agent 隨即自主完成註冊。此後,平臺數據庫漏洞使攻擊者得以繞過身份驗證,向任意 Agent 會話直接注入指令,全部 77 萬個 Agent 同時陷入風險敞口,研究團隊將此定性爲迄今首起有記錄的大規模跨 Agent 攻擊傳播事件。
安全研究員 Simon Willison 所稱的「致命三角」在 OpenClaw 身上得到完整體現:訪問私密數據的能力、接觸不可信內容的暴露面,以及對外通信的渠道,三者疊加使自主智能體成爲攻擊者的理想跳板。研究的核心論斷是,自主智能體與無狀態語言模型的安全挑戰在性質上截然不同。針對語言模型的安全評估聚焦於「能否讓模型說出不安全的內容」;而對 AI Agent 而言,問題變爲「能否讓模型做出不安全的事」,包括具有現實效果的工具調用、影響未來行爲的狀態修改,以及跨多步驟才顯現違規的計劃執行。研究以具體場景說明這一邏輯:一個同時具備文件讀取和 HTTP 請求權限的 Agent,每項工具的訪問控制決策在孤立評估時均合規,但二者組合卻可實現數據竊取,從配置文件讀取憑證,再通過 HTTP 請求將其發送至外部端點。每一步均滿足本地安全策略,整體卻完成了對抗性目標,研究將這一現象稱爲「組合安全」問題。
在受控架構研究中,研究人員測試了 ReAct 智能體、多智能體系統、記憶增強型智能體及工具使用型智能體四類主流架構。結果顯示,針對工具使用型智能體的權限提升攻擊成功率高達 95%,針對記憶增強型智能體的投毒攻擊成功率爲 94%。即便是抗禦能力最強的多智能體系統,針對目標漂移的攻擊成功率也達 58%,研究人員據此判斷,當前所有已測試架構均不具備抵禦對抗性部署的充分能力。自適應攻擊生成測試的結果進一步加劇擔憂:基於強化學習生成的攻擊違規率達 79%,相比人工設計場景的 63% 提升了 25.4%,表明 AI Agent 面臨的威脅空間正超出人類紅隊測試的覆蓋邊界。午方 AI 分析認爲,隨着歐盟《人工智能法案》、美國 NIST AI 風險管理框架等監管要求的落地,企業面臨的合規壓力與安全風險將同步上升,在 AI Agent 被廣泛部署於高風險業務場景的背景下,安全基礎設施的缺位,正成爲這一輪 AI 商業化浪潮中不可忽視的系統性風險。
針對上述嚴峻形勢,研究團隊依據實證結果提出了最低安全基線:所有生產 Agent 強制部署運行時監控;對涉及數據訪問後對外通信的工具鏈操作設置人工審批門檻;每執行 20 至 25 步應強制觸發人工審查,以應對步驟超出後幾乎必然出現的目標偏移;記憶增強型 Agent 須對持久化狀態進行加密完整性校驗。在監控效果層面,研究顯示行動級監控精確率可達 0.94,序列級監控 F1 分數爲 0.85,狀態級監控 F1 分數爲 0.83。在對 127 個生產 Agent 進行 30 天運行時監控的測試中,系統在攔截 4782 次操作的同時,誤報率控制在 3.7%,其中 14.6% 的被標記操作被確認爲真實攻擊。研究還指出,當前「AI 治理」方法存在根本性錯位:現有框架多爲事後審計,而非在執行環節實時執行合規約束。隨着監管要求的落地,企業若不能及時構建適應 Agent 特性的實時防禦體系,將面臨巨大的合規與安全風險。