91% 存漏洞 94% 可投毒：AI Agent 安全評估全面失效

2026-05-06 16:01

自主 AI Agent 正以前所未有的速度滲透醫療、金融及企業核心運營環節，然而一項由斯坦福大學、MIT CSAIL、卡內基梅隆大學、ITU 哥本哈根及 NVIDIA 聯合開展的迄今最大規模安全研究卻揭示了令人震驚的真相：絕大多數在生產環境運行的 Agent 存在嚴重安全漏洞，而當前主流的安全評估手段對此幾乎束手無策。午方 AI 梳理發現，在評估的 847 個自主智能體生產部署中，高達 91% 存在工具鏈攻擊漏洞，89.4% 在執行約 30 步後出現目標偏移，更有 94% 的記憶增強型智能體面臨「投毒」風險。研究團隊共挖掘出 2,347 個此前未知的漏洞，其中 23% 被評定爲嚴重級別，這標誌着 AI 安全威脅已從理論推演徹底走向現實。論文第一作者 Owen Sakawa 援引 2026 年初爆發的「OpenClaw/Moltbook 事件」作爲鐵證：Moltbook 平臺數據庫中的單一漏洞，導致平臺上 77 萬個運行中的 AI Agent 同時遭到攻陷，每個 Agent 均持有對其用戶設備、電子郵件及文件的特權訪問權限，Sakawa 強調這不再是假設性威脅。這對正加速佈局 AI Agent 的企業和投資者構成直接警示，因爲當前主流安全評估框架均基於無狀態語言模型設計，無法識別多步驟執行中湧現的組合性漏洞，意味着大量企業可能正在對自身 AI Agent 的真實安全狀況存在系統性誤判。美國認知心理學和 AI 領域專家 Gary Marcus 對此評論稱，自主代理 Agents 簡直一團糟。

研究覆蓋醫療、金融、客戶服務及代碼生成四大行業，其中醫療領域佔比最高，達 289 個部署（34.1%），金融領域緊隨其後，爲 247 個（29.2%）。研究建立了一套針對自主智能體的六類漏洞分類體系，包括目標漂移與指令衰減、規劃器 - 執行器去同步、工具權限提升、記憶投毒、靜默多步驟策略違規以及委託失敗。在生產環境評估中，狀態操縱以 612 個實例居首，佔總量 26.1%，目標漂移以 573 個實例（24.4%）緊隨其後。工具誤用與鏈式調用雖在總量上以 489 個實例排名第三，但其嚴重性最高，其中 198 個實例被評爲嚴重級，在所有類別中佔比最高。更廣泛的關鍵數字同樣觸目驚心：67% 的智能體在執行 15 步後出現目標漂移，84% 無法跨會話維持安全策略，73% 缺乏狀態投毒檢測機制，58% 存在時序一致性漏洞。研究還發現，記憶投毒的效果平均在初次注入後 3.7 個會話才顯現，這大幅增加了安全檢測的難度。

OpenClaw 案例爲上述威脅模型提供了迄今最直觀的現實驗證。這款由奧地利開發者 Peter Steinberger 於 2025 年 11 月發佈的開源 AI Agent，數週內積累逾 16 萬個 GitHub 星標，具備自主發送電子郵件、管理日程、執行終端命令及部署代碼的能力，並可跨會話保持持久記憶。安全公司 Astrix Security 通過自研掃描工具 ClawdHunter 發現，公開網絡上存在 42,665 個 OpenClaw 實例，其中 8 個完全開放且未經任何身份驗證。午方 AI 注意到，Cisco 的 AI 安全研究團隊將 OpenClaw 描述爲「從能力角度看具有突破性，但從安全角度看是徹頭徹尾的噩夢」，卡巴斯基在 2026 年 1 月的安全審計中識別出 512 個漏洞，其中 8 個爲嚴重級別。Moltbook 事件的發生過程尤爲典型，這一專爲 OpenClaw Agent 打造的社交平臺通過病毒式傳播吸引了逾 77 萬個 Agent 註冊，用戶將 Moltbook 告知自己的 Agent，Agent 隨即自主完成註冊。此後，平臺數據庫漏洞使攻擊者得以繞過身份驗證，向任意 Agent 會話直接注入指令，全部 77 萬個 Agent 同時陷入風險敞口，研究團隊將此定性爲迄今首起有記錄的大規模跨 Agent 攻擊傳播事件。

安全研究員 Simon Willison 所稱的「致命三角」在 OpenClaw 身上得到完整體現：訪問私密數據的能力、接觸不可信內容的暴露面，以及對外通信的渠道，三者疊加使自主智能體成爲攻擊者的理想跳板。研究的核心論斷是，自主智能體與無狀態語言模型的安全挑戰在性質上截然不同。針對語言模型的安全評估聚焦於「能否讓模型說出不安全的內容」；而對 AI Agent 而言，問題變爲「能否讓模型做出不安全的事」，包括具有現實效果的工具調用、影響未來行爲的狀態修改，以及跨多步驟才顯現違規的計劃執行。研究以具體場景說明這一邏輯：一個同時具備文件讀取和 HTTP 請求權限的 Agent，每項工具的訪問控制決策在孤立評估時均合規，但二者組合卻可實現數據竊取，從配置文件讀取憑證，再通過 HTTP 請求將其發送至外部端點。每一步均滿足本地安全策略，整體卻完成了對抗性目標，研究將這一現象稱爲「組合安全」問題。

在受控架構研究中，研究人員測試了 ReAct 智能體、多智能體系統、記憶增強型智能體及工具使用型智能體四類主流架構。結果顯示，針對工具使用型智能體的權限提升攻擊成功率高達 95%，針對記憶增強型智能體的投毒攻擊成功率爲 94%。即便是抗禦能力最強的多智能體系統，針對目標漂移的攻擊成功率也達 58%，研究人員據此判斷，當前所有已測試架構均不具備抵禦對抗性部署的充分能力。自適應攻擊生成測試的結果進一步加劇擔憂：基於強化學習生成的攻擊違規率達 79%，相比人工設計場景的 63% 提升了 25.4%，表明 AI Agent 面臨的威脅空間正超出人類紅隊測試的覆蓋邊界。午方 AI 分析認爲，隨着歐盟《人工智能法案》、美國 NIST AI 風險管理框架等監管要求的落地，企業面臨的合規壓力與安全風險將同步上升，在 AI Agent 被廣泛部署於高風險業務場景的背景下，安全基礎設施的缺位，正成爲這一輪 AI 商業化浪潮中不可忽視的系統性風險。

針對上述嚴峻形勢，研究團隊依據實證結果提出了最低安全基線：所有生產 Agent 強制部署運行時監控；對涉及數據訪問後對外通信的工具鏈操作設置人工審批門檻；每執行 20 至 25 步應強制觸發人工審查，以應對步驟超出後幾乎必然出現的目標偏移；記憶增強型 Agent 須對持久化狀態進行加密完整性校驗。在監控效果層面，研究顯示行動級監控精確率可達 0.94，序列級監控 F1 分數爲 0.85，狀態級監控 F1 分數爲 0.83。在對 127 個生產 Agent 進行 30 天運行時監控的測試中，系統在攔截 4782 次操作的同時，誤報率控制在 3.7%，其中 14.6% 的被標記操作被確認爲真實攻擊。研究還指出，當前「AI 治理」方法存在根本性錯位：現有框架多爲事後審計，而非在執行環節實時執行合規約束。隨着監管要求的落地，企業若不能及時構建適應 Agent 特性的實時防禦體系，將面臨巨大的合規與安全風險。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

WOOFUN.AI 你的加密智能助理。以智能技術重構加密體驗，化繁為簡，打破專業門檻，讓每個人都能安心、聰明、快樂地擁抱數字未來。

iOS

Google Play

Android Apk

市場生態 Alpha 失樂園評級資訊快訊日歷交易所錢包