登錄
註冊
Codex 與外部環境的交互並非單一維度的“使用計算機”,而是構建了一套包含計算機使用、Chrome 擴展程序以及應用內瀏覽器的分層架構。這三種方式雖目標一致,但在任務場景、權限範圍及信任等級上存在顯著差異。午方 AI 梳理發現,這種分層設計的核心邏輯在於根據具體任務選擇最狹隘、最安全且最具結構化的操作界面,而非默認賦予模型無限權限。當存在插件或 MCP 支持時,視覺控制不應作爲首選;僅當結構化工具無法覆蓋桌面圖形用戶界面任務時,才啓用計算機使用模式。
計算機使用模式擁有最廣泛的適用範圍,允許 Codex 直接操作 macOS 和 Windows 系統上的圖形用戶界面,包括窗口、菜單、鍵盤輸入及剪貼板數據。儘管其運行速度因需觀察界面、定位點擊並等待響應而較慢,但它能處理缺乏 API 支持的原生應用任務。在 macOS 環境下,該模式可在後臺靜默運行,支持操作 Spotify、Xcode、系統設置、iOS 模擬器甚至通過鏡像控制 iPhone。午方 AI 注意到,該模式特別適用於原生桌面應用、系統配置、跨應用工作流以及結構化集成中的“最後一步”操作,例如在 Slack 插件不支持文件上傳時,利用視覺操作完成文件提交。
然而,計算機使用模式的權限範圍最廣,涉及財務、賬戶、支付憑證及系統安全等敏感內容時,必須有人在場監督並仔細覈對權限請求。相比之下,Chrome 擴展程序專爲依賴登錄狀態、cookies 及多標籤頁管理的任務設計,適用於 Gmail、LinkedIn、Salesforce 等工具。該模式保留用戶的瀏覽器身份信息,允許 Codex 在同一標籤頁組內操作多個頁面,將任務視爲完整的瀏覽器工作流而非單純的屏幕座標操作。例如,在優化 Strudel Composer 音樂效果時,Chrome 擴展不僅提供頁面上下文,還結合 WebMCP 工具,使 Codex 能直接分析和聲結構並保存修改,無需手動尋找控件。
應用內瀏覽器則定位於開發與調試場景,提供與 Codex 共享的渲染頁面,適合處理本地服務、檢查視覺錯誤及測試響應式佈局。其核心優勢在於隔離性,不繼承用戶的常規瀏覽器設置、cookies 或登錄會話,從而在無需身份驗證的任務中提供保護。午方 AI 分析認爲,這種模式構建了緊密的反饋循環:Codex 可編輯代碼、操作頁面、截圖並修復問題,隨後重新執行流程。通過點擊頁面元素留下設計註釋,開發者可將頁面本身轉化爲規格說明文檔,實現類似與設計師在同一畫布上協作的體驗。
Appshot 並非第四種控制手段,而是解決上下文輸入問題的工具,通過捕獲當前最前窗口截圖及文本信息,幫助 Codex 識別屏幕對象。這種機制在不授予控制權限的前提下提供針對性上下文,完美詮釋了“最狹隘界面”原則:先通過瀏覽器確認內容,再利用結構化工具深入搜索。例如,在分析 X 平臺帖子時,先通過應用內瀏覽器可視化確認目標,再切換至命令行檢索隱藏的 38 條回覆。隨着用戶界面功能的快速演進,明確界定各模式的權限邊界,將是確保 AI 智能體產品化安全與可控的關鍵所在。