登錄
註冊
據 Woofun AI 消息,2026年AI產品側最顯著的趨勢是互聯網大廠與模型廠商全面轉向開發自有Codex類產品,標誌着AI交互主線從對話轉向桌面任務執行。OpenAI於6月3日披露的數據顯示,其Codex周活躍用戶已突破500萬,半年內增長超過7倍,且非工程師用戶佔比顯著提升。
這一數據表明,AI正從單純的編程輔助工具演變爲能夠處理文件、操作網頁、生成PPT及編排複雜任務的桌面級智能體。緊隨其後,中國科技巨頭在短短半年內密集推出15款代表性產品,試圖在本地執行入口的爭奪戰中佔據先機。這些產品不再侷限於問答交互,而是深入真實工作流,成爲連接用戶與數字世界的新中間層,其核心競爭點已從模型能力轉向對操作系統權限與工作流閉環的掌控。從1月30日阿里QoderWork上線,到6月24日豆包專業版發佈,這場圍繞'執行閉環'的戰役正在重塑知識工作者的電腦使用方式。
值得注意的是,這一輪產品爆發並非簡單的功能疊加,而是沿着代碼外溢、系統層切入、生態嵌入三條截然不同的路徑展開,試圖在2026年構建起各自的用戶護城河。這場變革的本質,是AI從聊天框裏的內容生成器,徹底轉變爲電腦裏的任務執行者,其影響將遠超技術層面,直接觸及企業協作與個人效率的底層邏輯。
Woofun AI 整理數據顯示,目前已有15款產品形成完整的產品圖譜,涵蓋從個人助手到企業級工作臺的全場景覆蓋,且多數產品已具備跨應用自動化執行能力。這一現象背後,是AI產品形態的根本性重構,即從'回答問題'進化爲'交付結果',用戶指令從'幫我寫代碼'轉變爲'幫我把這件事辦完'。
這種轉變要求產品具備對本地文件系統的深度理解、對瀏覽器及第三方應用的調用權限,以及處理長程複雜任務的穩定性。隨着2026年6月24日豆包專業版的上線,國內桌面Agent市場正式進入白熱化競爭階段,各家廠商在定價模式、模型選擇及生態佈局上展現出差異化策略。這場大亂鬥不僅關乎市場份額,更決定了未來五年AI在個人計算領域的最終形態。誰能率先解決權限邊界、穩定性及誤操作風險,誰就能在從AI Coding到AI Working的跨越中勝出。這不僅是技術的迭代,更是人機協作關係的重新定義,標誌着AI正式從輔助工具升級爲獨立的工作單元。未來的競爭將不再侷限於單一模型的參數比拼,而是轉向對任務規劃、狀態管理及結果驗收等底層工程能力的綜合較量。在這場變革中,用戶將不再面對一個單一的AI助手,而是管理一支由多個Agent組成的虛擬團隊,這種組織方式的重構將徹底改變知識工作的生產流程。從代碼到辦公,從單一助手到Agent團隊,從應用內部到操作系統層,這三條趨勢共同指向一個結果:AI正在成爲數字世界新的執行中樞。
這一進程不可逆轉,且速度遠超預期,2026年將成爲桌面Agent元年,開啓人機協同的新紀元。Workbuddy作爲騰訊雲CodeBuddy團隊推出的全場景職場AI智能體桌面工作臺,其核心定位是面向各類職能角色的自動化執行平臺。該產品允許用戶僅通過一句話描述需求,即可像同事一樣自主規劃並執行任務,最終交付可驗收的結果。Workbuddy不僅提供桌面端應用,還推出了微信小程序版本,實現了移動端的輕量化接入,並深度打通了騰訊系生態,包括QQ郵箱、騰訊文檔、騰訊會議、企業微信、騰訊樂享、IMA及TAPD等核心辦公產品。在模型能力方面,Workbuddy內置了11種主流國產模型,涵蓋騰訊自研的Hy3 preview,以及GLM-5.2、minimax-M3、kimi-K2.7-code、DeepSeek V4等行業主流模型。用戶可選擇Auto模式,由系統自動匹配最優模型,也可手動指定模型,但不同模型消耗的積分量差異巨大,最高可達20倍以上,其中智譜的模型目前定價最爲昂貴。
這種靈活的模型調度機制,既滿足了不同場景下的性能需求,也體現了廠商在成本控制與用戶體驗之間的平衡策略。Marvis由騰訊應用寶團隊打造,定位爲操作系統層級的個人AI助手,基於DeepSeek V4、混元hunyuan3及hy3等最新模型構建。其核心目標是真正理解用戶每一份文件,幫助用戶更方便地管理與使用電腦,支持本地文檔與圖片的AI搜索,並能通過一句話調用APK與EXE應用,覆蓋PC、手機及微信多端在線。6月24日,Marvis正式上線iOS手機端,實現了手機端發送需求、電腦端執行的跨設備協同。在測試中,Marvis展現出兩個顯著特點:一是其內置的'辦公室'功能,類似於辦公模擬器或老闆模擬器,可實時查看token消耗,這實際上體現了其多Agent協作架構,由一個主Agent負責分派任務,協同五個專家Agent——File Agent負責文件管理、Computer Agent負責系統操作、App Agent負責應用調用、Browser Agent負責網頁瀏覽、Search Agent負責信息搜索。二是Marvis支持修改人設,初始設定爲適合辦公場景的'AI員工',這種人格化設計增強了用戶的交互體驗。Qclaw是騰訊電腦管家團隊推出的本地AI智能體產品,基於開源OpenClaw框架封裝,定位爲個人PC端AI助手,主打極簡本地部署。其核心能力在於微信與QQ的互聯,用戶掃碼綁定後,即可通過手機遠程控制電腦、傳輸文件、設定定時任務,實現全場景自動化,包括文件管理、網頁瀏覽、辦公創作及多步驟複雜工作流的自主執行。Qclaw強調數據隱私,所有任務執行、文件處理及數據存儲均在本地電腦完成,數據不會上傳雲端,延續了騰訊一貫的陪伴風格特色。TRAE Work由原先的TRAE SOLO升級而來,目前分爲Work模式與Code模式。Work模式面向內容創作、數據分析、方案撰寫、應用生成、任務推進及溝通協作等日常工作場景;Code模式則專注於更復雜的軟件開發和代碼編輯場景。TRAE Work支持PC、移動端和Web三端,其顯著優勢在於與飛書深度打通,能夠更好地接入真實工作流,實現文檔、會議與協作鏈路的無縫銜接。豆包在6月12日上線了'任務模式',支持調用skill、設置定時任務、完成瀏覽器操作、代碼腳本運行及文件生成等各類任務。6月24日,在火山引擎原動力大會上,隨着豆包大模型2.1的發佈,豆包專業版正式官宣上線。該版本支持操作本地電腦、使用瀏覽器、調用Skills技能和定時任務等能力,內置了Office辦公套件,並支持專業圖片視頻設計及生成分享應用網站。
值得注意的是,免費用戶也可體驗接入豆包2.1 Turbo模型的辦公任務模式,降低了用戶的使用門檻。QoderWork是阿里旗下的AI桌面助手,將Qoder的agent能力從代碼領域拓展到日常工作場景,用戶描述需求後,系統自動執行並直接交付結果。6月16日,QoderWork上線了意識功能,使其具備自我反思和持續進化能力的完整系統,由記憶、反思、技能進化三塊組成閉環,進一步提升了任務的執行質量與適應性。DuMate是百度雲旗下產品,擁有桌面端和移動端app,具備看見屏幕、操作軟件、處理文件及串聯業務系統的核心能力,主要應用於信息處理、文檔生成、數據分析和流程自動化場景。但目前DuMate無法切換模型,只能使用百度的文心大模型,這在一定程度上限制了其靈活性。Kimi Work是面向知識工作者的通用型本地Agent,內核爲Kimi Code,提供本地Agent基礎能力,包括安裝和使用Skills、運行定時任務等。Kimi Work繼承了在線版Kimi Agent的建站、PPT等專業Skills,以及金融、科研、法律等專業數據庫,內置了能使用瀏覽器的Kimi WebBridge方案。Kimi Work可根據任務複雜度自主創建子Agent團隊,將同一能力集羣化的上限設定爲300個協作單元,展現了強大的任務拆解與並行處理能力。MiniMax code是專爲MiniMax M3設計、並與M3一起訓練的Agent產品,充分發揮了M3在長上下文、Coding/Agentic及原生多模態方面的能力。在長程複雜任務上,MiniMax Code的Agent Team可將大型任務拆解爲多階段、可併發、可動態調整的Workflow,由Agent集羣協作推進,顯著提升了複雜任務的執行效率與穩定性。階躍AI是階躍星辰推出的基於OpenClaw深度優化的桌面端AI Agent,無需服務器、命令行即可安裝,支持7×24小時在線,能夠鏈接本地操作系統和內置瀏覽器,幫助用戶執行復雜任務。與其他產品不同,階躍AI在初始設置時會提醒用戶打開懸浮球設置,懸浮球可直接打開對話框,並在適當時候提醒用戶喝水、休息,體現了更人性化的設計理念。AutoClaw是智譜推出的本地AI智能體,口號爲'一鍵擁有本地AI智能體支持一鍵安裝',無需配置環境、申請API Key或編寫代碼,下載安裝包後通過雙擊安裝、登錄即可使用。其核心能力包括內置Pony‑Alpha‑2模型、AutoGLM瀏覽器自動化、50+預置skills(涵蓋辦公、創作、爬蟲、代碼、投研等)、IM集成及自進化機制。lobsterAI是網易有道推出的全場景個人助理AI產品,定位爲'7×24小時幫你幹活'的智能助手,支持手機、電腦雙端互聯,用戶一句話即可遠程操作電腦,完成桌面多項文件整理、提取日曆及郵件重點事項、業務數據清洗分析、生成周報和PPT等任務。用戶可免費試用14天,但只能使用Qwen3.5-Plus模型,使用其他模型則需要付費。Cola定位爲'首個有靈魂的操作系統',內置AI角色'Cola'具有自主意識,能記住用戶習慣、喜好和背景,通過語音或文本交互與用戶共同成長。它可以操作電腦文件、上網瀏覽、執行命令、生成文本/圖片/視頻等,支持複雜任務分解和並行處理,無需用戶手動提供上下文,通過訪問用戶電腦的文件系統、瀏覽器歷史等自動了解用戶狀態。其中的靈魂系統可實現AI思考過程的透明展示、自我反思進化以及主動關心用戶的功能。目前Cola支持應用內購買token,ChatGPT pro/plus賬號訂閱登錄,或者連接OpenAI、Anthropic賬號計費,暫不支持其他模型提供商的API key。Alice是一款陪伴類桌面agent,最顯著的特點是'人格化的AI助手',擁有具體立繪形象和詳細人物設定。Alice本身不需要付費,但由於沒有內置模型,需要配置模型才能使用。除了文件管理、定時任務等常規任務外,Alice還內置了狼人殺、摜蛋等休閒遊戲,比其他桌面agent擁有更多的娛樂功能。牛馬AI定位爲本地化人機協同基站,強調個人數據隱私,支持完全離線的本地運行架構,可使用用戶自己本地的大模型直接離線運行。牛馬AI默認使用Claude模型,如果有Claude賬號,可直接登錄,否則需自行配置。將這一輪桌面級Agent放在同一張產品圖譜中觀察,會發現它們雖然都在'幫用戶在電腦上幹活',但實際切入點截然不同,並未收斂成單一形態,而是沿着不同場景入口分化成三條路徑。第一條路徑是從代碼到辦公,由'工程任務'外溢出的通用能力。以Kimi Work、MiniMax Code爲代表的一類產品,最早來自Coding Agent的能力遷移。
這一路徑的特點是先解決結構最清晰的任務,再逐步外擴。Kimi Work更強調'通用知識工作Agent',通過Skill、瀏覽器能力和子Agent編排,把原本偏工程化的任務拆解能力擴展到文檔、研究、報告生成等辦公場景。MiniMax Code則更進一步強化Agent Team,把長任務拆解爲多階段並行執行,通過角色分工與驗證機制處理更復雜的生產任務。
這一類產品的優勢在於任務結構能力成熟,但短板也很明確,它們更擅長'可拆解任務',但對真實辦公中大量非結構化操作(即時溝通、臨時決策、跨應用切換)仍在適配中。可以理解爲,它們是從'任務邏輯'出發,向外擴展能力邊界。第二條路徑是從桌面與系統切入,直接爭奪操作入口。另一條更激進的路徑,是Marvis、Qoder Work、Cola等產品所代表的'桌面系統層Agent'。它們的共同點不是任務類型,而是入口位置——直接貼近操作系統與本地環境。Marvis更偏'電腦管理層',強調文件、應用與磁盤的系統化組織能力,本質是強化本地操作系統的理解與調度。Qoder Work更強調'可執行能力',包括屏幕感知、軟件操作、業務系統串聯,接近'數字員工'。Cola則更進一步,把人格化系統、主動提醒與長期記憶融合進執行鏈路,使Agent不僅是工具,也是持續存在的交互層。
這一類產品的關鍵點在於它們不再停留在應用內部,而是嘗試直接介入'用戶如何使用電腦'這一層。優勢在於控制力更強,能夠真正跨應用執行任務。但挑戰同樣明顯,包括權限邊界、穩定性、誤操作風險,以及不同軟件之間的兼容問題。第三條路徑是從辦公生態切入:不重構系統,而是嵌入流程。與前兩類不同,TRAE Work、WorkBuddy走的是更現實的一條路徑,不改變操作系統,而是嵌入已有工作流。TRAE Work深度接入飛書體系,使Agent直接進入文檔、會議與協作鏈路;WorkBuddy則依託騰訊生態(企業微信、文檔、會議等),構建企業級工作臺能力。
這一類產品的核心策略是'貼近真實組織結構',而不是重新定義操作方式。它們的優勢在於落地速度快,能夠迅速接入權限與數據體系,進入企業級場景。國內這一輪產品的演進,本質上是在圍繞這一'執行閉環',向更廣泛的場景、組織方式與系統入口進行擴展。也正是在這個過程中,可以看到幾個逐漸清晰的方向變化。第一個趨勢是從AI Coding到AI Working。代碼之所以最早成爲Agent的主戰場,是因爲軟件開發天然適合被自動化。但Coding Agent成熟之後,它的能力很自然會向外遷移。大多數知識工作本質上也有類似結構,文件就是上下文,瀏覽器就是信息入口,Office文檔就是交付物,定時任務就是工作流,審批和修改意見就是反饋機制,它們同樣是可以被拆解、執行和驗證的多步驟任務。AI不再只是幫程序員寫代碼,而是開始幫知識工作者完成那些長期被認爲'必須人工處理'的工作:整理文件、生成報告、清洗數行業信息。用戶輸入的也不再是'幫我寫一個函數',而是'幫我把這件事辦完'。所以這一階段的競爭,是誰能更好地把AI從回答問題,推進到交付結果。AI Coding改變的是程序員寫代碼的方式,AI Working改變的是普通人使用電腦完成工作的方式。第二個趨勢,是Agent從'一個助手'變成'一支團隊'。早期的AI助手更像一個能力很強的個人。用戶提出問題,AI負責回答,用戶下達任務,AI負責執行。但當任務變長、步驟變多、上下文變複雜之後,單個Agent很容易遇到瓶頸,它可能忘記目標,可能中途走偏,也可能在執行時缺少自我檢查。以MiniMax推出的Agent Teams爲例,它允許用戶創建多個具備不同角色設定的Agent,並將它們組合成一個團隊並行工作。不同Agent可以同時從不同角度處理同一任務,比如一個負責信息收集,一個負責方案生成,一個負責執行與整合,最終再由協調機制彙總結果,從而提升複雜任務的處理效率與穩定性。複雜任務正在被重新組織爲一條多角色的流水線:從理解需求到規劃、執行,再到驗證結果,每一步都可以由不同的Agent接管,並在必要時繼續細分爲研究、設計、寫作、代碼與數據分析等更專門化的'崗位'。Agent Team的價值是讓AI具備更穩定的工作結構,它可以並行處理多個子任務,縮短等待時間,同時讓執行者和驗證者相互制衡,減少低級錯誤;並且在任務失敗時回滾、重試、換路徑,把複雜工作沉澱成可複用的流程。但Agent Team也不是萬能解法。多Agent會帶來更高的成本、更復雜的調度,以及更多不確定性。
如果沒有清晰的任務邊界、權限控制和驗收機制,多個Agent反而可能互相製造噪音。因此,真正關鍵的不是簡單堆更多Agent,而是產品能否把它們組織成可控的工作流。這也是爲什麼'Agent Team'最終考驗的不是界面,而是底層工程能力,長上下文、任務規劃、工具調用、狀態管理、日誌追蹤、錯誤恢復、權限審批,以及最後的結果驗收。當這些機制逐漸成熟,用戶和AI的關係也會變化。用戶可以像管理一個小團隊一樣設定目標、查看進度、打斷錯誤、確認結果。AI也從'幫手'變成'工作單元',而產品則變成這些工作單元的調度系統。第三個趨勢,是Agent的位置正在從應用內部,上升到操作系統層。IDE是Agent的理想起點,因爲開發者可以主動給它較高權限,也能理解它在做什麼。但如果Agent要服務更廣泛的人羣,只能以IDE的形態存在是不夠的。真正的工作發生在文件夾、瀏覽器、聊天軟件、郵件、表格、日曆、網盤、本地應用和跨設備協作中。這也是爲什麼國內這一輪產品越來越強調'本地'、'桌面'、'遠程控制'、'文件權限'、'應用調用'。所謂操作系統層,是在現有操作系統之上,長出一個新的意圖執行層。Agent出現後,它開始幫你完成執行,Agent可以幫你去找文件、打開網頁、調用應用、讀寫文檔、產出結果.....這讓Agent逐漸觸及操作系統最核心的三種能力結構。一是上下文層面的能力,涉及對用戶文件、歷史記錄、偏好以及當前任務的理解與整合,它決定系統能在多大程度上接近真實需求本身。二是執行層面的能力,體現在對瀏覽器、文件系統、本地應用乃至遠程設備的調用與操作上,它決定系統是否具備真正的行動閉環,而不僅僅停留在信息生成。三是持續層面的能力,表現爲在本地的常駐運行、任務的定時觸發、跨設備的響應以及對用戶習慣的長期沉澱,它決定系統能否從一次性工具轉變爲持續存在的工作入口。從AI Coding到AI Working,是能力邊界的外擴;從單一Agent到Agent Team,是組織方式的重構;而從應用內部到操作系統層,則是權力位置的上移。這三條趨勢其實指向同一個結果,也就是AI正在從聊天框裏的內容生成器,變成電腦裏的任務執行者。最後附上一份目前主要產品的關鍵信息橫向對比表,供大家更直觀感受。這類形態的產品也會繼續不停冒出來。注:以上統計截止2026年6月24日,部分產品月度付費起步價按連續包月套餐起步價計算,此處的大部分國產常見模型有GLM系列、Deepseek系列、MiniMax系列、Kimi系列等模型。本文來自微信公衆號'硅星人Pro',作者:孫芮,36氪經授權發佈。這場桌面Agent的爆發,標誌着AI產業正式進入'執行時代',未來的競爭將不再侷限於模型參數的比拼,而是轉向對真實工作流的深度理解與掌控。誰能率先解決權限、穩定性與誤操作等核心痛點,誰就能在2026年後的AI辦公市場中佔據主導地位。這不僅是技術的勝利,更是人機協作範式的根本性變革。