周活破500万后，中国15款桌面Agent如何瓜分执行入口

2026-06-25 18:18

据 Woofun AI 消息，2026年AI产品侧最显著的趋势是互联网大厂与模型厂商全面转向开发自有Codex类产品，标志着AI交互主线从对话转向桌面任务执行。OpenAI于6月3日披露的数据显示，其Codex周活跃用户已突破500万，半年内增长超过7倍，且非工程师用户占比显著提升。

这一数据表明，AI正从单纯的编程辅助工具演变为能够处理文件、操作网页、生成PPT及编排复杂任务的桌面级智能体。紧随其后，中国科技巨头在短短半年内密集推出15款代表性产品，试图在本地执行入口的争夺战中占据先机。这些产品不再局限于问答交互，而是深入真实工作流，成为连接用户与数字世界的新中间层，其核心竞争点已从模型能力转向对操作系统权限与工作流闭环的掌控。从1月30日阿里QoderWork上线，到6月24日豆包专业版发布，这场围绕'执行闭环'的战役正在重塑知识工作者的电脑使用方式。

值得注意的是，这一轮产品爆发并非简单的功能叠加，而是沿着代码外溢、系统层切入、生态嵌入三条截然不同的路径展开，试图在2026年构建起各自的用户护城河。这场变革的本质，是AI从聊天框里的内容生成器，彻底转变为电脑里的任务执行者，其影响将远超技术层面，直接触及企业协作与个人效率的底层逻辑。

Woofun AI 整理数据显示，目前已有15款产品形成完整的产品图谱，涵盖从个人助手到企业级工作台的全场景覆盖，且多数产品已具备跨应用自动化执行能力。这一现象背后，是AI产品形态的根本性重构，即从'回答问题'进化为'交付结果'，用户指令从'帮我写代码'转变为'帮我把这件事办完'。

这种转变要求产品具备对本地文件系统的深度理解、对浏览器及第三方应用的调用权限，以及处理长程复杂任务的稳定性。随着2026年6月24日豆包专业版的上线，国内桌面Agent市场正式进入白热化竞争阶段，各家厂商在定价模式、模型选择及生态布局上展现出差异化策略。这场大乱斗不仅关乎市场份额，更决定了未来五年AI在个人计算领域的最终形态。谁能率先解决权限边界、稳定性及误操作风险，谁就能在从AI Coding到AI Working的跨越中胜出。这不仅是技术的迭代，更是人机协作关系的重新定义，标志着AI正式从辅助工具升级为独立的工作单元。未来的竞争将不再局限于单一模型的参数比拼，而是转向对任务规划、状态管理及结果验收等底层工程能力的综合较量。在这场变革中，用户将不再面对一个单一的AI助手，而是管理一支由多个Agent组成的虚拟团队，这种组织方式的重构将彻底改变知识工作的生产流程。从代码到办公，从单一助手到Agent团队，从应用内部到操作系统层，这三条趋势共同指向一个结果：AI正在成为数字世界新的执行中枢。

这一进程不可逆转，且速度远超预期，2026年将成为桌面Agent元年，开启人机协同的新纪元。Workbuddy作为腾讯云CodeBuddy团队推出的全场景职场AI智能体桌面工作台，其核心定位是面向各类职能角色的自动化执行平台。该产品允许用户仅通过一句话描述需求，即可像同事一样自主规划并执行任务，最终交付可验收的结果。Workbuddy不仅提供桌面端应用，还推出了微信小程序版本，实现了移动端的轻量化接入，并深度打通了腾讯系生态，包括QQ邮箱、腾讯文档、腾讯会议、企业微信、腾讯乐享、IMA及TAPD等核心办公产品。在模型能力方面，Workbuddy内置了11种主流国产模型，涵盖腾讯自研的Hy3 preview，以及GLM-5.2、minimax-M3、kimi-K2.7-code、DeepSeek V4等行业主流模型。用户可选择Auto模式，由系统自动匹配最优模型，也可手动指定模型，但不同模型消耗的积分量差异巨大，最高可达20倍以上，其中智谱的模型目前定价最为昂贵。

这种灵活的模型调度机制，既满足了不同场景下的性能需求，也体现了厂商在成本控制与用户体验之间的平衡策略。Marvis由腾讯应用宝团队打造，定位为操作系统层级的个人AI助手，基于DeepSeek V4、混元hunyuan3及hy3等最新模型构建。其核心目标是真正理解用户每一份文件，帮助用户更方便地管理与使用电脑，支持本地文档与图片的AI搜索，并能通过一句话调用APK与EXE应用，覆盖PC、手机及微信多端在线。6月24日，Marvis正式上线iOS手机端，实现了手机端发送需求、电脑端执行的跨设备协同。在测试中，Marvis展现出两个显著特点：一是其内置的'办公室'功能，类似于办公模拟器或老板模拟器，可实时查看token消耗，这实际上体现了其多Agent协作架构，由一个主Agent负责分派任务，协同五个专家Agent——File Agent负责文件管理、Computer Agent负责系统操作、App Agent负责应用调用、Browser Agent负责网页浏览、Search Agent负责信息搜索。二是Marvis支持修改人设，初始设定为适合办公场景的'AI员工'，这种人格化设计增强了用户的交互体验。Qclaw是腾讯电脑管家团队推出的本地AI智能体产品，基于开源OpenClaw框架封装，定位为个人PC端AI助手，主打极简本地部署。其核心能力在于微信与QQ的互联，用户扫码绑定后，即可通过手机远程控制电脑、传输文件、设定定时任务，实现全场景自动化，包括文件管理、网页浏览、办公创作及多步骤复杂工作流的自主执行。Qclaw强调数据隐私，所有任务执行、文件处理及数据存储均在本地电脑完成，数据不会上传云端，延续了腾讯一贯的陪伴风格特色。TRAE Work由原先的TRAE SOLO升级而来，目前分为Work模式与Code模式。Work模式面向内容创作、数据分析、方案撰写、应用生成、任务推进及沟通协作等日常工作场景；Code模式则专注于更复杂的软件开发和代码编辑场景。TRAE Work支持PC、移动端和Web三端，其显著优势在于与飞书深度打通，能够更好地接入真实工作流，实现文档、会议与协作链路的无缝衔接。豆包在6月12日上线了'任务模式'，支持调用skill、设置定时任务、完成浏览器操作、代码脚本运行及文件生成等各类任务。6月24日，在火山引擎原动力大会上，随着豆包大模型2.1的发布，豆包专业版正式官宣上线。该版本支持操作本地电脑、使用浏览器、调用Skills技能和定时任务等能力，内置了Office办公套件，并支持专业图片视频设计及生成分享应用网站。

值得注意的是，免费用户也可体验接入豆包2.1 Turbo模型的办公任务模式，降低了用户的使用门槛。QoderWork是阿里旗下的AI桌面助手，将Qoder的agent能力从代码领域拓展到日常工作场景，用户描述需求后，系统自动执行并直接交付结果。6月16日，QoderWork上线了意识功能，使其具备自我反思和持续进化能力的完整系统，由记忆、反思、技能进化三块组成闭环，进一步提升了任务的执行质量与适应性。DuMate是百度云旗下产品，拥有桌面端和移动端app，具备看见屏幕、操作软件、处理文件及串联业务系统的核心能力，主要应用于信息处理、文档生成、数据分析和流程自动化场景。但目前DuMate无法切换模型，只能使用百度的文心大模型，这在一定程度上限制了其灵活性。Kimi Work是面向知识工作者的通用型本地Agent，内核为Kimi Code，提供本地Agent基础能力，包括安装和使用Skills、运行定时任务等。Kimi Work继承了在线版Kimi Agent的建站、PPT等专业Skills，以及金融、科研、法律等专业数据库，内置了能使用浏览器的Kimi WebBridge方案。Kimi Work可根据任务复杂度自主创建子Agent团队，将同一能力集群化的上限设定为300个协作单元，展现了强大的任务拆解与并行处理能力。MiniMax code是专为MiniMax M3设计、并与M3一起训练的Agent产品，充分发挥了M3在长上下文、Coding/Agentic及原生多模态方面的能力。在长程复杂任务上，MiniMax Code的Agent Team可将大型任务拆解为多阶段、可并发、可动态调整的Workflow，由Agent集群协作推进，显著提升了复杂任务的执行效率与稳定性。阶跃AI是阶跃星辰推出的基于OpenClaw深度优化的桌面端AI Agent，无需服务器、命令行即可安装，支持7×24小时在线，能够链接本地操作系统和内置浏览器，帮助用户执行复杂任务。与其他产品不同，阶跃AI在初始设置时会提醒用户打开悬浮球设置，悬浮球可直接打开对话框，并在适当时候提醒用户喝水、休息，体现了更人性化的设计理念。AutoClaw是智谱推出的本地AI智能体，口号为'一键拥有本地AI智能体支持一键安装'，无需配置环境、申请API Key或编写代码，下载安装包后通过双击安装、登录即可使用。其核心能力包括内置Pony‑Alpha‑2模型、AutoGLM浏览器自动化、50+预置skills（涵盖办公、创作、爬虫、代码、投研等）、IM集成及自进化机制。lobsterAI是网易有道推出的全场景个人助理AI产品，定位为'7×24小时帮你干活'的智能助手，支持手机、电脑双端互联，用户一句话即可远程操作电脑，完成桌面多项文件整理、提取日历及邮件重点事项、业务数据清洗分析、生成周报和PPT等任务。用户可免费试用14天，但只能使用Qwen3.5-Plus模型，使用其他模型则需要付费。Cola定位为'首个有灵魂的操作系统'，内置AI角色'Cola'具有自主意识，能记住用户习惯、喜好和背景，通过语音或文本交互与用户共同成长。它可以操作电脑文件、上网浏览、执行命令、生成文本/图片/视频等，支持复杂任务分解和并行处理，无需用户手动提供上下文，通过访问用户电脑的文件系统、浏览器历史等自动了解用户状态。其中的灵魂系统可实现AI思考过程的透明展示、自我反思进化以及主动关心用户的功能。目前Cola支持应用内购买token，ChatGPT pro/plus账号订阅登录，或者连接OpenAI、Anthropic账号计费，暂不支持其他模型提供商的API key。Alice是一款陪伴类桌面agent，最显著的特点是'人格化的AI助手'，拥有具体立绘形象和详细人物设定。Alice本身不需要付费，但由于没有内置模型，需要配置模型才能使用。除了文件管理、定时任务等常规任务外，Alice还内置了狼人杀、掼蛋等休闲游戏，比其他桌面agent拥有更多的娱乐功能。牛马AI定位为本地化人机协同基站，强调个人数据隐私，支持完全离线的本地运行架构，可使用用户自己本地的大模型直接离线运行。牛马AI默认使用Claude模型，如果有Claude账号，可直接登录，否则需自行配置。将这一轮桌面级Agent放在同一张产品图谱中观察，会发现它们虽然都在'帮用户在电脑上干活'，但实际切入点截然不同，并未收敛成单一形态，而是沿着不同场景入口分化成三条路径。第一条路径是从代码到办公，由'工程任务'外溢出的通用能力。以Kimi Work、MiniMax Code为代表的一类产品，最早来自Coding Agent的能力迁移。

这一路径的特点是先解决结构最清晰的任务，再逐步外扩。Kimi Work更强调'通用知识工作Agent'，通过Skill、浏览器能力和子Agent编排，把原本偏工程化的任务拆解能力扩展到文档、研究、报告生成等办公场景。MiniMax Code则更进一步强化Agent Team，把长任务拆解为多阶段并行执行，通过角色分工与验证机制处理更复杂的生产任务。

这一类产品的优势在于任务结构能力成熟，但短板也很明确，它们更擅长'可拆解任务'，但对真实办公中大量非结构化操作（即时沟通、临时决策、跨应用切换）仍在适配中。可以理解为，它们是从'任务逻辑'出发，向外扩展能力边界。第二条路径是从桌面与系统切入，直接争夺操作入口。另一条更激进的路径，是Marvis、Qoder Work、Cola等产品所代表的'桌面系统层Agent'。它们的共同点不是任务类型，而是入口位置——直接贴近操作系统与本地环境。Marvis更偏'电脑管理层'，强调文件、应用与磁盘的系统化组织能力，本质是强化本地操作系统的理解与调度。Qoder Work更强调'可执行能力'，包括屏幕感知、软件操作、业务系统串联，接近'数字员工'。Cola则更进一步，把人格化系统、主动提醒与长期记忆融合进执行链路，使Agent不仅是工具，也是持续存在的交互层。

这一类产品的关键点在于它们不再停留在应用内部，而是尝试直接介入'用户如何使用电脑'这一层。优势在于控制力更强，能够真正跨应用执行任务。但挑战同样明显，包括权限边界、稳定性、误操作风险，以及不同软件之间的兼容问题。第三条路径是从办公生态切入：不重构系统，而是嵌入流程。与前两类不同，TRAE Work、WorkBuddy走的是更现实的一条路径，不改变操作系统，而是嵌入已有工作流。TRAE Work深度接入飞书体系，使Agent直接进入文档、会议与协作链路；WorkBuddy则依托腾讯生态（企业微信、文档、会议等），构建企业级工作台能力。

这一类产品的核心策略是'贴近真实组织结构'，而不是重新定义操作方式。它们的优势在于落地速度快，能够迅速接入权限与数据体系，进入企业级场景。国内这一轮产品的演进，本质上是在围绕这一'执行闭环'，向更广泛的场景、组织方式与系统入口进行扩展。也正是在这个过程中，可以看到几个逐渐清晰的方向变化。第一个趋势是从AI Coding到AI Working。代码之所以最早成为Agent的主战场，是因为软件开发天然适合被自动化。但Coding Agent成熟之后，它的能力很自然会向外迁移。大多数知识工作本质上也有类似结构，文件就是上下文，浏览器就是信息入口，Office文档就是交付物，定时任务就是工作流，审批和修改意见就是反馈机制，它们同样是可以被拆解、执行和验证的多步骤任务。AI不再只是帮程序员写代码，而是开始帮知识工作者完成那些长期被认为'必须人工处理'的工作：整理文件、生成报告、清洗数行业信息。用户输入的也不再是'帮我写一个函数'，而是'帮我把这件事办完'。所以这一阶段的竞争，是谁能更好地把AI从回答问题，推进到交付结果。AI Coding改变的是程序员写代码的方式，AI Working改变的是普通人使用电脑完成工作的方式。第二个趋势，是Agent从'一个助手'变成'一支团队'。早期的AI助手更像一个能力很强的个人。用户提出问题，AI负责回答，用户下达任务，AI负责执行。但当任务变长、步骤变多、上下文变复杂之后，单个Agent很容易遇到瓶颈，它可能忘记目标，可能中途走偏，也可能在执行时缺少自我检查。以MiniMax推出的Agent Teams为例，它允许用户创建多个具备不同角色设定的Agent，并将它们组合成一个团队并行工作。不同Agent可以同时从不同角度处理同一任务，比如一个负责信息收集，一个负责方案生成，一个负责执行与整合，最终再由协调机制汇总结果，从而提升复杂任务的处理效率与稳定性。复杂任务正在被重新组织为一条多角色的流水线：从理解需求到规划、执行，再到验证结果，每一步都可以由不同的Agent接管，并在必要时继续细分为研究、设计、写作、代码与数据分析等更专门化的'岗位'。Agent Team的价值是让AI具备更稳定的工作结构，它可以并行处理多个子任务，缩短等待时间，同时让执行者和验证者相互制衡，减少低级错误；并且在任务失败时回滚、重试、换路径，把复杂工作沉淀成可复用的流程。但Agent Team也不是万能解法。多Agent会带来更高的成本、更复杂的调度，以及更多不确定性。

如果没有清晰的任务边界、权限控制和验收机制，多个Agent反而可能互相制造噪音。因此，真正关键的不是简单堆更多Agent，而是产品能否把它们组织成可控的工作流。这也是为什么'Agent Team'最终考验的不是界面，而是底层工程能力，长上下文、任务规划、工具调用、状态管理、日志追踪、错误恢复、权限审批，以及最后的结果验收。当这些机制逐渐成熟，用户和AI的关系也会变化。用户可以像管理一个小团队一样设定目标、查看进度、打断错误、确认结果。AI也从'帮手'变成'工作单元'，而产品则变成这些工作单元的调度系统。第三个趋势，是Agent的位置正在从应用内部，上升到操作系统层。IDE是Agent的理想起点，因为开发者可以主动给它较高权限，也能理解它在做什么。但如果Agent要服务更广泛的人群，只能以IDE的形态存在是不够的。真正的工作发生在文件夹、浏览器、聊天软件、邮件、表格、日历、网盘、本地应用和跨设备协作中。这也是为什么国内这一轮产品越来越强调'本地'、'桌面'、'远程控制'、'文件权限'、'应用调用'。所谓操作系统层，是在现有操作系统之上，长出一个新的意图执行层。Agent出现后，它开始帮你完成执行，Agent可以帮你去找文件、打开网页、调用应用、读写文档、产出结果.....这让Agent逐渐触及操作系统最核心的三种能力结构。一是上下文层面的能力，涉及对用户文件、历史记录、偏好以及当前任务的理解与整合，它决定系统能在多大程度上接近真实需求本身。二是执行层面的能力，体现在对浏览器、文件系统、本地应用乃至远程设备的调用与操作上，它决定系统是否具备真正的行动闭环，而不仅仅停留在信息生成。三是持续层面的能力，表现为在本地的常驻运行、任务的定时触发、跨设备的响应以及对用户习惯的长期沉淀，它决定系统能否从一次性工具转变为持续存在的工作入口。从AI Coding到AI Working，是能力边界的外扩；从单一Agent到Agent Team，是组织方式的重构；而从应用内部到操作系统层，则是权力位置的上移。这三条趋势其实指向同一个结果，也就是AI正在从聊天框里的内容生成器，变成电脑里的任务执行者。最后附上一份目前主要产品的关键信息横向对比表，供大家更直观感受。这类形态的产品也会继续不停冒出来。注：以上统计截止2026年6月24日，部分产品月度付费起步价按连续包月套餐起步价计算，此处的大部分国产常见模型有GLM系列、Deepseek系列、MiniMax系列、Kimi系列等模型。本文来自微信公众号'硅星人Pro'，作者：孙芮，36氪经授权发布。这场桌面Agent的爆发，标志着AI产业正式进入'执行时代'，未来的竞争将不再局限于模型参数的比拼，而是转向对真实工作流的深度理解与掌控。谁能率先解决权限、稳定性与误操作等核心痛点，谁就能在2026年后的AI办公市场中占据主导地位。这不仅是技术的胜利，更是人机协作范式的根本性变革。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WooFun

9488 篇

文章总数

热门资讯