登录
注册
Woofun AI 获悉,谷歌已将 "Computer Use" 功能原生集成至旗舰模型 Gemini 3.5 Flash 中。此前开发人员需依赖专用的 Gemini 2.5 Computer Use 模型执行代理任务,现在用户可直接通过 Gemini API 或谷歌云 Gemini 企业代理平台(原 Vertex AI)控制设备,从而简化代理程序开发流程。
该内置工具利用浏览器、移动设备或桌面环境的屏幕截图进行视觉识别与步骤推理,生成鼠标点击、键盘输入等操作指令,以完成软件回归测试等长流程自动化任务。为便于调试,模型在指令中添加 "意图" 字段说明逻辑依据。针对指令注入风险,谷歌进行了对抗性训练,并提供人工审核不可逆操作及自动终止异常任务两项保护措施。目前 Browserbase 提供在线演示,谷歌也在 GitHub 开源了参考实现代码。