谷歌将电脑操控(Computer Use)功能作为内置工具,直接整合进其主力大模型Gemini 3.5 Flash。此前,开发者需要调用专门的Gemini 2.5电脑操控模型才能执行代理任务,如今原生集成后,开发人员与企业用户可以直接通过Gemini API或谷歌云Gemini企业智能体平台(原Vertex AI平台)让主力模型操控设备,极大简化了智能体开发架构。
正文解读
内置的电脑操控工具通过接收浏览器、移动端或桌面环境的屏幕截图,进行视觉感知与步骤推理,随后输出鼠标点击、键盘输入、滚轮滚动及菜单导航等操作指令,用于完成软件持续测试、跨网页数据采集等长流程自动化任务。模型生成指令时会附带“意图”字段,说明每一步操作的逻辑,方便调试与审计。
针对智能体在真实网络环境中可能遭遇的提示词注入风险,谷歌对模型进行了定向对抗训练,并提供两项可选防护:涉及资金支付、文件删除等不可逆操作时强制引入人工核准;截图中若发现间接注入指令则自动熔断任务。目前,Browserbase提供了在线托管演示环境(gemini.browserbase.com),谷歌官方也在GitHub开源了名为computer-use-preview的参考实现代码。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/193923/



