谷歌Gemini 3.5 Flash原生操控电脑

23BTC 资讯速递自动整理 · 结构化解读

核心摘要

谷歌将电脑操控（Computer Use）功能作为内置工具，直接整合进其主力大模型Gemini 3.5 Flash。此前，开发者需要调用专门的Gemini 2.5电脑操控模型才能执行代理任务，如今原生集成后，开发人员与企业用户可以直接通过Gemini API或谷歌云Gemini企业智能体平台（原Vertex AI平台）让主力模型操控设备，极大简化了智能体开发架构。

正文解读

内置的电脑操控工具通过接收浏览器、移动端或桌面环境的屏幕截图，进行视觉感知与步骤推理，随后输出鼠标点击、键盘输入、滚轮滚动及菜单导航等操作指令，用于完成软件持续测试、跨网页数据采集等长流程自动化任务。模型生成指令时会附带“意图”字段，说明每一步操作的逻辑，方便调试与审计。

针对智能体在真实网络环境中可能遭遇的提示词注入风险，谷歌对模型进行了定向对抗训练，并提供两项可选防护：涉及资金支付、文件删除等不可逆操作时强制引入人工核准；截图中若发现间接注入指令则自动熔断任务。目前，Browserbase提供了在线托管演示环境（gemini.browserbase.com），谷歌官方也在GitHub开源了名为computer-use-preview的参考实现代码。

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/193923/

谷歌Gemini 3.5 Flash原生操控电脑

正文解读

相关推荐