Gemini2.5Computer Use:谷歌推出“看”懂网页的 AI 代理模型

AI中国

AI技术专栏作家 | 发布了 246 篇文章

谷歌近日预览了一款全新的 Gemini AI 模型——Gemini2.5Computer Use，旨在赋予 AI 代理通过浏览器导航和交互网页的能力。这款模型利用其强大的“视觉理解和推理能力”，能够像人类一样分析用户请求，并在原本为人类而非机器人设计的界面内执行复杂操作，例如填写和提交表单。

AI 代理的新前沿

Gemini2.5Computer Use 使得 AI 能够执行过去需要人类干预的任务。它的主要应用场景包括 UI 测试，以及为那些没有 API 或直接连接的用户导航网页界面。该模型的早期版本曾用于 Mariner 项目——一个使用 AI 代理在浏览器中自行完成任务的研究原型，比如根据配料列表将商品添加到购物车。

这款新模型的发布正值 AI 代理功能竞争白热化之际。就在谷歌宣布的前一天，OpenAI 在其开发者日上发布了新的 ChatGPT 应用并持续关注其 Agent 功能，该功能可为用户完成复杂任务。同时，Anthropic 去年也发布了一个带有“计算机使用”功能的 Claude AI 模型版本。

性能与限制

谷歌声称，其 Gemini2.5Computer Use 模型“在多个网络和移动基准测试中均优于领先的替代方案”。

然而，与 ChatGPT Agent 和 Anthropic 的类似工具不同，谷歌的新 AI 模型目前只能访问浏览器环境，而不能控制整个计算机环境。谷歌指出，该模型“尚未针对桌面操作系统级别的控制进行优化”，当前支持 13种操作，包括打开网络浏览器、输入文本以及拖放元素。