谷歌发布Gemini 2.5 Computer Use模型: 专攻浏览器交互
IT之家10月8日消息,谷歌正在预览一款全新的Gemini人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使AI智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini2.5计算机使用”(Gemini2.5ComputerUse)的模型,利用“视觉理解与推理能力”分析用户的请求,并完成相应任务,例如填写并提交表单。
该模型可用于用户界面测试,或用于操作那些仅面向人类用户、未提供API或其他直接接口的系统。此前,此类模型已应用于谷歌AI模式(AIMode)中的智能体功能,以及研究原型项目“Mariner”,该项目利用AI智能体在浏览器中自主执行任务,例如根据食材清单自动将商品添加到购物车。
谷歌此次发布恰逢OpenAI在其年度开发者日(DevDay)宣布推出ChatGPT新应用的次日。OpenAI正持续聚焦其“ChatGPT智能体”(ChatGPTAgent)功能,该功能可代表用户完成复杂任务。与此同时,Anthropic公司已于去年发布了其ClaudeAI模型的“计算机使用”(computeruse)版本。
IT之家注意到,谷歌发布了一些演示视频,展示了“计算机使用”工具的实际运行效果,并注明视频播放速度已加快至3倍。谷歌表示,其计算机使用模型“在多个网页和移动端基准测试中优于现有领先方案”。与ChatGPT智能体和Anthropic的计算机使用工具不同,谷歌的新AI模型仅限于访问浏览器环境,无法操控整个计算机系统。谷歌特别指出,该模型“尚未针对桌面操作系统层级的控制进行优化”,目前支持13种操作,包括打开网页浏览器、输入文本,以及拖放页面元素等。
Gemini2.5计算机使用模型现已通过GoogleAIStudio和VertexAI向开发者开放。此外,Browserbase平台也提供了在线演示,用户可实时观看该模型完成诸如“玩一局2048游戏”或“浏览HackerNews上的热门讨论”等任务。
