Google представила новую модель искусственного интеллекта Gemini 2.5 Computer Use, которая может осуществлять навигацию и серфинг в интернете с помощью виртуального браузера.
Модель позволяет агентам ИИ выполнять задачи, взаимодействуя напрямую с графическими интерфейсами – например, заполнять формы, нажимать кнопки, прокручивать страницы и выполнять операции, скрытые за учётными записями.
«Возможность заполнять формы, манипулировать интерактивными элементами – такими, как раскрывающиеся списки и фильтры, – а также работать с учётными записями является важнейшим шагом на пути к созданию мощных универсальных агентов.»
Разработчики получают доступ к модели через компьютерный инструмент, работающий в цикле. Входные данные включают запрос пользователя, снимок экрана среды и историю последних действий. Модель генерирует ответы в виде действий пользовательского интерфейса, которые выполняются клиентским кодом. Цикл продолжается с обновлёнными снимками экрана и контекстом до завершения задачи.
Модель оптимизирована для веб-браузеров и демонстрирует потенциал для управления через мобильный интерфейс, но пока не предназначена для задач на уровне настольных операционных систем. Демонстрации включают передачу данных об уходе за домашними животными в CRM-систему и организацию цифровых стикеров по категориям.
Gemini 2.5 Computer Use продемонстрировала высокие результаты в тестах веб- и мобильных приложений, включая Online-Mind2Web, WebVoyager и AndroidWorld. По данным DeepMind, модель обеспечивает высокую точность при низкой задержке: точность превышает 70%, а задержка составляет около 2,25 секунд.

Google DeepMind подчеркнула важность безопасности, отметив, что агенты ИИ, управляющие компьютерами, несут в себе такие риски, как неправомерное использование, непредсказуемое поведение и веб-мошенничество. Компания заявила, что интегрировала функции безопасности в модель и предоставляет разработчикам средства контроля для предотвращения вредоносных действий. В DeepMind заявили:
«Разработчики могут дополнительно указать, что агент должен либо отказать, либо запросить подтверждение пользователя, прежде чем выполнять определённые виды высокорисковых действий.»
Предварительная версия Gemini 2.5 Computer Use доступна разработчикам через API Gemini в Google AI Studio и Vertex AI Studio.