
Чем удивил новый агент на базе GPT-4o и какие вопросы остались без ответа?
24 января 2025 — Компания OpenAI анонсировала Operator — революционный инструмент на базе модели Computer-Using Agent (CUA), способный выполнять задачи на вашем компьютере, словно живой помощник. Агент анализирует экран, кликает мышью, печатает текст и даже исправляет ошибки, имитируя действия человека. Рассказываем, как это работает, чем отличается от конкурентов и какие подводные камни стоит учесть.
Что умеет Operator?
Operator доступен для подписчиков ChatGPT Pro ($200/месяц) на сайте operator.chatgpt.com. Позже его интегрируют в ChatGPT для корпоративных клиентов и выпустят API для разработчиков.
Как это выглядит:
- Видит экран: Агент делает скриншоты и анализирует элементы (кнопки, поля ввода) через GPT-4o с дополненным обучением.
- Действует: Симулирует нажатия клавиш, клики мыши, прокрутку. В режиме реального времени отображает свои действия в мини-окне браузера.
- Учится на ошибках: Если что-то пошло не так, Operator пробует другой подход, как человек.
Пока что идеально только для рутины:
- Сильные стороны: Составление списков покупок, плейлистов, поиск информации на сайтах (87% успеха на тесте WebVoyager с Amazon и Google Maps).
- Слабые места: Путается в таблицах, календарях (40% успеха в редактировании текста), плохо справляется с задачами в ОС (38% против 72% у человека).
Чем Operator лучше аналогов?
OpenAI — не первопроходец в «агентных» AI-системах. В декабре 2024 Google запустила Project Mariner для автоматизации в Chrome, а Anthropic в октябре представила Claude Computer Use для разработчиков.
Главные отличия Operator:
- Универсальность: Работает не только в браузере, но и с программами на ПК.
- Интерфейс: Напоминает демо-версию Claude, но более интуитивен — чат слева, экран действий справа.
«Дизайн Operator явно вдохновлен решением Anthropic, — отмечает исследователь AI Саймон Уиллисон. — Но OpenAI сделала ставку на массовость, а не только на разработчиков».
Безопасность и приватность: доверять ли агенту?
Любой AI, который видит ваш экран и управляет компьютером, вызывает вопросы. OpenAI заявляет о встроенных защитах:
- Подтверждение действий: Перед отправкой письма или оплатой заказа Operator запрашивает разрешение.
- Ограничения: Не заходит на сайты для взрослых, азартные игры и другие «опасные» категории.
- Режим приватности: При вводе паролей или платежных данных сбор скриншотов прекращается.
Но эксперты сомневаются:
- Уязвимость к взлому: Традиционные AI-модели легко обмануть через prompt-инъекции. В OpenAI признают, что в тестах пропустили 1 из 10 случаев.
- Данные в облаке: Скриншоты отправляются на серверы OpenAI. Компания разрешает отключать сбор данных для обучения и удалять историю в один клик.
«Скептически отношусь к безопасности Operator, — пишет Уиллисон. — Как только его начнут тестировать массово, появятся новые способы взлома».
Совет от эксперта:
- Используйте отдельные сессии для каждой задачи.
- Не сохраняйте платежные данные в Operator — вводите их вручную на этапе оплаты и сразу очищайте историю.
Что дальше?
OpenAI позиционирует Operator как «исследовательский превью» — технология сырая, но компания собирает отзывы для улучшения. Пока агент подойдет тем, кто готов мириться с ошибками ради автоматизации скучных задач.
Главные вопросы на будущее:
- Смогут ли ИИ-агенты полностью заменить виртуальных ассистентов вроде Siri?
- Как регулировать их доступ к личным данным?
- Станет ли Operator таким же прорывом, как ChatGPT в 2022?
Пока ответов нет, но ясно одно: гонка за созданием идеального AI-помощника вышла на новый уровень.
Подписывайтесь на наш Telegram-канал, чтобы первыми узнавать о тестах Operator и других AI-новинках!
P.S. Если решите попробовать Operator, помните: не доверяйте ему критически важные задачи и всегда проверяйте результат. Технологии умнеют, но идеальных пока нет.
Источник — arstechnica