
На конференции I/O 2025 компания Google представила ряд значительных обновлений в области искусственного интеллекта (ИИ). Основное внимание было уделено улучшению существующих моделей и представлению новых инструментов для создания изображений, видео и даже полноценных фильмов с использованием ИИ.
Gemini 2.5: расширенные возможности языковых моделей
Семейство моделей Gemini пополнилось версией 2.5, представленной в двух вариантах: Pro и Flash. Gemini 2.5 получила расширенную языковую поддержку, охватывающую более 24 языков, а также функцию преобразования текста в речь с выразительными голосами. Разработчики Google утверждают, что Gemini 2.5 демонстрирует улучшенные возможности в рассуждении, мультимодальном взаимодействии, кодировании и обработке длинных контекстов.

Особого внимания заслуживает режим Deep Think в версии Pro, предназначенный для решения сложных задач, связанных с математикой и кодированием. Хотя эта функция пока находится на стадии тестирования, Google заявляет, что она способна рассматривать несколько гипотез, прежде чем дать ответ.
Gemini 2.5 Pro уже демонстрирует впечатляющие результаты в тестах WebDev Arena и LMArena, а также предлагает улучшенные инструменты для кодирования и создания веб-приложений. Объем контекстного окна составляет до 1 миллиона токенов, что позволяет модели лучше понимать длинные и сложные запросы. Также была улучшена защита от непрямых инъекций подсказок, что повышает безопасность использования модели.
Gemini 2.5 Flash уже доступна в ознакомительной версии для всех пользователей приложения Gemini, а общий релиз запланирован на июнь. Коммерческий релиз Gemini 2.5 Pro ожидается вскоре после этого.
Imagen 4: генерация изображений высокого разрешения
Imagen 4, новое поколение генератора изображений от Google, теперь может создавать изображения с разрешением до 2K.
Разработчики утверждают, что значительно улучшили точность отображения текста на сгенерированных изображениях, таких как карточки, плакаты и комиксы. Imagen 4 уже доступен в приложениях Gemini, Google Workspace, Whisk и Vertex AI.
Veo 3: реалистичные видеоролики с ИИ
Veo 3 – это новейшая модель для генерации видео от Google. Главным преимуществом Veo 3 является улучшенное распознавание текста в видео. Она также способна создавать видеоролики со звуком, включая диалоги персонажей и фоновые шумы. Veo 3 уже доступна подписчикам Google AI Ultra в США и корпоративным пользователям Vertex AI.

Veo 2, предыдущая версия модели, также получила ряд улучшений, включая функции управления движением камеры, добавления и удаления объектов. Пользователи могут добавлять изображения для управления стилем и перерисовывать кадры, чтобы расширить границы исходного видео.
Flow: создание фильмов с помощью ИИ
Flow – это новый инструмент от Google, предназначенный для создания фильмов с использованием искусственного интеллекта. Он объединяет возможности моделей Veo, Imagen и Lyria для создания кинематографических сцен с высокой степенью детализации.

Google заявляет, что Flow позволяет создавать исключительные кинематографические клипы с реалистичной физикой и детализацией. Пользователи могут управлять движением камеры, углами обзора и перспективой, а также редактировать и расширять ранее созданные видео. Google Flow доступен подписчикам Google AI Pro и Ultra в США.
В целом, анонсы Google I/O 2025 демонстрируют значительный прогресс в развитии технологий искусственного интеллекта, особенно в области генерации контента. Новые модели и инструменты, такие как Gemini 2.5, Imagen 4, Veo 3 и Flow, открывают новые возможности для творчества и решения сложных задач в различных областях.
- Xiaomi 16 получит Snapdragon 8 Elite 2, Xring оставят для 16 Ultra, 16S Pro
- Новые CAD-рендеры Galaxy Z Fold 7 и Z Flip 7 раскрывают секреты тонкого дизайна
- Долгожданный приквел «Оно» от HBO Max «Добро пожаловать в Дерри» наконец-то обзавелся трейлером
- Netflix хочет интегрировать рекламу в драматические сцены с помощью ИИ




