Обзор новинок Google I/O 2025: Gemini 2.5, Imagen 4, Veo 3 и Flow

21.05.2025

77 Просмотров 0

Обзор новинок Google I O 2025 Gemini 2.5, Imagen 4, Veo 3 и Flow

На конференции I/O 2025 компания Google представила ряд значительных обновлений в области искусственного интеллекта (ИИ). Основное внимание было уделено улучшению существующих моделей и представлению новых инструментов для создания изображений, видео и даже полноценных фильмов с использованием ИИ.

Gemini 2.5: расширенные возможности языковых моделей

Семейство моделей Gemini пополнилось версией 2.5, представленной в двух вариантах: Pro и Flash. Gemini 2.5 получила расширенную языковую поддержку, охватывающую более 24 языков, а также функцию преобразования текста в речь с выразительными голосами. Разработчики Google утверждают, что Gemini 2.5 демонстрирует улучшенные возможности в рассуждении, мультимодальном взаимодействии, кодировании и обработке длинных контекстов.

Особого внимания заслуживает режим Deep Think в версии Pro, предназначенный для решения сложных задач, связанных с математикой и кодированием. Хотя эта функция пока находится на стадии тестирования, Google заявляет, что она способна рассматривать несколько гипотез, прежде чем дать ответ.

Gemini 2.5 Pro уже демонстрирует впечатляющие результаты в тестах WebDev Arena и LMArena, а также предлагает улучшенные инструменты для кодирования и создания веб-приложений. Объем контекстного окна составляет до 1 миллиона токенов, что позволяет модели лучше понимать длинные и сложные запросы. Также была улучшена защита от непрямых инъекций подсказок, что повышает безопасность использования модели.

Gemini 2.5 Flash уже доступна в ознакомительной версии для всех пользователей приложения Gemini, а общий релиз запланирован на июнь. Коммерческий релиз Gemini 2.5 Pro ожидается вскоре после этого.

Imagen 4: генерация изображений высокого разрешения

Imagen 4, новое поколение генератора изображений от Google, теперь может создавать изображения с разрешением до 2K.

Разработчики утверждают, что значительно улучшили точность отображения текста на сгенерированных изображениях, таких как карточки, плакаты и комиксы. Imagen 4 уже доступен в приложениях Gemini, Google Workspace, Whisk и Vertex AI.

Veo 3: реалистичные видеоролики с ИИ

Veo 3 – это новейшая модель для генерации видео от Google. Главным преимуществом Veo 3 является улучшенное распознавание текста в видео. Она также способна создавать видеоролики со звуком, включая диалоги персонажей и фоновые шумы. Veo 3 уже доступна подписчикам Google AI Ultra в США и корпоративным пользователям Vertex AI.

Veo 2, предыдущая версия модели, также получила ряд улучшений, включая функции управления движением камеры, добавления и удаления объектов. Пользователи могут добавлять изображения для управления стилем и перерисовывать кадры, чтобы расширить границы исходного видео.

Flow: создание фильмов с помощью ИИ

Flow – это новый инструмент от Google, предназначенный для создания фильмов с использованием искусственного интеллекта. Он объединяет возможности моделей Veo, Imagen и Lyria для создания кинематографических сцен с высокой степенью детализации.

Google заявляет, что Flow позволяет создавать исключительные кинематографические клипы с реалистичной физикой и детализацией. Пользователи могут управлять движением камеры, углами обзора и перспективой, а также редактировать и расширять ранее созданные видео. Google Flow доступен подписчикам Google AI Pro и Ultra в США.

В целом, анонсы Google I/O 2025 демонстрируют значительный прогресс в развитии технологий искусственного интеллекта, особенно в области генерации контента. Новые модели и инструменты, такие как Gemini 2.5, Imagen 4, Veo 3 и Flow, открывают новые возможности для творчества и решения сложных задач в различных областях.