Gemini Omni · Google DeepMind

Видео из чего угодно. Думайте сценой — не моделью

Одна нейросеть берёт любую комбинацию входов: текст, до 7 фото, аудио, исходное видео — и за один проход рендерит готовый ролик со звуком. Не нужно собирать его из нескольких моделей: одна модель «понимает» все входы сразу — и картинку, и звук, и движение в кадре.

Как работает

5режимов в одной модели

до 4Kкачество видео

до 7референсов одновременно

Промпт + фото героя

Главный герой с референсов выходит из тёмного коридора на крышу под рассветным небом, медленный наезд камеры, мягкий контровой свет, частицы пыли в воздухе, кинематографичная цветокоррекция.

→

Один проход

→

Видео + звук

Как это работает

Четыре шага — от идеи до готового ролика. Никаких внешних редакторов, никаких отдельных моделей для озвучки, никаких ежемесячных подписок.

Соберите входы

Обязателен только текстовый промпт. Дальше — по необходимости: до 7 фото (товар, лицо героя, цветовая палитра), исходное видео для перерисовки (длиной до 30 сек — модель возьмёт из него отрезок до 10 сек), готовые персонажи или готовые голоса.

Опишите сцену

В промпте (до 10 000 символов) распишите: что в кадре, как движется камера, освещение, настроение, ритм. Модель учтёт ваши референсы и удержит героя в центре сцены.

Один проход — видео+звук

Выберите длительность (4 / 6 / 8 / 10 сек) и разрешение (720p / 1080p / 4K). Модель сделает видео и подходящий звук за одну задачу — без отдельной озвучки и монтажа.

Доведите до идеала

Не подошёл результат? Попробуйте другой режим, поменяйте референсы или уточните промпт. Эксперименты идут с того же баланса кредитов — никаких новых подписок не нужно.

Пять режимов — одна модель

Gemini Omni сама выбирает режим — по тому, что вы загрузили на странице «Создать видео». Загрузили фото — будет «из фото в видео», добавили видео — будет «перерисовка», ничего не загрузили — «только текст». Никаких отдельных моделей под каждый сценарий.

Из текста в видео

Только промпт

Опишите сцену словами — модель сама придумает кадрирование, освещение и движение камеры. Звук (физика, окружение, голоса) генерируется вместе с картинкой — той же нейросетью. Подходит для быстрых набросков, проверки идей и первых черновиков.

Из фото в видео

До 7 фото-референсов

Соберите ключевые кадры, продукт, стиль и палитру — модель свяжет их в одно видео. Многоракурсная съёмка одного героя или плавный переход между стилями становятся вопросом загрузки нужных картинок.

Из видео в видео

Перерисовка исходного видео

Загрузите исходник длиной до 30 секунд — модель возьмёт из него отрезок до 10 секунд и переснимет в новом стиле. Меняйте освещение, сезон, время суток, художественный стиль или объекты по описанию. Композиция, тайминг и движение камеры сохраняются.

Из персонажа в видео

Один герой во всех роликах

Привяжите до трёх готовых персонажей — лицо, фигура и стиль останутся одинаковыми во всех генерациях. Удобно для серий рекламных роликов, аватаров и личных брендов.

Звук → видео

Голос диктора и музыка

Подключите до трёх готовых голосов — модель сгенерирует видео с закадровым текстом или диктором в кадре. Губы синхронизируются с речью сразу при генерации — без отдельного монтажа.

10 примеров с Google I/O 2026

Демо со сцены Google показывают весь спектр возможностей: физика и звук, реалистичные руки и отражения, художественные стили, превращение объектов, кинетическая типографика. Все ролики идут с CDN Clipia.

Физика + звукШарики в деревянном лабиринте — каждое столкновение со своим звуком

Реалистичные рукиСложная анимация рук с летающими сферами — без артефактов

ОтраженияХром и зеркала — корректные отражения окружения

Превращение объектовРыба превращается в кита — модель сохраняет движение и атмосферу

Замена действияЗамена сюжета действия в готовом ролике — сцена та же, герои новые

Перенос стиляХудожественные стили накладываются на людей без потери лиц

ГолограммаПревращение реального видео в голограмму — футуристичная эстетика

Текст + действиеКинетическая типографика, идеально совпадающая с действием на экране

Пластилин + объяснениеStop-motion claymation: пластилиновый объяснительный ролик

Озвученная наукаНаучный объяснительный ролик с закадровым голосом, синхронизированным с действием

4 входа → одно видео

Канонический пример Google: видео папоротника + изображение светлячков + аудио арфы + текстовый промпт — модель сводит всё это в одну сцену. Это и есть «одна модель для всех типов входов» на практике.

Вход 1 · ВидеоПапоротник на ветруРеальное видео — модель берёт движение листьев и атмосферу.

Вход 2 · ИзображениеСветлячки на чёрном фонеКартинка добавляет визуальный мотив — модель распределяет светлячков по сцене.

Вход 3 · АудиоСоло арфыАудиодорожка задаёт ритм — на её фоне светлячки пульсируют в такт.

Вход 4 · Промпт«Сделай светлячков, кружащих над листьями в ритме музыки»Текст связывает три предыдущих входа в режиссуру конкретной сцены.

Результат · Видео

Правки в чате — уточняйте видео текстом

Главная UX-фишка Gemini Omni: после генерации правьте ролик уточнениями — словами, как пишете в чате. Модель помнит контекст переписки и обновляет только то, что вы попросили — лица, тайминг и логика сцены сохраняются. Это не Photoshop и не «волшебная палочка», а пошаговый диалог с моделью.

«Сгенерируй сцену с DJ в студии»

«Уберите со стола DJ-пульт, но оставьте всё остальное»

«Покажите ту же сцену сверху»

«Перенесите DJ в открытое поле на закате»

Стилизация видео — от эскиза до голограммы

Загрузите готовое видео и опишите стиль — модель переписывает сцену, сохраняя движение и тайминг. Подмена объектов и эстетики работает по текстовому описанию, без масок и ручного обведения контуров.

Эскиз карандашом

Кукольная анимация

Воксельная графика

Жидкий металл

Голограмма

Что умеет Gemini Omni

Четыре ключевых отличия от классических T2V-моделей вроде Veo 3.1, Sora 2, Kling 3 и Seedance 2.0.

До 7 референсов сразу

Соберите ключевые кадры, цветовую палитру, лицо героя и стиль — всё одним запросом. Общая квота: 7 «слотов» на изображения, видео и персонажей (каждое изображение = 1 слот, видео = 2, готовый персонаж = 1).

Один и тот же персонаж

До трёх привязанных персонажей. Лицо и фигура героя сохраняются между разными генерациями — серии роликов, аватары и франшизы становятся реальными без обучения дополнительных моделей.

Звук вместе с видео

Звук — физика, окружение, голоса — генерируется той же нейросетью, что и картинка, поэтому он согласован с движением в кадре. Не нужен отдельный генератор речи — всё за один проход.

До 4K и 10 секунд

720p для быстрых черновиков, 1080p для соцсетей, 4K — для финального продакшена. Длительности 4 / 6 / 8 / 10 секунд под нужный формат.

Под какие задачи подходит

Шесть сценариев, в которых разные типы входов в одной модели дают ощутимый прирост скорости.

РекламаРеклама и продающие ролики

Короткое киноКороткие истории и тизеры

АватарыЦифровые аватары и ведущие

ПродуктДемо продуктов и анбоксинги

Музыкальное видеоМузыкальные клипы и синхрон с губами

Объяснительные роликиОбъяснительные ролики и наука

Почему через Clipia

Три практичные причины — без маркетинговой воды.

Один процесс на всё

Не нужно переключаться между «из текста», «из фото» и «из видео» в разных интерфейсах. Любой вход — в одном окне, одна модель, одна цена.

Без подписки Google AI Plus

На сайте Google требуется AI Plus за $20/мес. На Clipia — кредиты с тарифа, оплата картой РФ или СБП, поддержка на русском.

Рядом — десятки моделей

Здесь же Sora 2, Veo 3.1, Seedance 2.0, Kling 3, Wan 2.7. Можно сравнить результат на одном промпте за пару минут.

Что такое Gemini Omni?

Новая модель Google, анонсированная на Google I/O 2026. Принимает на вход текст, до 7 изображений, видео и аудио — выдаёт видео длиной 4–10 секунд в разрешении до 4K со звуком за один проход. Главное отличие от Veo 3.1, Sora 2 и Kling 3 — это не цепочка из нескольких моделей, а одна нейросеть, которая работает со всеми входами сразу.

Какие режимы поддерживаются?

Пять: «только текст», «текст + до 7 фото», «текст + исходное видео до 30 секунд» (модель возьмёт из него отрезок до 10 сек), «текст + до 3 готовых персонажей» (для сохранения героя между роликами) и «текст + до 3 готовых голосов». Режим выбирается автоматически — по тому, какие поля вы заполнили на странице «Создать видео».

Что за «квота на референсы»?

У модели общий бюджет в 7 «слотов» на ваши входы: каждое изображение = 1 слот, исходное видео = 2 слота, готовый персонаж = 1 слот. Готовые голоса в квоту не входят. Например: 5 фото + 1 персонаж = 6 слотов — норм. 6 фото + 1 видео = 8 — превышение, запрос будет отклонён до отправки.

Какая длительность доступна?

Четыре фиксированных значения: 4, 6, 8 и 10 секунд. В режиме «из видео в видео» длительность задаётся отрезком исходного видео (начало–конец), но не больше 10 секунд за раз. На сайте Google тоже максимум 10 секунд.

Какие разрешения и форматы?

720p (по умолчанию), 1080p и 4K. Соотношение сторон — 16:9 или 9:16. Квадратное 1:1 на старте не поддерживается (только горизонтальное и вертикальное для Shorts/Reels). 4K стоит и считается примерно вдвое дольше 1080p.

Сколько стоит генерация?

Цена зависит от разрешения и длительности. От 40 кредитов за 720p × 4 секунды до 145 кредитов за 4K × 10 секунд. Промежуточные комбинации: 1080p × 8 с = 90 кредитов, 4K × 6 с = 115 кредитов. 4K стоит примерно в 2 раза дороже 1080p. Кредиты идут с баланса вашего тарифа.

Что такое «готовый персонаж»?

Это сохранённый идентификатор персонажа — лицо и фигура, которые модель удерживает одинаковыми в разных роликах. Удобно для серий с одним героем: рекламной кампании, набора аватаров, эпизодов. Сейчас готовые персонажи создаются вручную через поддержку — самостоятельная загрузка появится позже.

Что такое «готовый голос»?

Это сохранённые голоса для закадрового текста или диктора в кадре. Модель сама подстраивает движение губ и интонацию под текст. На одну генерацию можно использовать до 3 готовых голосов. Пока работа с голосами идёт через поддержку — публичный каталог появится позже.

Можно ли использовать видео коммерчески?

Да. Все генерации на платных тарифах Clipia (Basic / Standard / Pro / Ultima) можно использовать в рекламе, контенте, продуктах и продавать клиентам. Дополнительно Google ставит SynthID — невидимую метку в видео, которая показывает, что ролик сделан AI. Это новый отраслевой стандарт прозрачности.

Чем отличается от Sora 2, Veo 3.1 и Seedance 2.0?

Sora 2 — кинематографичная физика и длинные клипы до 25 секунд. Veo 3.1 — фиксированные 8 секунд со звуком. Kling 3 — длинные клипы 3–15 с и многосценные ролики. Seedance 2.0 — до 9 референсов и быстрая генерация. Gemini Omni выделяется широтой входов: единственная модель, где в одном запросе сходятся текст, до 7 фото, видео, один и тот же персонаж и аудио — всё в одной нейросети. Все четыре доступны на Clipia — выбирайте под задачу.

Демо-видео — Google DeepMind, Gemini Omni keynote, май 2026. Зеркалированы на CDN Clipia для скорости загрузки. · оригинал →

Видео из чего угодно. Думайте сценой — не моделью