Одна нейросеть берёт любую комбинацию входов: текст, до 7 фото, аудио, исходное видео — и за один проход рендерит готовый ролик со звуком. Не нужно собирать его из нескольких моделей: одна модель «понимает» все входы сразу — и картинку, и звук, и движение в кадре.
Главный герой с референсов выходит из тёмного коридора на крышу под рассветным небом, медленный наезд камеры, мягкий контровой свет, частицы пыли в воздухе, кинематографичная цветокоррекция.
Четыре шага — от идеи до готового ролика. Никаких внешних редакторов, никаких отдельных моделей для озвучки, никаких ежемесячных подписок.
Обязателен только текстовый промпт. Дальше — по необходимости: до 7 фото (товар, лицо героя, цветовая палитра), исходное видео для перерисовки (длиной до 30 сек — модель возьмёт из него отрезок до 10 сек), готовые персонажи или готовые голоса.
В промпте (до 10 000 символов) распишите: что в кадре, как движется камера, освещение, настроение, ритм. Модель учтёт ваши референсы и удержит героя в центре сцены.
Выберите длительность (4 / 6 / 8 / 10 сек) и разрешение (720p / 1080p / 4K). Модель сделает видео и подходящий звук за одну задачу — без отдельной озвучки и монтажа.
Не подошёл результат? Попробуйте другой режим, поменяйте референсы или уточните промпт. Эксперименты идут с того же баланса кредитов — никаких новых подписок не нужно.
Главная UX-фишка Gemini Omni: после генерации правьте ролик уточнениями — словами, как пишете в чате. Модель помнит контекст переписки и обновляет только то, что вы попросили — лица, тайминг и логика сцены сохраняются. Это не Photoshop и не «волшебная палочка», а пошаговый диалог с моделью.
Демо-видео — Google DeepMind, Gemini Omni keynote, май 2026. Зеркалированы на CDN Clipia для скорости загрузки. · оригинал →
Gemini Omni сама выбирает режим — по тому, что вы загрузили на странице «Создать видео». Загрузили фото — будет «из фото в видео», добавили видео — будет «перерисовка», ничего не загрузили — «только текст». Никаких отдельных моделей под каждый сценарий.
Опишите сцену словами — модель сама придумает кадрирование, освещение и движение камеры. Звук (физика, окружение, голоса) генерируется вместе с картинкой — той же нейросетью. Подходит для быстрых набросков, проверки идей и первых черновиков.
Соберите ключевые кадры, продукт, стиль и палитру — модель свяжет их в одно видео. Многоракурсная съёмка одного героя или плавный переход между стилями становятся вопросом загрузки нужных картинок.
Загрузите исходник длиной до 30 секунд — модель возьмёт из него отрезок до 10 секунд и переснимет в новом стиле. Меняйте освещение, сезон, время суток, художественный стиль или объекты по описанию. Композиция, тайминг и движение камеры сохраняются.
Привяжите до трёх готовых персонажей — лицо, фигура и стиль останутся одинаковыми во всех генерациях. Удобно для серий рекламных роликов, аватаров и личных брендов.
Подключите до трёх готовых голосов — модель сгенерирует видео с закадровым текстом или диктором в кадре. Губы синхронизируются с речью сразу при генерации — без отдельного монтажа.
Демо со сцены Google показывают весь спектр возможностей: физика и звук, реалистичные руки и отражения, художественные стили, превращение объектов, кинетическая типографика. Все ролики идут с CDN Clipia.
Канонический пример Google: видео папоротника + изображение светлячков + аудио арфы + текстовый промпт — модель сводит всё это в одну сцену. Это и есть «одна модель для всех типов входов» на практике.
Загрузите готовое видео и опишите стиль — модель переписывает сцену, сохраняя движение и тайминг. Подмена объектов и эстетики работает по текстовому описанию, без масок и ручного обведения контуров.
Четыре ключевых отличия от классических T2V-моделей вроде Veo 3.1, Sora 2, Kling 3 и Seedance 2.0.
Соберите ключевые кадры, цветовую палитру, лицо героя и стиль — всё одним запросом. Общая квота: 7 «слотов» на изображения, видео и персонажей (каждое изображение = 1 слот, видео = 2, готовый персонаж = 1).
До трёх привязанных персонажей. Лицо и фигура героя сохраняются между разными генерациями — серии роликов, аватары и франшизы становятся реальными без обучения дополнительных моделей.
Звук — физика, окружение, голоса — генерируется той же нейросетью, что и картинка, поэтому он согласован с движением в кадре. Не нужен отдельный генератор речи — всё за один проход.
720p для быстрых черновиков, 1080p для соцсетей, 4K — для финального продакшена. Длительности 4 / 6 / 8 / 10 секунд под нужный формат.
Шесть сценариев, в которых разные типы входов в одной модели дают ощутимый прирост скорости.
Три практичные причины — без маркетинговой воды.
Не нужно переключаться между «из текста», «из фото» и «из видео» в разных интерфейсах. Любой вход — в одном окне, одна модель, одна цена.
На сайте Google требуется AI Plus за $20/мес. На Clipia — кредиты с тарифа, оплата картой РФ или СБП, поддержка на русском.
Здесь же Sora 2, Veo 3.1, Seedance 2.0, Kling 3, Wan 2.7. Можно сравнить результат на одном промпте за пару минут.
Коротко про режимы, лимиты и цены.
Новая модель Google, анонсированная на Google I/O 2026. Принимает на вход текст, до 7 изображений, видео и аудио — выдаёт видео длиной 4–10 секунд в разрешении до 4K со звуком за один проход. Главное отличие от Veo 3.1, Sora 2 и Kling 3 — это не цепочка из нескольких моделей, а одна нейросеть, которая работает со всеми входами сразу.
Пять: «только текст», «текст + до 7 фото», «текст + исходное видео до 30 секунд» (модель возьмёт из него отрезок до 10 сек), «текст + до 3 готовых персонажей» (для сохранения героя между роликами) и «текст + до 3 готовых голосов». Режим выбирается автоматически — по тому, какие поля вы заполнили на странице «Создать видео».
У модели общий бюджет в 7 «слотов» на ваши входы: каждое изображение = 1 слот, исходное видео = 2 слота, готовый персонаж = 1 слот. Готовые голоса в квоту не входят. Например: 5 фото + 1 персонаж = 6 слотов — норм. 6 фото + 1 видео = 8 — превышение, запрос будет отклонён до отправки.
Четыре фиксированных значения: 4, 6, 8 и 10 секунд. В режиме «из видео в видео» длительность задаётся отрезком исходного видео (начало–конец), но не больше 10 секунд за раз. На сайте Google тоже максимум 10 секунд.
720p (по умолчанию), 1080p и 4K. Соотношение сторон — 16:9 или 9:16. Квадратное 1:1 на старте не поддерживается (только горизонтальное и вертикальное для Shorts/Reels). 4K стоит и считается примерно вдвое дольше 1080p.
Цена зависит от разрешения и длительности. От 40 кредитов за 720p × 4 секунды до 145 кредитов за 4K × 10 секунд. Промежуточные комбинации: 1080p × 8 с = 90 кредитов, 4K × 6 с = 115 кредитов. 4K стоит примерно в 2 раза дороже 1080p. Кредиты идут с баланса вашего тарифа.
Это сохранённый идентификатор персонажа — лицо и фигура, которые модель удерживает одинаковыми в разных роликах. Удобно для серий с одним героем: рекламной кампании, набора аватаров, эпизодов. Сейчас готовые персонажи создаются вручную через поддержку — самостоятельная загрузка появится позже.
Это сохранённые голоса для закадрового текста или диктора в кадре. Модель сама подстраивает движение губ и интонацию под текст. На одну генерацию можно использовать до 3 готовых голосов. Пока работа с голосами идёт через поддержку — публичный каталог появится позже.
Да. Все генерации на платных тарифах Clipia (Basic / Standard / Pro / Ultima) можно использовать в рекламе, контенте, продуктах и продавать клиентам. Дополнительно Google ставит SynthID — невидимую метку в видео, которая показывает, что ролик сделан AI. Это новый отраслевой стандарт прозрачности.
Sora 2 — кинематографичная физика и длинные клипы до 25 секунд. Veo 3.1 — фиксированные 8 секунд со звуком. Kling 3 — длинные клипы 3–15 с и многосценные ролики. Seedance 2.0 — до 9 референсов и быстрая генерация. Gemini Omni выделяется широтой входов: единственная модель, где в одном запросе сходятся текст, до 7 фото, видео, один и тот же персонаж и аудио — всё в одной нейросети. Все четыре доступны на Clipia — выбирайте под задачу.