HappyHorse-1.0 от Alibaba: модель #1 на Video Arena уже на Clipia

Обзор, реальные демо в восьми сценариях, технические лимиты и рецепт первого ролика

Нейросети28 апреля 2026 г.12 мин чтенияClipia

Силуэт лошади из неоновых линий на тёмном фоне с голографическими экранами лидерборда — обложка статьи про HappyHorse-1.0 от Alibaba

27 апреля 2026 года Alibaba официально выпустила HappyHorse-1.0 — модель, которая ещё в начале апреля анонимно поднялась на первое место Artificial Analysis Video Arena и удерживает #1 в обоих треках по сей день: T2V Elo 1 332 (без аудио) и I2V Elo 1 391. На Clipia модель добавлена в каталог в четырёх режимах — Text-to-Video, Image-to-Video, Reference-to-Video и Video Edit.

В статье разбираем детективную историю запуска, реальные демо-ролики из публичной выдачи, технические лимиты и то, как собрать первый клип на HappyHorse-1.0 за пару минут.

Открыть HappyHorse-1.0 на Clipia →

От стелс-релиза до публичной модели: история HappyHorse-1.0

7 апреля 2026 года на Artificial Analysis Video Arena появилась запись «HappyHorse-1.0» — без логотипа разработчика, без whitepaper. За 24 часа модель забрала #1 в Text-to-Video и Image-to-Video с рекордным отрывом в 74 Elo от прежнего лидера Seedance 2.0. По данным Caixin Global, за первые 48 часов она прошла свыше 12 000 парных сравнений в слепом тесте.

10 апреля Bloomberg и CNBC синхронно подтвердили: автор — Alibaba, модель разработана в DAMO Academy. Через 17 дней, 27 апреля 2026 года, прошёл публичный релиз. С этого дня модель доступна сторонним платформам — и сразу в четырёх вариантах использования.

Зачем Alibaba нужен был анонимный запуск — компания объяснила прямо: чтобы получить чистые пользовательские оценки без брендового bias. Если бы видео были подписаны «Alibaba», часть голосующих сместилась бы в обе стороны — кто-то «за», кто-то «против» по умолчанию. Аноним даёт максимально честный бенчмарк.

Что показывает Elo на Video Arena

Artificial Analysis Video Arena — отраслевой стандарт оценки видеомоделей. Формат заимствован у LM Arena для языковых моделей: пользователю показывают два видео, сгенерированных разными моделями по одному промпту, и он голосует «левое лучше / правое лучше / равно». По множеству сравнений выводится Elo — как в шахматах.

Текущая позиция HappyHorse-1.0 на Arena (на 28 апреля 2026):

Text-to-Video без аудио — #1, Elo 1 332. Отрыв от Seedance 2.0 — 59 пунктов.
Text-to-Video с аудио — #2, Elo 1 204. Лидер — Veo 3.1 Quality (нативная звуковая дорожка).
Image-to-Video без аудио — #1, Elo 1 391. Отрыв от Seedance 2.0 — 66 пунктов.
Image-to-Video с аудио — #2, Elo 1 159. Опять же первенство у Veo 3.1.

Разница в 100 Elo-пунктов означает, что более сильная модель побеждает в 64% сравнений. Отрыв HappyHorse в 59-66 пунктов — это примерно 58% побед в слепом тесте. Для индустрии, где между топовыми моделями обычно укладывается 10-25 пунктов, это серьёзный гэп.

Что умеет HappyHorse-1.0: реальные ролики

Все восемь клипов ниже — реальные генерации HappyHorse-1.0 из публичной выдачи. Они показывают, на чём модель действительно сильна и почему обогнала Seedance 2.0 на Arena.

1. Физика жидкости

Самое заметное преимущество HappyHorse — корректная физика жидкостей и мягких тел. Это та область, где старые модели быстро «плывут»: молоко превращается в кашу, кофе застывает облачком, вода теряет форму при падении.

Бариста наливает молоко в чашку — длинная непрерывная струя без артефактов, естественные брызги, корректное преломление света. Текстура молока сохраняется на всей длине плана.

2. Точное движение и удар

В сценах с быстрыми и точными действиями важна не только пластика, но и сохранение геометрии объектов между кадрами. HappyHorse удерживает форму клюшки, мяча и обуви без размытия даже в момент удара.

Гольф-удар на поле для гольфа: клюшка идёт по правильной траектории, мяч стартует и катится естественно, тень и трава реагируют корректно — slow-motion в hands-on стиле.

3. Сложная физика верёвок и шарниров

Марионетка с подвесами на нитках — классический stress-тест для видеомоделей. Модель должна одновременно держать форму куклы, реакции суставов и движение нитей в руках кукловода.

Деревянная марионетка-Пиноккио в руках кукловода: верёвки натягиваются и провисают как реальные, шарниры конечностей слушаются движения, дерево остаётся деревом, а не «расплывается» в каждом кадре.

4. Длинные планы с высокой детализацией

HappyHorse выдаёт до 15 секунд связного видео без ощущения «сшивки». Это позволяет делать длинные tracking-планы и сложные интерьерные сцены, которые на старых моделях получаются только с явными переходами.

Биржевой трейдер у стены из мониторов с графиками. На протяжении всего плана графики сохраняют осмысленность, числа на дисплеях не «плывут», а взгляд и жестикуляция героя выглядят естественно.

5. Атмосфера, ветер, портрет на пленэре

В сценах на природе HappyHorse заметно опережает конкурентов по «живости» движения — ткани, волосы, окружающий свет. Что важно — портрет остаётся стабильным на всей длине, без drift лицевых черт.

Старый моряк на парусной лодке. Ветер треплет волосы и бороду, рубашка и снасти двигаются естественно, морская гладь и горизонт стабильны, лицо не теряет идентичности.

6. Естественное детское движение

Детская кинетика — отдельная категория сложности: непредсказуемые движения, маленькие пропорции, частые перекрытия. Модель должна одновременно держать предмет в руках и не «терять» персонажа за счёт быстрой смены позы.

Маленькая девочка крутит обруч во дворе — сложный кинетический паттерн. Обруч сохраняет круглую форму, движения рук синхронизированы с раскачиванием бёдер, фон-забор остаётся неподвижным.

7. Юмор и сюрреалистические сцены

HappyHorse одинаково уверенно работает и с реалистичными сценами, и с лёгким сюрреализмом. Модель не «ломается» от нестандартных вводных — наоборот, аккуратно достраивает физику в выдуманной ситуации.

Кот вылезает из стального тостера на кухонной столешнице, второй кот наблюдает рядом. Хром тостера правильно отражает шерсть, освещение комнаты и движение животного.

8. Image-to-Video: эмоциональный портрет

I2V — самая сильная сторона HappyHorse. На вход подаётся одна фотография, модель приводит её в движение, сохраняя черты лица, освещение и композицию. На таких портретах конкуренты «плывут» уже к четвёртой секунде, HappyHorse держит идентичность все 10-15.

Эмоциональный женский портрет — слёзы, дрожание губ, естественные микро-движения. Черты лица не «расплываются» во времени — это именно то преимущество, которое даёт I2V Elo 1 391.

Оживить своё фото в HappyHorse I2V →

Технические характеристики и параметры

Все четыре режима используют общую архитектуру single-stream Transformer и общий набор разрешений и длительностей. Различия — в обязательных входах и максимальной длине промпта.

Параметр	T2V	I2V	R2V	Video Edit
Обязательный вход	prompt	image (1)	prompt + 1-9 ref images	video + prompt
Длительность	3-15 сек (по умолчанию 5)	3-15 сек	3-15 сек	выход до 15 сек, вход 3-60 сек
Разрешение	720p / 1080p	720p / 1080p	720p / 1080p	720p / 1080p
Aspect ratio	16:9, 9:16, 1:1, 4:3, 3:4	наследуется от картинки	16:9, 9:16, 1:1, 4:3, 3:4	наследуется от видео
Длина промпта	до 5 000 символов	до 5 000 символов	до 5 000 символов	до 5 000 символов
Доп. ассеты	—	1 image (≥300px, 1:2.5-2.5:1)	1-9 images (≥400px)	0-5 ref images, audio_setting auto/origin
Seed	0 - 2³¹	0 - 2³¹	0 - 2³¹	0 - 2³¹
Запустить	T2V →	I2V →	R2V →	Edit →

На что обратить внимание при подготовке материалов:

I2V не принимает aspect ratio параметром — пропорции наследуются от входной картинки. Если нужно вертикальное видео для Reels или TikTok-кружка — подавайте картинку 9:16.
Минимум 300 пикселей по короткой стороне для I2V и 400 пикселей для R2V. Иначе провайдер отклоняет вход.
Reference-to-Video с 9 картинками — это сцены с несколькими персонажами. В промпте каждый герой адресуется через @character1, @character2 и так далее.
Video Edit принимает до 5 ref images — например, чтобы перерисовать сцену в новом стиле, сохранив идентичность главного героя.

HappyHorse vs Wan 2.7: одна компания, разные команды

Самое частое заблуждение в комментариях: «HappyHorse — это Wan 2.7 под другим именем». Alibaba официально опровергла это в комментарии Bloomberg. Внутри DAMO Academy работают параллельно несколько команд видеогенерации, и HappyHorse-1.0 — самостоятельный проект, не унаследованный от семейства Wan.

Характеристика	Wan 2.7	HappyHorse-1.0
Архитектура	Dual-stream Transformer с thinking mode	Single-stream Transformer
Сильная сторона	Длинные текстовые описания, мультишот	Фотореализм, физика, I2V-консистентность
Длина промпта	до 10 000 символов	до 5 000 символов
Длительность	до 15 секунд	до 15 секунд
Нативное аудио	нет	есть (T2V и I2V)
Reference-to-Video	до 3 картинок	до 9 картинок
На Clipia с	марта 2026	апреля 2026

На практике: Wan 2.7 удобнее для длинных нарративных промптов и сцен «опиши всё подробно — модель додумает». HappyHorse сильнее в коротких промптах с акцентом на визуал — кадр, освещение, материал, физику. Это ближе к работе фотографа, чем сценариста.

Сравнение с топ-конкурентами: Seedance 2.0, Kling 3.0, Veo 3.1, Grok Imagine

Текущий расклад в топе видеомоделей по данным Artificial Analysis Video Arena на 28 апреля 2026:

Модель	Elo T2V	Elo I2V	Нативный звук	Длительность	Запустить
HappyHorse-1.0	1 332 (#1)	1 391 (#1)	да	до 15 сек	Открыть →
Seedance 2.0	1 273 (#2)	1 325 (#2)	нет	до 12 сек	Открыть →
Wan 2.7	1 298	—	нет	до 15 сек	Открыть →
Kling 3.0	1 254	1 298	нет	до 10 сек (Multi-Shot до 30)	Открыть →
Veo 3.1 Quality	1 241	1 277	да (синхронный)	8 сек	Открыть →
Grok Imagine Video	1 195	1 218	нет	до 10 сек	Открыть →

Когда что выбирать:

HappyHorse-1.0 — фотореализм, физика, длинные планы, аудио в довесок. Универсальный топ-выбор для большинства задач, особенно если нужна I2V-консистентность.
Seedance 2.0 — лучший баланс «качество / цена», на Clipia есть Fast-версия (16 апреля 2026), которая в 2-3 раза дешевле базовой при сопоставимом результате.
Wan 2.7 — длинные нарративные промпты на русском или китайском, точная отработка многих объектов в сцене.
Kling 3.0 Multi-Shot — мини-фильмы из 3-6 склеенных промптов с сюжетной логикой, до 30 секунд непрерывного нарратива.
Veo 3.1 Quality — единственная модель в топ-5 с синхронным звуком (диалоги, реплики, точные эффекты в кадре). Для рекламных коротышей и TikTok-роликов с речью.
Grok Imagine Video — нишевый выбор для сюрреалистичных и арт-стилей, где мейнстрим даёт скучный результат.

Как сгенерировать видео в HappyHorse-1.0 на Clipia

Модель доступна на отдельной странице HappyHorse-1.0 или через общий каталог в создании видео. Каждый из четырёх режимов открывается напрямую — выбирайте плитку под задачу:

Text-to-VideoВидео из текста — до 15 сек, нативный звук, 5 соотношений сторон Image-to-VideoОживить одно фото — портреты держат идентичность все 10-15 сек Reference-to-VideoСцена с 1-9 персонажами через @character1…@character9 Video EditПерерисовать готовый ролик: стиль, свет, время суток

Text-to-Video: первый ролик за минуту

Откройте страницу Text-to-Video, задайте длительность 5-10 секунд и aspect ratio под платформу (16:9 для YouTube, 9:16 для Reels и TG-кружков). HappyHorse хорошо понимает короткие визуальные промпты — больше не значит лучше. Эталон — описать стиль, ключевую сцену, движение камеры и атмосферу.

Кинематографичный длинный план: одинокая фигура идёт по
пустынному пляжу на закате, тёплый золотой свет, дрон-шот
с медленным подъёмом, мягкий ветер шевелит волосы и одежду,
шум прибоя на фоне, фотореалистично, 1080p

Если нужен звук — он включается автоматически в T2V-режиме. Просто опишите его словами в промпте: «soft footsteps on sand», «distant ocean waves», «cinematic ambient music».

Image-to-Video: оживить статичную картинку

Откройте страницу Image-to-Video и загрузите изображение (минимум 300 пикселей по короткой стороне, JPEG/PNG/WebP). Промпт в I2V опционален — модель сама придумает естественное движение. Но если хотите контролировать результат, задайте характер движения и интенсивность.

Сцена оживает с плавным кинематографичным движением,
лёгкое приближение камеры, мягкие изменения освещения
раскрывают новые детали, атмосферные частицы парят в кадре,
естественные микро-движения

Для входной картинки рекомендуем нашу собственную Nano Banana Pro — она лучше всех в каталоге держит композицию и текст под последующее анимирование.

Reference-to-Video: сцена с несколькими персонажами

Откройте страницу Reference-to-Video. Режим принимает от 1 до 9 референсных картинок. В промпте каждый персонаж адресуется через @character1, @character2 и так далее. Это самый управляемый режим для сложных сцен с диалогами и взаимодействием.

@character1 идёт навстречу @character2 на залитой солнцем
городской улице, оба улыбаются, обмениваются рукопожатием
в замедленной съёмке, лучи света и атмосферная пыль создают
тёплое золотое свечение, кинематографичный средний план

Video Edit: переписать существующий ролик

Откройте страницу Video Edit, загрузите готовое видео (3-60 секунд, до 2 160 пикселей по длинной стороне) и опишите, что нужно изменить — стиль, освещение, время суток, эффекты. Можно подать до 5 референсов, чтобы зафиксировать стилистику. Опция audio_setting: origin сохраняет оригинальную звуковую дорожку, auto — переписывает её под новый визуал.

Перейти к HappyHorse-1.0 →

FAQ

Когда HappyHorse-1.0 появилась на Clipia?

Модель добавлена в каталог Clipia 28 апреля 2026 — на следующий день после публичного релиза от Alibaba. Доступны все четыре режима: Text-to-Video, Image-to-Video, Reference-to-Video и Video Edit.

Сколько кредитов стоит одна генерация?

Стоимость зависит от длительности и разрешения. Актуальные цены всегда в каталоге модели и в production-матрице: https://clipia.ai/api/models/happy-horse-t2v/pricing-matrix. На Clipia 1 кредит ≈ 3 ₽ (тариф Basic — 240 кредитов за 799 ₽).

Чем HappyHorse-1.0 отличается от Wan 2.7? Это ведь обе Alibaba.

Обе модели разработаны DAMO Academy, но разными командами и с разной архитектурой. Wan 2.7 — dual-stream Transformer с thinking mode, заточен под длинные текстовые промпты и мультишот. HappyHorse — single-stream, фокус на фотореализме, физике и I2V-консистентности. Плюс HappyHorse умеет генерировать нативный звук, Wan 2.7 — нет.

Почему HappyHorse обошла Seedance 2.0 на Arena?

Главные источники преимущества — улучшенная физика жидкостей и мягких тел, длинные непрерывные планы без потери стиля, и заметно лучшая консистентность субъектов в Image-to-Video. На I2V-треке HappyHorse впереди Seedance 2.0 на 66 Elo, что в слепом тесте даёт примерно 58% побед.

Что такое Elo-рейтинг для видеомоделей?

Elo — система рейтинга из шахмат, адаптированная для AI-моделей. На Artificial Analysis Video Arena пользователю показывают два видео по одному промпту от разных моделей, он выбирает лучшее. По сотням тысяч таких сравнений вычисляется рейтинг. Разница в 100 пунктов означает, что более сильная модель побеждает в 64% случаев.

Можно ли подать русский промпт?

Да, HappyHorse-1.0 поддерживает многоязычные промпты, включая русский, английский и китайский. На практике для лучшего результата советуем смешивать: на русском — общую идею и сюжет, на английском — кинематографические термины и параметры съёмки (например, «slow dolly push-in», «shallow depth of field», «backlit golden hour»). Для длинных нарративных промптов на русском лучше использовать Wan 2.7.

Какие платформы и форматы поддерживает модель?

HappyHorse выдаёт MP4 в 720p или 1080p, частота 24 fps. Aspect ratio выбирается параметром: 16:9 для YouTube и десктопа, 9:16 для Reels, Shorts и TG-кружков, 1:1 для квадратных постов в Instagram, 4:3 и 3:4 — для художественных и винтажных композиций. Длительность от 3 до 15 секунд за один прогон.

#Нейросети #AI-видео #Новости #Alibaba #Новости

Попробуйте сами на Clipia

20+ моделей для генерации видео и изображений. Без VPN, оплата картой РФ.