HappyHorse-1.0 от Alibaba: модель #1 на Video Arena уже на Clipia
Обзор, реальные демо в восьми сценариях, технические лимиты и рецепт первого ролика

27 апреля 2026 года Alibaba официально выпустила HappyHorse-1.0 — модель, которая ещё в начале апреля анонимно поднялась на первое место Artificial Analysis Video Arena и удерживает #1 в обоих треках по сей день: T2V Elo 1 332 (без аудио) и I2V Elo 1 391. На Clipia модель добавлена в каталог в четырёх режимах — Text-to-Video, Image-to-Video, Reference-to-Video и Video Edit.
В статье разбираем детективную историю запуска, реальные демо-ролики из публичной выдачи, технические лимиты и то, как собрать первый клип на HappyHorse-1.0 за пару минут.
Открыть HappyHorse-1.0 на Clipia →
От стелс-релиза до публичной модели: история HappyHorse-1.0
7 апреля 2026 года на Artificial Analysis Video Arena появилась запись «HappyHorse-1.0» — без логотипа разработчика, без whitepaper. За 24 часа модель забрала #1 в Text-to-Video и Image-to-Video с рекордным отрывом в 74 Elo от прежнего лидера Seedance 2.0. По данным Caixin Global, за первые 48 часов она прошла свыше 12 000 парных сравнений в слепом тесте.
10 апреля Bloomberg и CNBC синхронно подтвердили: автор — Alibaba, модель разработана в DAMO Academy. Через 17 дней, 27 апреля 2026 года, прошёл публичный релиз. С этого дня модель доступна сторонним платформам — и сразу в четырёх вариантах использования.
Зачем Alibaba нужен был анонимный запуск — компания объяснила прямо: чтобы получить чистые пользовательские оценки без брендового bias. Если бы видео были подписаны «Alibaba», часть голосующих сместилась бы в обе стороны — кто-то «за», кто-то «против» по умолчанию. Аноним даёт максимально честный бенчмарк.
Что показывает Elo на Video Arena
Artificial Analysis Video Arena — отраслевой стандарт оценки видеомоделей. Формат заимствован у LM Arena для языковых моделей: пользователю показывают два видео, сгенерированных разными моделями по одному промпту, и он голосует «левое лучше / правое лучше / равно». По множеству сравнений выводится Elo — как в шахматах.
Текущая позиция HappyHorse-1.0 на Arena (на 28 апреля 2026):
- Text-to-Video без аудио — #1, Elo 1 332. Отрыв от Seedance 2.0 — 59 пунктов.
- Text-to-Video с аудио — #2, Elo 1 204. Лидер — Veo 3.1 Quality (нативная звуковая дорожка).
- Image-to-Video без аудио — #1, Elo 1 391. Отрыв от Seedance 2.0 — 66 пунктов.
- Image-to-Video с аудио — #2, Elo 1 159. Опять же первенство у Veo 3.1.
Разница в 100 Elo-пунктов означает, что более сильная модель побеждает в 64% сравнений. Отрыв HappyHorse в 59-66 пунктов — это примерно 58% побед в слепом тесте. Для индустрии, где между топовыми моделями обычно укладывается 10-25 пунктов, это серьёзный гэп.
Что умеет HappyHorse-1.0: реальные ролики
Все восемь клипов ниже — реальные генерации HappyHorse-1.0 из публичной выдачи. Они показывают, на чём модель действительно сильна и почему обогнала Seedance 2.0 на Arena.
1. Физика жидкости
Самое заметное преимущество HappyHorse — корректная физика жидкостей и мягких тел. Это та область, где старые модели быстро «плывут»: молоко превращается в кашу, кофе застывает облачком, вода теряет форму при падении.
2. Точное движение и удар
В сценах с быстрыми и точными действиями важна не только пластика, но и сохранение геометрии объектов между кадрами. HappyHorse удерживает форму клюшки, мяча и обуви без размытия даже в момент удара.
3. Сложная физика верёвок и шарниров
Марионетка с подвесами на нитках — классический stress-тест для видеомоделей. Модель должна одновременно держать форму куклы, реакции суставов и движение нитей в руках кукловода.
4. Длинные планы с высокой детализацией
HappyHorse выдаёт до 15 секунд связного видео без ощущения «сшивки». Это позволяет делать длинные tracking-планы и сложные интерьерные сцены, которые на старых моделях получаются только с явными переходами.
5. Атмосфера, ветер, портрет на пленэре
В сценах на природе HappyHorse заметно опережает конкурентов по «живости» движения — ткани, волосы, окружающий свет. Что важно — портрет остаётся стабильным на всей длине, без drift лицевых черт.
6. Естественное детское движение
Детская кинетика — отдельная категория сложности: непредсказуемые движения, маленькие пропорции, частые перекрытия. Модель должна одновременно держать предмет в руках и не «терять» персонажа за счёт быстрой смены позы.
7. Юмор и сюрреалистические сцены
HappyHorse одинаково уверенно работает и с реалистичными сценами, и с лёгким сюрреализмом. Модель не «ломается» от нестандартных вводных — наоборот, аккуратно достраивает физику в выдуманной ситуации.
8. Image-to-Video: эмоциональный портрет
I2V — самая сильная сторона HappyHorse. На вход подаётся одна фотография, модель приводит её в движение, сохраняя черты лица, освещение и композицию. На таких портретах конкуренты «плывут» уже к четвёртой секунде, HappyHorse держит идентичность все 10-15.
Оживить своё фото в HappyHorse I2V →
Технические характеристики и параметры
Все четыре режима используют общую архитектуру single-stream Transformer и общий набор разрешений и длительностей. Различия — в обязательных входах и максимальной длине промпта.
| Параметр | T2V | I2V | R2V | Video Edit |
|---|---|---|---|---|
| Обязательный вход | prompt | image (1) | prompt + 1-9 ref images | video + prompt |
| Длительность | 3-15 сек (по умолчанию 5) | 3-15 сек | 3-15 сек | выход до 15 сек, вход 3-60 сек |
| Разрешение | 720p / 1080p | 720p / 1080p | 720p / 1080p | 720p / 1080p |
| Aspect ratio | 16:9, 9:16, 1:1, 4:3, 3:4 | наследуется от картинки | 16:9, 9:16, 1:1, 4:3, 3:4 | наследуется от видео |
| Длина промпта | до 5 000 символов | до 5 000 символов | до 5 000 символов | до 5 000 символов |
| Доп. ассеты | — | 1 image (≥300px, 1:2.5-2.5:1) | 1-9 images (≥400px) | 0-5 ref images, audio_setting auto/origin |
| Seed | 0 - 2³¹ | 0 - 2³¹ | 0 - 2³¹ | 0 - 2³¹ |
| Запустить | T2V → | I2V → | R2V → | Edit → |
На что обратить внимание при подготовке материалов:
- I2V не принимает aspect ratio параметром — пропорции наследуются от входной картинки. Если нужно вертикальное видео для Reels или TikTok-кружка — подавайте картинку 9:16.
- Минимум 300 пикселей по короткой стороне для I2V и 400 пикселей для R2V. Иначе провайдер отклоняет вход.
- Reference-to-Video с 9 картинками — это сцены с несколькими персонажами. В промпте каждый герой адресуется через
@character1,@character2и так далее. - Video Edit принимает до 5 ref images — например, чтобы перерисовать сцену в новом стиле, сохранив идентичность главного героя.
HappyHorse vs Wan 2.7: одна компания, разные команды
Самое частое заблуждение в комментариях: «HappyHorse — это Wan 2.7 под другим именем». Alibaba официально опровергла это в комментарии Bloomberg. Внутри DAMO Academy работают параллельно несколько команд видеогенерации, и HappyHorse-1.0 — самостоятельный проект, не унаследованный от семейства Wan.
| Характеристика | Wan 2.7 | HappyHorse-1.0 |
|---|---|---|
| Архитектура | Dual-stream Transformer с thinking mode | Single-stream Transformer |
| Сильная сторона | Длинные текстовые описания, мультишот | Фотореализм, физика, I2V-консистентность |
| Длина промпта | до 10 000 символов | до 5 000 символов |
| Длительность | до 15 секунд | до 15 секунд |
| Нативное аудио | нет | есть (T2V и I2V) |
| Reference-to-Video | до 3 картинок | до 9 картинок |
| На Clipia с | марта 2026 | апреля 2026 |
На практике: Wan 2.7 удобнее для длинных нарративных промптов и сцен «опиши всё подробно — модель додумает». HappyHorse сильнее в коротких промптах с акцентом на визуал — кадр, освещение, материал, физику. Это ближе к работе фотографа, чем сценариста.
Сравнение с топ-конкурентами: Seedance 2.0, Kling 3.0, Veo 3.1, Grok Imagine
Текущий расклад в топе видеомоделей по данным Artificial Analysis Video Arena на 28 апреля 2026:
| Модель | Elo T2V | Elo I2V | Нативный звук | Длительность | Запустить |
|---|---|---|---|---|---|
| HappyHorse-1.0 | 1 332 (#1) | 1 391 (#1) | да | до 15 сек | Открыть → |
| Seedance 2.0 | 1 273 (#2) | 1 325 (#2) | нет | до 12 сек | Открыть → |
| Wan 2.7 | 1 298 | — | нет | до 15 сек | Открыть → |
| Kling 3.0 | 1 254 | 1 298 | нет | до 10 сек (Multi-Shot до 30) | Открыть → |
| Veo 3.1 Quality | 1 241 | 1 277 | да (синхронный) | 8 сек | Открыть → |
| Grok Imagine Video | 1 195 | 1 218 | нет | до 10 сек | Открыть → |
Когда что выбирать:
- HappyHorse-1.0 — фотореализм, физика, длинные планы, аудио в довесок. Универсальный топ-выбор для большинства задач, особенно если нужна I2V-консистентность.
- Seedance 2.0 — лучший баланс «качество / цена», на Clipia есть Fast-версия (16 апреля 2026), которая в 2-3 раза дешевле базовой при сопоставимом результате.
- Wan 2.7 — длинные нарративные промпты на русском или китайском, точная отработка многих объектов в сцене.
- Kling 3.0 Multi-Shot — мини-фильмы из 3-6 склеенных промптов с сюжетной логикой, до 30 секунд непрерывного нарратива.
- Veo 3.1 Quality — единственная модель в топ-5 с синхронным звуком (диалоги, реплики, точные эффекты в кадре). Для рекламных коротышей и TikTok-роликов с речью.
- Grok Imagine Video — нишевый выбор для сюрреалистичных и арт-стилей, где мейнстрим даёт скучный результат.
Как сгенерировать видео в HappyHorse-1.0 на Clipia
Модель доступна на отдельной странице HappyHorse-1.0 или через общий каталог в создании видео. Каждый из четырёх режимов открывается напрямую — выбирайте плитку под задачу:
Text-to-Video: первый ролик за минуту
Откройте страницу Text-to-Video, задайте длительность 5-10 секунд и aspect ratio под платформу (16:9 для YouTube, 9:16 для Reels и TG-кружков). HappyHorse хорошо понимает короткие визуальные промпты — больше не значит лучше. Эталон — описать стиль, ключевую сцену, движение камеры и атмосферу.
Кинематографичный длинный план: одинокая фигура идёт по
пустынному пляжу на закате, тёплый золотой свет, дрон-шот
с медленным подъёмом, мягкий ветер шевелит волосы и одежду,
шум прибоя на фоне, фотореалистично, 1080p
Если нужен звук — он включается автоматически в T2V-режиме. Просто опишите его словами в промпте: «soft footsteps on sand», «distant ocean waves», «cinematic ambient music».
Image-to-Video: оживить статичную картинку
Откройте страницу Image-to-Video и загрузите изображение (минимум 300 пикселей по короткой стороне, JPEG/PNG/WebP). Промпт в I2V опционален — модель сама придумает естественное движение. Но если хотите контролировать результат, задайте характер движения и интенсивность.
Сцена оживает с плавным кинематографичным движением,
лёгкое приближение камеры, мягкие изменения освещения
раскрывают новые детали, атмосферные частицы парят в кадре,
естественные микро-движения
Для входной картинки рекомендуем нашу собственную Nano Banana Pro — она лучше всех в каталоге держит композицию и текст под последующее анимирование.
Reference-to-Video: сцена с несколькими персонажами
Откройте страницу Reference-to-Video. Режим принимает от 1 до 9 референсных картинок. В промпте каждый персонаж адресуется через @character1, @character2 и так далее. Это самый управляемый режим для сложных сцен с диалогами и взаимодействием.
@character1 идёт навстречу @character2 на залитой солнцем
городской улице, оба улыбаются, обмениваются рукопожатием
в замедленной съёмке, лучи света и атмосферная пыль создают
тёплое золотое свечение, кинематографичный средний план
Video Edit: переписать существующий ролик
Откройте страницу Video Edit, загрузите готовое видео (3-60 секунд, до 2 160 пикселей по длинной стороне) и опишите, что нужно изменить — стиль, освещение, время суток, эффекты. Можно подать до 5 референсов, чтобы зафиксировать стилистику. Опция audio_setting: origin сохраняет оригинальную звуковую дорожку, auto — переписывает её под новый визуал.
FAQ
Когда HappyHorse-1.0 появилась на Clipia?
Модель добавлена в каталог Clipia 28 апреля 2026 — на следующий день после публичного релиза от Alibaba. Доступны все четыре режима: Text-to-Video, Image-to-Video, Reference-to-Video и Video Edit.
Сколько кредитов стоит одна генерация?
Стоимость зависит от длительности и разрешения. Актуальные цены всегда в каталоге модели и в production-матрице: https://clipia.ai/api/models/happy-horse-t2v/pricing-matrix. На Clipia 1 кредит ≈ 3 ₽ (тариф Basic — 240 кредитов за 799 ₽).
Чем HappyHorse-1.0 отличается от Wan 2.7? Это ведь обе Alibaba.
Обе модели разработаны DAMO Academy, но разными командами и с разной архитектурой. Wan 2.7 — dual-stream Transformer с thinking mode, заточен под длинные текстовые промпты и мультишот. HappyHorse — single-stream, фокус на фотореализме, физике и I2V-консистентности. Плюс HappyHorse умеет генерировать нативный звук, Wan 2.7 — нет.
Почему HappyHorse обошла Seedance 2.0 на Arena?
Главные источники преимущества — улучшенная физика жидкостей и мягких тел, длинные непрерывные планы без потери стиля, и заметно лучшая консистентность субъектов в Image-to-Video. На I2V-треке HappyHorse впереди Seedance 2.0 на 66 Elo, что в слепом тесте даёт примерно 58% побед.
Что такое Elo-рейтинг для видеомоделей?
Elo — система рейтинга из шахмат, адаптированная для AI-моделей. На Artificial Analysis Video Arena пользователю показывают два видео по одному промпту от разных моделей, он выбирает лучшее. По сотням тысяч таких сравнений вычисляется рейтинг. Разница в 100 пунктов означает, что более сильная модель побеждает в 64% случаев.
Можно ли подать русский промпт?
Да, HappyHorse-1.0 поддерживает многоязычные промпты, включая русский, английский и китайский. На практике для лучшего результата советуем смешивать: на русском — общую идею и сюжет, на английском — кинематографические термины и параметры съёмки (например, «slow dolly push-in», «shallow depth of field», «backlit golden hour»). Для длинных нарративных промптов на русском лучше использовать Wan 2.7.
Какие платформы и форматы поддерживает модель?
HappyHorse выдаёт MP4 в 720p или 1080p, частота 24 fps. Aspect ratio выбирается параметром: 16:9 для YouTube и десктопа, 9:16 для Reels, Shorts и TG-кружков, 1:1 для квадратных постов в Instagram, 4:3 и 3:4 — для художественных и винтажных композиций. Длительность от 3 до 15 секунд за один прогон.