Разработчики Qwen выпустили бесплатный генератор видео: в чем его особенность

Alibaba Cloud показала Wan2.1, который уже обошел конкурентов по качеству и реалистичности. Узнайте и о других фишках.
Автор новостей
логотип Qwen Wan2.1
Qwen Wan2.1Источник: Alibaba

Alibaba Cloud открыла доступ к своим моделям искусственного интеллекта для создания видео. Компания выпустила четыре модели серии Wan2.1 с 14 млрд и 1,3 млрд параметров, которые превосходят конкурентов по качеству и точности выполнения инструкций.

Модели Wan2.1 создают видео как из текстовых описаний, так и из изображений. Главное преимущество этих моделей — реалистичность движений и высокое качество изображения.

Wan2.1 стал первым видеогенератором, который поддерживает текстовые эффекты на китайском и английском языках. Модель точно обрабатывает сложные движения, улучшает качество пикселей и соблюдает физические принципы реального мира. Благодаря этим возможностям Wan2.1 возглавил рейтинг VBench с общим показателем 86,22% и стал единственной моделью с открытым исходным кодом среди пяти лучших на платформе Hugging Face.

таблица характеристик Wan.2.1 сравнение
Сравнение модели Wan2.1 с другими видеогенераторамиИсточник: VBench

Модель 14B лучше подходит для создания высококачественных видео со сложной динамикой. А 1,3B балансирует между качеством и вычислительной мощностью — на обычном ноутбуке она генерирует 5-секундное видео с разрешением 480p примерно за 4 минуты.

По сравнению с другими моделями, такими как Hunyuan, LTX и коммерческими аналогами, Wan2.1 демонстрирует превосходные результаты при создании видео из текста и изображений. Хотя скорость генерации уступает конкурентам, качество видео компенсирует этот недостаток.

Модель использует мощный видео-VAE (вариационный автоэнкодер), который обеспечивает лучшее качество, чем у других моделей с открытым исходным кодом. Wan2.1 генерирует видео со сложными движениями тела, плавными переходами и точной физикой реального мира.

Архитектура преобразования изображения в видео (I2V) начинается с изображения, где маска определяет, какие кадры сохранить или сгенерировать. Трехмерный вариационный автоэнкодер сжимает изображения, а модель DiT обрабатывает данные с дополнительным слоем для большего количества каналов. CLIP-кодировщик извлекает характеристики изображения для контекста, а затем VAE декодирует изображения обратно из скрытого пространства.

Все четыре модели доступны для загрузки на платформе Model Scope от Alibaba Cloud и на Hugging Face. Ими могут пользоваться ученые, исследователи и коммерческие организации по всему миру. Также воспользоваться моделями можно на сайте Wan.

С 23 апреля 2025 года компания обещает значительное улучшение пользовательского опыта. Все пользователи смогут бесплатно создавать видео и изображения в режиме Relax Mode. Для тех, кто хочет получить более быстрый опыт, будет доступна новая система членства с дополнительными возможностями, включая ежемесячное пополнение бонусных кредитов, больше возможностей для обработки в реальном времени и эксклюзивные инструменты.

Также в этом месяце было выпущено обновление еще у одного ИИ-генератора — разработчики представили 7 версию Midjourney. Рассказали о ней в статье.