Создай свой ролик из текста: новый сервис от Nvidia

Максимальное разрешение генерируемого нейросетью видео составляет 2048×1280 пикселей, частота — 24 кадра, а хронометраж — 4,7 секунды.
Сергей Ульянов
Заставки видео, сгенерированных нейросетью NVIDIA и специалистами Корнельского университета. Фото: NVIDIA
Заставки видео, сгенерированных нейросетью NVIDIA и специалистами Корнельского университета. Фото: NVIDIA

NVIDIA показала VideoLDM — нейросеть, генерирующую короткие видеоролики по текстовому описанию. Компания разработала ее совместно со специалистами из Корнельского университета.

Максимальное разрешение генерируемого нейросетью видео составляет 2048 x 1280 пикселей, частота — 24 кадра, а хронометраж — 4,7 секунды.

Результат по запросу: «кошка играет в траве». Видео: NVIDIA

Пока что VideoLDM распознает всего 4,1 миллиарда параметров, 2,7 миллиарда из которых использовались для тренировки. Это по меркам, например, генерирующих изображения нейросетей, довольно мало. Однако благодаря модели LDM разработчикам удалось создать множество разнообразных, согласованных по времени изображений с неплохим качеством.

Как это работает? В основе нейросети лежат модели скрытой диффузии (LDM), которые обеспечивают высококачественный синтез изображений без чрезмерных вычислительных затрат.

Они применяются для генерации видео с высоким разрешением. Сначала разработчики показывают LDM только изображения, а затем превращают генератор изображений в генератор видео, вводя в алгоритм временное измерение и точно настраивая закодированные последовательности изображений, то есть видео.

Результат по запросу: «лягушка играет на электрогитаре». Видео: NVIDIA

После введения контрольных точек DreamBooth временные слои ими обобщаются и позволяют персонализировать преобразование текста в видео.

Применяется технология и в генерации роликов о вождении. Они имеют разрешение 512 x 102 и хронометраж до 5 минут. Нейросеть может сгенерировать как конкретный сценарий, когда прописываются условия первого кадра, на основе которых ИИ генерит видеоролик.

Пример сгенерированного ролика о вождении. Видео: NVIDIA

Более того, она может и спрогнозировать исход того или иного сценария, генерируя несколько роликов на основе одного первого кадра.

Разработчик показывают, что временные слои, обученные таким образом, обобщаются на различные точно настроенные модели преобразования текста в изображение. Используя это свойство, они получили первые результаты преобразования персонализированного текста в видео, которые мы можем увидеть сегодня. И они уверены, что смогут использовать его и в будущем, расширяя возможности создания видеоконтента.

Видео по запросу: «чайник, плавающий в океане». Видео: NVIDIA

Пока что VideoLDM представляет собой лишь исследовательскую работу, которую компания собирается представить вместе с Корнельским университетом на Конференции по машинному зрению и распознаванию образов — она пройдет в Ванкувере с 18 по 22 июня. Появится ли VideoLDM в открытом доступе, пока неизвестно.