Создай свой ролик из текста: новый сервис от Nvidia

Заставки видео, сгенерированных нейросетью NVIDIA и специалистами Корнельского университета. Фото: NVIDIA

NVIDIA показала VideoLDM — нейросеть, генерирующую короткие видеоролики по текстовому описанию. Компания разработала ее совместно со специалистами из Корнельского университета.

Максимальное разрешение генерируемого нейросетью видео составляет 2048 x 1280 пикселей, частота — 24 кадра, а хронометраж — 4,7 секунды.

Результат по запросу: «кошка играет в траве». Видео: NVIDIA

Пока что VideoLDM распознает всего 4,1 миллиарда параметров, 2,7 миллиарда из которых использовались для тренировки. Это по меркам, например, генерирующих изображения нейросетей, довольно мало. Однако благодаря модели LDM разработчикам удалось создать множество разнообразных, согласованных по времени изображений с неплохим качеством.

Как это работает? В основе нейросети лежат модели скрытой диффузии (LDM), которые обеспечивают высококачественный синтез изображений без чрезмерных вычислительных затрат.

Они применяются для генерации видео с высоким разрешением. Сначала разработчики показывают LDM только изображения, а затем превращают генератор изображений в генератор видео, вводя в алгоритм временное измерение и точно настраивая закодированные последовательности изображений, то есть видео.

Результат по запросу: «лягушка играет на электрогитаре». Видео: NVIDIA

После введения контрольных точек DreamBooth временные слои ими обобщаются и позволяют персонализировать преобразование текста в видео.

Применяется технология и в генерации роликов о вождении. Они имеют разрешение 512 x 102 и хронометраж до 5 минут. Нейросеть может сгенерировать как конкретный сценарий, когда прописываются условия первого кадра, на основе которых ИИ генерит видеоролик.

Пример сгенерированного ролика о вождении. Видео: NVIDIA

Более того, она может и спрогнозировать исход того или иного сценария, генерируя несколько роликов на основе одного первого кадра.

Разработчик показывают, что временные слои, обученные таким образом, обобщаются на различные точно настроенные модели преобразования текста в изображение. Используя это свойство, они получили первые результаты преобразования персонализированного текста в видео, которые мы можем увидеть сегодня. И они уверены, что смогут использовать его и в будущем, расширяя возможности создания видеоконтента.

Видео по запросу: «чайник, плавающий в океане». Видео: NVIDIA

Пока что VideoLDM представляет собой лишь исследовательскую работу, которую компания собирается представить вместе с Корнельским университетом на Конференции по машинному зрению и распознаванию образов — она пройдет в Ванкувере с 18 по 22 июня. Появится ли VideoLDM в открытом доступе, пока неизвестно.

Это тоже интересно: