Создай свой ролик из текста: новый сервис от Nvidia

20 апреля 2023

Максимальное разрешение генерируемого нейросетью видео составляет 2048×1280 пикселей, частота — 24 кадра, а хронометраж — 4,7 секунды.

NVIDIA показала VideoLDM — нейросеть, генерирующую короткие видеоролики по текстовому описанию. Компания разработала ее совместно со специалистами из Корнельского университета.

Максимальное разрешение генерируемого нейросетью видео составляет 2048 x 1280 пикселей, частота — 24 кадра, а хронометраж — 4,7 секунды.

Пока что VideoLDM распознает всего 4,1 миллиарда параметров, 2,7 миллиарда из которых использовались для тренировки. Это по меркам, например, генерирующих изображения нейросетей, довольно мало. Однако благодаря модели LDM разработчикам удалось создать множество разнообразных, согласованных по времени изображений с неплохим качеством.

Как это работает? В основе нейросети лежат модели скрытой диффузии (LDM), которые обеспечивают высококачественный синтез изображений без чрезмерных вычислительных затрат.

Они применяются для генерации видео с высоким разрешением. Сначала разработчики показывают LDM только изображения, а затем превращают генератор изображений в генератор видео, вводя в алгоритм временное измерение и точно настраивая закодированные последовательности изображений, то есть видео.

После введения контрольных точек DreamBooth временные слои ими обобщаются и позволяют персонализировать преобразование текста в видео.

Применяется технология и в генерации роликов о вождении. Они имеют разрешение 512 x 102 и хронометраж до 5 минут. Нейросеть может сгенерировать как конкретный сценарий, когда прописываются условия первого кадра, на основе которых ИИ генерит видеоролик.

Более того, она может и спрогнозировать исход того или иного сценария, генерируя несколько роликов на основе одного первого кадра.

Разработчик показывают, что временные слои, обученные таким образом, обобщаются на различные точно настроенные модели преобразования текста в изображение. Используя это свойство, они получили первые результаты преобразования персонализированного текста в видео, которые мы можем увидеть сегодня. И они уверены, что смогут использовать его и в будущем, расширяя возможности создания видеоконтента.

Пока что VideoLDM представляет собой лишь исследовательскую работу, которую компания собирается представить вместе с Корнельским университетом на Конференции по машинному зрению и распознаванию образов — она пройдет в Ванкувере с 18 по 22 июня. Появится ли VideoLDM в открытом доступе, пока неизвестно.

Сергей Ульянов

Создай свой ролик из текста: новый сервис от Nvidia

Читайте Hi-Tech Mail.ru в Google Новости