НовостиОбзорыВсе о нейросетяхБытовая техника 2024ГаджетыТехнологииНаукаСоцсетиЛайфхакиFunПромокодыСтранные вопросыЭксперты

Создай свой ролик из текста: новый сервис от Nvidia

20 апреля 2023
Максимальное разрешение генерируемого нейросетью видео составляет 2048×1280 пикселей, частота — 24 кадра, а хронометраж — 4,7 секунды.

NVIDIA показала VideoLDM — нейросеть, генерирующую короткие видеоролики по текстовому описанию. Компания разработала ее совместно со специалистами из Корнельского университета.

Максимальное разрешение генерируемого нейросетью видео составляет 2048 x 1280 пикселей, частота — 24 кадра, а хронометраж — 4,7 секунды.

Пока что VideoLDM распознает всего 4,1 миллиарда параметров, 2,7 миллиарда из которых использовались для тренировки. Это по меркам, например, генерирующих изображения нейросетей, довольно мало. Однако благодаря модели LDM разработчикам удалось создать множество разнообразных, согласованных по времени изображений с неплохим качеством.

Как это работает? В основе нейросети лежат модели скрытой диффузии (LDM), которые обеспечивают высококачественный синтез изображений без чрезмерных вычислительных затрат.

Они применяются для генерации видео с высоким разрешением. Сначала разработчики показывают LDM только изображения, а затем превращают генератор изображений в генератор видео, вводя в алгоритм временное измерение и точно настраивая закодированные последовательности изображений, то есть видео.

После введения контрольных точек DreamBooth временные слои ими обобщаются и позволяют персонализировать преобразование текста в видео.

Применяется технология и в генерации роликов о вождении. Они имеют разрешение 512 x 102 и хронометраж до 5 минут. Нейросеть может сгенерировать как конкретный сценарий, когда прописываются условия первого кадра, на основе которых ИИ генерит видеоролик.

Более того, она может и спрогнозировать исход того или иного сценария, генерируя несколько роликов на основе одного первого кадра.

Разработчик показывают, что временные слои, обученные таким образом, обобщаются на различные точно настроенные модели преобразования текста в изображение. Используя это свойство, они получили первые результаты преобразования персонализированного текста в видео, которые мы можем увидеть сегодня. И они уверены, что смогут использовать его и в будущем, расширяя возможности создания видеоконтента.

Пока что VideoLDM представляет собой лишь исследовательскую работу, которую компания собирается представить вместе с Корнельским университетом на Конференции по машинному зрению и распознаванию образов — она пройдет в Ванкувере с 18 по 22 июня. Появится ли VideoLDM в открытом доступе, пока неизвестно.

Сергей Ульянов