Примеры работы нейросетей и современных технологий можно наблюдать, к примеру, в фильмах, где они помогают «оживить» умерших актеров или омолодить постаревших. «Лента.ру» рассказывает, как можно вернуть на экраны любимых героев.
Ручной труд
Использование компьютерной графики для воскрешения умерших актеров — далеко не новая практика. В 2013 году в рекламе шоколада Galaxy появилась Одри Хепберн, скончавшаяся 20 лет назад. Виртуальную копию актрисы поместили в декорации, напоминающие итальянское побережье Амальфи из фильма «Римские каникулы». Дети актрисы не только дали согласие на это, но и специально подчеркнули, что Одри гордилась бы этой ролью, ведь она всегда любила шоколад.
Но один из самых известных примеров был показан в фильме «Звездные войны: Скайуокер. Восход», который вышел спустя три года после смерти актрисы Кэрри Фишер.
Джей Джей Абрамс рассказывал, что не хотел искать новую актрису на роль принцессы Леи Органа, поэтому студия прибегла к изучению уже отснятых кадров, чтобы сгенерировать внешность актрисы. Ее образ практически полностью воссоздали вручную. Использовались уже готовые материалы с первых дней съемок и фрагменты из существующих фильмов, чтобы оцифровать модель актрисы и поместить ее образ в схожие сцены. «Мы начали смотреть, что это были за кадры, начали писать сцены вокруг этих кадров, совершенно новые контексты, новые места, новые ситуации. Единственное, что я скажу: мы полностью создавали, освещали и сочиняли кадры вокруг оригинальных работ, которые у нас были», — объяснял Абрамс.
Подобным образом поступили во время съемок «Форсажа 7», который начали снимать в сентябре 2013 года, а спустя два месяца актер Пол Уокер погиб в автокатастрофе. Создатели фильма решили не переснимать уже отснятый материал, а использовали его для воссоздания внешности актера, чем повторно воспользовались и в восьмой части фильма.
По назначению
В эпоху нейросетей и машинного обучения возлагать подобные задачи на плечи людей слишком дорого и трудозатратно. Одним из самых популярных примеров использования современных технологий для генерации чужой внешности стали дипфейки. Впервые о дипфейках (deepfake, от deep learning — глубокое обучение и fake — фальшивый) заговорили в 2017 году, когда на Reddit начали появляться первые ролики с людьми, которых заменили известными актерами. В общем смысле эта технология на основе генеративно-состязательных нейросетей (GAN) позволяет манипулировать аудио- и видеоконтентом, чтобы известный человек в кадре делал то, чего на самом деле никогда не было.
«В подавляющем большинстве случаев, для создания таких видео используют архитектуру нейронной сети, которая называется автокодировщиком. Она состоит из двух частей: первая учится кодировать исходное изображение, а вторая — раскодировать его так, чтобы оригинальное лицо заменилось на то, которое и хотелось наложить. При этом положение глаз, носа и рта должны остаться такими же, какими были у человека на исходной картинке. Иногда эту архитектуру усиливают с помощью генеративно-состязательной нейронной сети (GAN). Механизм такой: генеративная часть алгоритма учится на реальных фотографиях определенного человека и создает изображение, буквально "состязаясь" с дискриминативной частью алгоритма, пока последняя не начнет путать сгенерированную фейковую картинку с оригиналом. Таким образом, кодировщик и декодировщик отвечают за перенос лица, а дискриминатор из GAN — за улучшение результата», — рассказал «Ленте.ру» директор по исследованиям и разработкам в SBER AI Андрей Черток.
Технологию разработал студент Стэнфордского университета Ян Гудфеллоу еще в 2014 году, после чего он устроился в Google, а потом в компанию Илона Маска OpenAI. А в 2017-м на Reddit появился пользователь с ником Deepfake и начал загружать порноролики, где главные роли «исполняли» известные актеры. Это породило целую волну контента для взрослых с участием известных актрис вроде Галь Гадот или Дэйзи Ридли. Вскоре после этого на Reddit запретили публикацию подобных материалов, а в США постепенно на законодательном уровне вводят запрет на публикацию политических или порно-дипфейков. Впрочем, в 2019 году специалисты сообщали, что 96 процентов дипфейков так или иначе связаны с роликами для взрослых.
Несмотря на это технология показала, что достоверно заменить актера в кадре или «воскресить» уже умершего человека можно буквально в домашних условиях. Это породило немало и шутливых роликов, где в кадре вместо всех актеров мог быть Джим Керри, и достаточно любопытных, где, например, фанаты «примеряли» внешность актера на образ любимого героя вселенной Marvel. Политиков этот тренд тоже коснулся — дипфейки активно использовались в ходе агитации на выборах президента США.
Одним из первых примеров использования технологии в серьезных работах стала социальная реклама об опасности малярии с участием Дэвида Бекхэма. С помощью нейросетей создатели смогли, сохранив голос футболиста и артикуляцию, перевели видео на девять разных языков.
Любимые герои
Однако до сих пор никто не пытался только лишь с помощью нейросетей вернуть на экраны героя прошлого. Для многих дипфейки до сих пор остаются способом создания мемов и смешных роликов, но у технологии гораздо больший потенциал. Полный комплекс приемов по воссозданию внешности, манер и голоса актера показал «Сбер» в рекламе с героем фильма «Иван Васильевич меняет профессию» Жоржем Милославским. Это первый пример такого комплексного подхода на большом производстве с использованием исходных данных из старого фильма. По сюжету Милославский оказывается в 2020 году и узнает, что теперь «Сбер» — не просто банк, а технологический гигант. Одной из самых сложных задач было воссоздать голос актера Леонида Куравлева.
В сравнении с использованием классических приемов компьютерной графики, нейросети оказались быстрее и дешевле. По словам специалистов из Группы компаний ЦРТ («Центр речевых технологий»), индустрия премиальных голосов для клиентов Enterprise-уровня обычно требует десятков часов студийной записи диктора. В данном случае пришлось собирать материалы из уже имеющихся фильмов, а в ходе выбора оптимальных фрагментов набралось всего семь минут речи. Кроме того, это была нестандартная задача с коротким сроком реализации.
«Сначала мы собирали данные, чтобы обучить TTS (text-to-speech — технология синтеза речи, то есть перевода написанного текста в звучащую речь прим. “Ленты.ру”). Основным источником речевого материала послужили фрагменты аудиозаписей из кинофильмов с участием Леонида Куравлева. Хотя мы старались извлечь из фильмов как можно более чистые записи, часть из них все же сопровождалась посторонними звуками (шум города, звуки природы и т. п.) или музыкой, мы постарались это исправить. Любые артефакты непременно просачиваются в нейронную модель голоса диктора, особенно когда речь идет о столь малой обучающей выборке. Удалось полностью отделить музыку от голоса без существенной потери качества примерно в половине собранных примеров».
В итоге у нас осталось ровно 4 минуты и 12 секунд чистой речи голоса Леонида Вячеславовича Куравлева, далее мы работали над эмоциями.
Вместе с тем в компании добавили, что синтезированный голос Леонида Куравлева неотличим от реального только для слуха дилетанта. Это все-таки синтез. Система детектирования спуфинг-атак (попыток взлома) способна выявить специфические характеристики звука, указывающие на то, что голос не является живым. Внимание к таким возможным атакам во многом и отличает сегодня высококлассных разработчиков. Антиспуфингу — защите от хакеров — часто посвящают специальные научные конкурсы, в том числе мировые, где не раз побеждала команда ЦРТ. В целом в ЦРТ считают, что разработчики должны не только создавать новые технологии и продукты на их основе, но и постоянно искать новые средства защиты, не останавливаясь на достигнутом.
Это тоже интересно: