Почти каждый, кто интересуется технологиями, игрался с разными ИИ-художниками, пытаясь реализовать свои творческие задумки. Такие инструменты, как DALL-E 2 и Midjourney позволяют создавать сюрреалистические пейзажи, детализированные портреты и даже воссоздавать образы в стиле известных художников. Раскладываем все по полочкам: как рисуют нейросети, в каких сферах они востребованы и что ждет генеративный ИИ в будущем. А еще показываем примеры самых ярких работ нейросетей.
Кто обучает нейросети
Нейросетями занимаются эксперты в области машинного обучения. Их еще называют AI-тренерами. Они не пишут программы на основе алгоритмов, как это делается в традиционном программировании. Вместо этого они создают модели нейросетей и обучают их.
Обучение нейросетей — это процесс, в котором модель «учится» на основе данных. Это могут быть изображения, тексты, звуки или другие типы информации. Специалисты выбирают архитектуру нейросети, определяют параметры и обучают ее на большом объеме данных. Затем они тестируют, насколько хорошо модель справляется с задачами.
Как нейросеть создает изображение
Нейросети творят шедевры за секунды — достаточно просто описать идею. Разбирались, как ИИ генерирует изображения из текстовых запросов.
1. Получает запрос от пользователя
Пользователь вводит текстовое описание желаемого изображения, например: «портрет женщины в стиле аниме» или «фантастический пейзаж с инопланетным городом на закате».
2. Обрабатывает запрос
Текст разбивается на слова и фразы. Каждому слову и фразе присваивается числовое значение, которое представляет собой его «вектор». Эти векторы объединяются в последовательность, которая представляет «вложение» запроса. Это вложение — числовое представление текста.
3. Ищет соответствия
Вложение запроса сравнивается с вложениями изображений в обучающей выборке. Нейросеть ищет изображения в обучающем наборе, у которых вложения максимально совпадают с вложением запроса. Эти изображения считаются «близкими» к запросу пользователя.
4. Генерирует изображения
Нейросеть генерирует новую картинку, которая сочетает в себе элементы из найденных изображений. Модель может комбинировать элементы из разных иллюстраций или фотографий, изменять цвета, стили и другие параметры в соответствии с запросом.
5. Добавляет детали
После генерации изображения нейросеть может выполнить дополнительные шаги для улучшения качества и соответствия запросу. Например, может изменить размер изображения, добавить эффекты, корректировать цвета или другие атрибуты.
6. Выдает результат
Сгенерированная картинка предоставляется пользователю, который может сохранить ее, отредактировать его или сделать новый запрос.
Подробнее об основных принципах работы нейросети, рассказали здесь.
Где применяют изображения, созданные нейросетью
Технология используется во всех областях, так или иначе связанных с визуалом.
1. Игровая индустрия
Нейросети могут генерировать текстуры, модели персонажей, окружение, предметы и другие игровые элементы. Это позволяет разработчикам создавать игры с более разнообразным контентом, сокращая время и ресурсы, необходимые для ручной разработки. Например, в игре No Man’s Sky нейросети используются для генерации бесконечного числа планет с уникальными ландшафтами, флорой и фауной. А в марте 2024 года Google представила модель Genie, которая может создавать разные игровые миры из изображений, фотографий и даже эскизов. Она обучена на 200 тыс. часов интернет-видео об играх.
Разработчики могут использовать и более универсальные нейросети, например, Midjourney для создания концепт-арта и иллюстраций для будущей игры.
2. Графический дизайн
ИИ автоматизирует многие задачи дизайнера. Установив определенные параметры, можно поручить алгоритмам создавать макеты, композиции и даже целые проекты. Для этого подойдут генеративные инструменты вроде Stable Diffusion, DALL-E 2, Midjourney, Adobe Firefly. Инструменты редактирования изображений на базе искусственного интеллекта, такие как Canva и MS Designer, могут ретушировать и улучшать изображения без необходимости ручной настройки. Еще ИИ может помочь дизайнерам работать с изображениями с низким разрешением, сохраняя визуальную целостность даже при увеличении изображений.
Все это позволяет дизайнерам сосредоточиться на более творческих и инновационных задачах. ИИ создаст несколько вариантов в качестве первого наброска, который затем можно усовершенствовать в соответствии со своим видением и требованиями клиента. ИИ не заменяет дизайнера, а дополняет его. Эмпатия, налаживание контакта с заказчиком, чувство вкуса — все это пока больше присуще человеку.
3. Дизайн интерьера
Нейросети помогут обустроить квартиру или дом. Загрузите исходные данные, нажмите пару кнопок, и нейросеть за считанные секунды предложит множество вариантов дизайна. Преобразить интерьер можно, например, с помощью Interior AI. Нужно сфотографировать свой текущий интерьер, а искусственный интеллект изменит его. Можно выбрать стиль интерьера, например, минимализм, а еще превратить эскизы в фотореалистичные изображения. Другая нейросеть, REimagine Home, наведет порядок в комнате, поменяет цвета стен и добавит необходимую мебель. RoomGPT преобразит интерьер, используя одну фотографию. Нужно лишь указать желаемый стиль дизайна и тип помещения.
4. Мода
На Лондонской неделе моды в феврале 2024 года были показаны наряды, созданные с помощью искусственного интеллекта. Многие бренды также применяют нейросети для помощи в процессах проектирования: изображения одежды создаются на основе текстовых подсказок, визуализируя различные материалы и узоры. Это позволяет дизайнерам принимать обоснованные решения перед физическим производством одежды. Еще благодаря ИИ можно примерять одежду, не выходя из дома. Такую виртуальную примерочную, например, выпускал Google.
Подиум и модели сгенерированы ИИ — это проект художника по визуальным эффектам Atara и Лондонского колледжа моды.
5. Наука и медицина
ИИ, работающий с изображениями, может стать помощником ученых и медиков. Например, ИИ-система от компании Lunit, может автоматически обнаруживать рак груди на маммограммах с точностью 96%. Также существуют инструменты, которые могут выявлять меланому по фотографии кожи пациента.
Искусственный интеллект помог археологам найти древние геоглифы на спутниковом снимке, а еще расшифровать древний свиток, сожженный Везувием. В 2023 году ученые с помощью нейросетей повысили четкость первого изображения черной дыры.
Посмотрите на фото сверхмассивной черной дыры в ядре галактики M87, полученное в 2019 году (слева) и на новое изображение, сгенерированное алгоритмом с использованием того же набора данных (справа).
И подобных примеров очень много.
Лучшие примеры сгенерированных изображений
Произведения искусственного интеллекта выставляются в галереях, выигрывают награды, продаются за бешеные деньги и вызывают скандалы. Собрали самые яркие и запоминающиеся работы нейросетей — от лауреатов художественных конкурсов до фейковых снимков, вызвавших общественный резонанс.
Описания картинок:
- «Портрет Эдмона де Белами» в 2018 году стал первым ИИ-изображением, которое было продано на аукционе Christie’s. Картина ушла с молотка за $432 000.
- Созданная с помощью Midjourney работа Джейсона Аллена Théâtre D'opéra Spatial в 2022 году получила художественную премию, разозлив художников.
- Черно-белый портрет двух женщин разных поколений в стиле 1940-х годов выиграл Sony World Photography Award в 2022 году. Автор работы Борис Эльдагсен отказался от приза, поскольку фото было на самом деле сгенерировано ИИ.
- DALL-E 2 впервые сгенерировала обложку для глянца — журнала Cosmopolitan.
- Фальшивые фотографии Папы Франциска в пуховике стали вирусными, и многие поверили в подлинность снимков.
- В 2023 году в твиттере завирусились фото «ареста» Дональда Трампа. На самом деле это произведения Midjourney.
- В 2022 году The Economist создал обложку для выпуска с помощью искусственного интеллекта. Для одной такой картинки сотрудники издания запустили Midjourney 250 раз и сгенерировали почти 1000 изображений.
Сравнение работ нейросетей с работами художников
Журналисты The Guardian попросили историка искусства, критика и галериста угадать, принадлежит произведение известному художнику или искусственному интеллекту. Это сложнее, чем кажется: арт-эксперты нередко ошибались, приписывая работу ИИ реальному художнику. Попробуйте угадать и вы.
Одна из этих картин действительно написана Гомером Уотсоном в 1882 году и называется Down in the Laurentides, а вторая — это изображение DALL-E с подсказкой «Пейзажная картина маслом Констебль, Клод, Коро».
Здесь есть изображение Stable Diffusion с подсказкой «Натюрморт голландского мастера с цветами в вазе на столе, темный фон», а также фрагмент реального натюрморта Амброзиуса Босхарта.
Попробуйте определить, где здесь картина Эдуарда Мане «Кафе на площади Французского театра», а где изображение Stable Diffusion с подсказкой «Улица в Париже в стиле импрессионистов Мане, Писсарро, Кайботт, далекие фигуры, испещренные светлой масляной живописью».
Мы тоже попросили нейросети создать изображения русских художников. В Google Gemini ввели подсказку «Нарисуй абстрактный яркий горный пейзаж в стиле художника Рериха». Получилось очень похоже. А рядом поместили реальную картину художника под названием «Гималаи. Разноцветье снегов» 1937 года. Угадайте, где какая.
А GigaChat попросили нарисовать «абстрактную картину в стиле Кандинского». Для сравнения выбрали одно из произведений художника 1912 года.
Какие нейросети хорошо генерируют изображения
Среди зарубежных сервисов больше всего на слуху Midjourney, DALL-E и Stable Diffusion. Например, на ноябрь 2023 года база пользователей Midjourney превышала 16 млн человек, а количество активных пользователей в день колебалось от 1,2 до 2,5 млн.
Но доступ к иностранным инструментам может быть ограничен в России, поэтому можно воспользоваться отечественными нейросетями. Например, чат-бот от Сбера GigaChat не только работает с текстовыми задачами, но и хорошо рисует по тексту. В его основе — Kandinsky версии 3.0. Кстати, у Kandinsky есть свой Telegram-бот, в котором удобно задавать различные параметры и стиль иллюстрации. А Шедеврум от Яндекса генерирует изображения, тексты и видео с помощью нейросети YandexGPT. Чтобы воспользоваться им, нужно скачать приложение. Больше нейросетей для создания картинок, собрали здесь.
Перспективы развития в будущем
ИИ-инструменты смогут делать разные вещи одновременно, например, создавать и текст, и изображения, и видео. Это называется мультимодальность. Например, третья версия DALL-E генерирует текст, встроенный в изображения, что опережает конкурирующие инструменты создания изображений. В 2023 году ChatGPT тоже научился видеть, слышать и говорить.
Регулирование ИИ будет усиливаться. Например, Meta (в России компания признана экстремистской и запрещена) объявила, что в политической рекламе в ее соцсетях должна содержаться информация о том, используются ли в ней изображения и прочий контент, созданный искусственным интеллектом.
Эксперты Forbes полагают, что ИИ создаст больше рабочих мест. Поскольку можно делегировать рутинные задачи машинам, у людей будет больше времени для более ценных вещей — решения проблем, творчества и построения отношений в коллективе.
Аналитики McKinsey прогнозируют: в ближайшем будущем ИИ-приложения, ориентированные на конкретные отрасли и функции, будут иметь большую ценность, чем приложения общего характера. Компании будут искать больше сотрудников, грамотных в области искусственного интеллекта.
Вопросы и ответы
Отвечаем на популярные вопросы о нейросетях для генерации изображений.
В чем недостатки изображений, созданных с помощью искусственного интеллекта?
- Качество и детализация. Некоторые изображения, созданные с помощью ИИ, менее качественные, чем те, которые создал человек-художник.
- Недостаток оригинальности. ИИ-изображения могут быть похожи на существующие работы, поскольку нейросети на них обучаются.
- Недостаток контроля. Может потребоваться много попыток, прежде чем пользователю удастся добиться от ИИ нужного результата.
- Эффект зловещей долины. Многие изображения, сгенерированные нейросетями, вызывают дискомфорт и даже страх, потому что находятся где-то между реалистичностью и неестественностью. Например, сгенерировав котенка, можно внезапно найти у него пятую лапу.
- Этические проблемы. Использование ИИ для создания изображений может поднимать этические вопросы. При обучении нейросети используются работы реальных художников без их согласия. С помощью ИИ можно создавать дипфейки, вводящие в заблуждение.
Можно ли продавать изображения, сгенерированные нейросетью?
Контент нейросетей не охраняется авторским правом, поскольку автором интеллектуальной деятельность в России признается гражданин. Но есть нюансы. Найти их можно в пользовательских соглашениях. Например:
- ChatGPT и MidJourney: все права на контент принадлежат пользователю.
- Kandinsky: все права на контент принадлежат «Сберу», но его можно использовать как угодно, указав информацию о нейросети, в которой он был создан.
- «Шедеврум»: нейроконтент можно использовать в личных некоммерческих целях, а для коммерческих необходимо заполнить форму обратной связи.
Что нейросети не смогут нарисовать?
Нейросетям запрещено рисовать изображения, которые имеют перечисленные ниже признаки неправомерного и неэтичного контента.
- Содержат насилие, кровь, или жестокость
- Являются порнографическими или эксплуатируют детей.
- Разжигают ненависть или дискриминацию по расовому, половому, религиозному или другим признакам.
- Содержат ложные или вводящие в заблуждение сведения.
- Нарушают авторские права.
- Являются спамом или рекламой.
Помимо этого, многие нейросети имеют собственные дополнительные ограничения. Некоторые модели не могут генерировать изображения людей. Другие не способны рисовать изображения, содержащие определенные предметы или символы, например, логотипы и торговые марки. Третьи ограничивают размер или разрешение генерируемых изображений.