Как пользоваться нейросетью Kandinsky в 2024 году

Kandinsky от «Сбера» — инструмент для генерации реалистичных изображений, способный составить конкуренцию популярным Midjourney и Stable Diffusion. Даем инструкцию, как пользоваться Kandinsky в 2024 году, абсолютно бесплатно и без ограничений.

Что такое Kandinsky

Полезная информация

Что умеет

Как пользоваться

Инструкция

Советы

Примеры

Плюсы и минусы

Вопросы и ответы

Что такое Kandinsky

Полезная информация

Что умеет

Как пользоваться

Инструкция

Советы

Примеры

Плюсы и минусы

Вопросы и ответы

Еще

Kandinsky — Источник: Hi-Tech Mail

Сервис генерации изображений Kandinsky от «Сбера» способен не только генерировать, редактировать, дорисовывать и объединять несколько изображений в одно новое, но и создавать анимацию и видео ролики. Кстати, в нашем рейтинге лучших нейросетей для генерации изображений Kandinsky занял 2 место, сразу после Midjourney.

В статье делимся способами использования нейросети через сайты, чат-боты и приложения. Даем подробную инструкцию, как пользоваться нейросетью Kandinsky и составлять качественные запросы.

Что такое Kandinsky простыми словами

Kandinsky — это нейросеть от «Сбера» для генерации изображений, анимации и видео по текстовым запросам пользователя.

Первая версия этого сервиса появилась в ноябре 2021 года, тогда модель называлась ruDALL-E XL. В ходе многих обновлений и улучшений модели ruDALL-E появилась первая версия нейросети, названная Kandinsky.

В апреле 2023 вышла версия Kandinsky 2.1, получившая широкую популярность пользователей. Тогда версия 2.1 все еще сильно уступала популярным зарубежным аналогам Midjourney и Stable Diffusion — результаты их генераций были более реалистичны и детализированы.

В июле 2023 года Kandinsky обновился до версии 2.2, основной фишкой которой стала генерация фотореалистичных изображений с высоким качеством. Спустя несколько месяцев эта версия была дополнена возможностью генерировать короткие 4-секундные видеоролики по текстовым запросам.

Пример фотореализма и высокого качества при генерации изображений — Пример фотореализма и высокого качества при генерации изображенийИсточник: Hi-Tech Mail

В ноябре 2023 на конференции AI Journey «Сбер» представил новую версию — Kandinsky 3.0 и Kandinsky Video. Самым интересным обновлением стало знакомство нейросети с русской культурой и фольклором. Нейросеть заколлабили с отечественными актерами, знаменитостями, персонажами, героями фильмов и сказок, элементами российской и советской архитектуры, а также с мотивами русских народных промыслов — гжели, жостовской росписи и других.

Баба Яга, сгенерированная по простейшему промту «Баба Яга» без описания деталей — Баба Яга, сгенерированная по простейшему промту «Баба Яга» без описания деталейИсточник: Hi-Tech Mail

По состоянию на май 2024 года наиболее актуальной версией нейросети является Kandinsky 3.1.

Полезная информация о нейросети Kandinsky

Функционал	Наличие в Kandinsky 3.0
Генерация по текстовому запросу	Да
Генерация изображения на основе другого изображения по текстовому запросу	Да
Дорисовка загруженного или сгенерированного изображения	Да
Отрисовка в разных стилях	Да
Наличие ленты генераций других пользователей	Нет
Приватные генерации	Да
История генераций	Нет
Лицензия на использование изображений	Только для некоммерческого использования в соответствии с пользовательским соглашением
Понимание текстовых запросов на русском языке	Да
Наличие платных тарифов	Нет
Возможность генераций в браузере	Да
Возможность генераций через чат-ботов	Да, в Telegram и ВКонтакте
Создание коротких видео и анимации по текстовому запросу	Да

Что умеет Kandinsky

Работа сервиса Kandinsky 3.0 происходит в пяти основных форматах. Подробнее о каждом.

Генерация изображений по текстовому запросу. Самый популярный режим для нейросетей. Создание изображения происходит только на основе введенного описания и указанных деталей.

Генерация изображения на основе текстового запроса — Генерация изображения на основе текстового запросаИсточник: Hi-Tech Mail

Создание новых изображений на основе загруженных. С помощью нейросети Kandinsky можно слегка изменить исходное изображение, заменить лицо на портрете или внешний облик объекта, сохранив при этом основные детали и стиль загруженной картинки или фото.

Генерация нового портрета на основе загруженного — Генерация нового портрета на основе загруженногоИсточник: Hi-Tech Mail

Дорисовка деталей у готового изображения. Изображение может быть загруженным пользователем или сгенерированным нейросетью.

Исходное сгенерированное изображение рыбака с промтом — Исходное сгенерированное изображение рыбака с промтомИсточник: Hi-Tech Mail

Генерация анимации. В сервисе Fusion Brain доступна генерация анимационных роликов. Пользователь может написать текстовый запрос для нескольких сцен, длительностью 4 секунды каждая, добавлять или удалять дополнительные сцены и их описания. Чем больше описано сцен — тем дольше ждать окончания генерации.

Дорисованные детали на исходном сгенерированном изображении — Дорисованные детали на исходном сгенерированном изображенииИсточник: Hi-Tech Mail

Генерация коротких видео. Генерация видео происходит более сложно, чем анимации, у нее пока нет расширенных настроек и для всего видеоролика имеется только одно окно для ввода текстового запроса. Время генерации видео, в среднем, — около 4 минут. Качество видео и соответствие результата запросу пока крайне низкое.

7 способов начать пользоваться Kandinsky

В первую очередь советуем ознакомиться с разделом нейросети Kandinsky на сайте «Сбера». Там перечислены ссылки на всевозможные официальные источники, где можно попробовать генерацию изображений и видео.

Рассмотрим подробнее, что представляет каждый из них.

1. Официальный сайт

Официальной страницей Kandinsky, где можно попробовать работу в самой свежей версии и все его функции, считается сайт Fusion Brain.

Fusion Brain — это портал, где команда института AIRI (научно-исследовательский институт искусственного интеллекта) выкладывает интересные модели нейросетей, чтобы желающие могли попробовать современные инструменты и изучить новую технологию.

Первой нейросетью, выложенной на портал, стал именно Kandinsky. Команда использовала открытый исходный код приложения и создала сайт с удобным интерфейсом.

Интерфейс графического редактора Fusion Brain — Интерфейс графического редактора Fusion BrainИсточник: Hi-Tech Mail

На сайте можно:

генерировать изображения по текстовому запросу в графическом редакторе;
создавать новые изображения на основе загруженного;
стирать лишние детали изображения ластиком;
генерировать изображения и анимацию разного качества и ориентации;
скачивать готовые картинки на компьютер;
генерировать изображения в разных стилях;
вводить промты и негативные промты, по-простому — то, что должно быть на изображении и то, чего там быть НЕ должно;
генерировать анимационные ролики, состоящие из нескольких несвязанных сцен;
генерировать видео.

Дополнительно стоит отметить, что сервис полностью русскоязычный, интуитивно-понятный и имеет подсказки и горячие клавиши для работы в редакторе.

Горячие клавиши для работы в редакторе Fusion Brain — Горячие клавиши для работы в редакторе Fusion BrainИсточник: Hi-Tech Mail

2. Сайт с урезанным функционалом

Генерация изображений по текстовому запросу также доступна на сайте ruDALL-E, но с урезанным функционалом.

Можно выбрать последнюю версию Kandinsky 3.1 или использовать архивные 2.2, 2.1, ruDALL-E Kandinsky, ruDALL-E Malevich, ruDALL-E Emojich.

Правда, сайт не всегда корректно работает и иногда не отправляет формы с запросом на сервер.

Интерфейс сервиса ruDALL-E — Интерфейс сервиса ruDALL-EИсточник: Hi-Tech Mail

3. VK-бот

Сгенерировать изображение по запросу в выбранной ориентации (1:1, 3:2, 2:3) можно отправив команду чат-боту ВКонтакте.

При использовании этого способа нельзя задать расширенные настройки или загрузить другое изображение для генерации на его основе. Однако нейросеть в чат-боте пригодится, например, для быстрой визуализации идей, подбора картинки-анонса к посту или статье. Версия Kandinsky в чат-ботах не всегда самая актуальная, поэтому качество может быть ниже, чем при генерации через Fusion Brain.

Переписка с чат-ботом ВКонтакте для генерации изображений — Переписка с чат-ботом ВКонтакте для генерации изображенийИсточник: Hi-Tech Mail

Результат генерации в чат-боте ВКонтакте — Результат генерации в чат-боте ВКонтактеИсточник: Hi-Tech Mail

4. Telegram-бот для создания изображений

Оперативно создать изображение можно и в боте мессенджера Telegram Kandinsky by Sber AI. Он появился для версии 2.1 и до сих пор считается актуальным.

На момент публикации статьи бот поддерживает свежую версию 3.1 и архивные 2.2 и 2.1.

Среди вариантов работы чат-бота в Telegram можно отметить:

умение генерировать изображения по описанию (все версии);
возможность смешивать изображения в одно (на версии 2.1 и 2.2);
переносить стиль на изображение (на версии 2.2);
генерировать вариации изображения (на версии 2.1 и 2.2);
создавать стикеры (на версии 2.2).

Интерфейс и меню чат-бота в Telegram — Интерфейс и меню чат-бота в TelegramИсточник: Hi-Tech Mail

5. Telegram-бот для генерации видео

В мессенджере Telegram также существует отдельный чат-бот для создания видеороликов, он называется Kandinsky Video by Sber AI.

Так как функция генерации видео появилась недавно и доступна не всем пользователям, для использования чат-бота с целью генерации видео необходимо оставить заявку. Только после ее одобрения можно будет протестировать функционал Kandinsky.

Интерфейс чат-бота для генерации видео и запрос на использование — Интерфейс чат-бота для генерации видео и запрос на использованиеИсточник: Hi-Tech Mail

6. Приложение «Салют»

Генерировать изображения можно с помощью виртуального ассистента в мобильном приложении «Салют» или на умных устройствах под управлением Салют ТВ по команде «Включи художника».

Страница android-приложения «Салют» в Google Play — Страница android-приложения «Салют» в Google PlayИсточник: Hi-Tech Mail

7. Интегрировать API в свое приложение или сайт

Продвинутые пользователи, имеющие навыки программирования, владельцы собственного сайта или мобильного приложения, могут интегрировать Kandinsky в свой проект.

Для этого необходимо подключить Fusion Brain по API к своему продукту.

Интеграция своего сервиса по API к Fusion Brain — Интеграция своего сервиса по API к Fusion BrainИсточник: Hi-Tech Mail

Инструкция по использованию нейросети Kandinsky

Инструкция как пользоваться нейросетью Kandinsky от Сбербанка будет отличаться в зависимости от цели назначения.

В чат-ботах и на упрощенных сайтах обычно достаточно просто ввести обычный текстовый запрос и выбрать минимум настроек для получения изображения. В версии же на сайте Fusion Brain настроек и тонкостей гораздо больше — с их помощью можно полностью раскрыть потенциал нейросети.

Рассмотрим подробнее процесс создания изображений, анимации и видео на Fusion Brain.

Как создать картинку

Первым этапом создания картинки нужно выбрать ее качество и разрешение. Отдельного выбора качества на сайте нет, оно будет автоматически изменяться при выборе ориентации. Например, качество стандартной квадратной картинки 1:1 по умолчанию будет 1024×1024 px.

Выбор качества и ориентации изображения — Выбор качества и ориентации изображенияИсточник: Hi-Tech Mail

Вторым этапом нужно сделать самое основное — грамотно сформулировать промт, или по-простому — запрос. Вводим запрос в окошко под областью генерации и смотрим первый результат.

Результат первой генерации — Результат первой генерацииИсточник: Hi-Tech Mail

Внимательно оцениваем результат, изучаем детали, концентрируем внимание на том, что получилось неудачно. Вписываем это в поле «негативный промт».

Результат генерации после указания негативного промта — Результат генерации после указания негативного промтаИсточник: Hi-Tech Mail

Оцениваем еще раз, повторно корректируем ненужные детали негативным промтом и вписываем недостающие детали в обычный промт.

Дополнение негативного промта — Дополнение негативного промтаИсточник: Hi-Tech Mail

Совершаем эти действия до тех пор, пока результат не приблизится к ожидаемому.

Стоит отметить, что при таких точечных правках объект и его фон в целом остаются такими же, меняются только детали.

Конечный результат генерации — Конечный результат генерацииИсточник: Hi-Tech Mail

Готовое изображение можно скачать на компьютер.

Скачивание изображения — Скачивание изображенияИсточник: Hi-Tech Mail

Как редактировать готовое изображение

Редактировать детали картинки можно не только с помощью корректировки промта, но и с использованием инструмента «ластик». Он может понадобиться, если картинка сгенерирована хорошо, но имеет слишком крупный план или основной объект не дорисован, обрезан в ненужном месте.

Исходное изображение для дорисовки деталей — Исходное изображение для дорисовки деталейИсточник: Hi-Tech Mail

Передвигаем область генерации в то место, где требуется дорисовка и описываем с помощью запроса что именно там должно быть.

Важный момент: для качественной дорисовки новая область генерации должна захватывать первый рисунок. Чем больше это пересечение и захват, тем больше шансов, что вторая картинка будет продолжением первой.

Новый запрос и дорисовка области — Новый запрос и дорисовка областиИсточник: Hi-Tech Mail

Вторая дорисовка части изображения — Вторая дорисовка части изображенияИсточник: Hi-Tech Mail

Дорисовывать детали изображения и продолжать картинку можно до тех пор, пока она не удовлетворит запрос.

Результат дорисовки фотореалистичного изображения — Результат дорисовки фотореалистичного изображенияИсточник: Hi-Tech Mail

Как создать анимацию

Для создания анимации нужно перейти на вкладку «Видео» в Fusion Brain и выбрать в поле «Модель» пункт «Анимация».

Подготовка к генерации анимации — Подготовка к генерации анимацииИсточник: Hi-Tech Mail

Далее стоит определить количество сцен, которые необходимо сгенерировать, и написать запрос для каждой из них. Дополнительной настройкой является указание направления камеры для каждой из сцен.

Важная деталь: чем больше описано сцен для генерации, тем выше будет время ожидания готового результата. В самом начале стоить протестировать свою мысль на одной-двух сценах, чтобы понять соответствует ли результат первоначальной идее.

Интерфейс генератора анимации и описание сцен — Интерфейс генератора анимации и описание сценИсточник: Hi-Tech Mail

Созданную анимацию можно скачать на компьютер и использовать, она будет иметь расширение .MP4.

Как создать видео

Процесс создания видео практически идентичен созданию анимации, но имеет меньшее количество настроек.

У видео нет разбивки на сцены и настроек направления камеры. Генерация в среднем занимает около 4 минут, а само видео имеет продолжительность около 8 секунд.

Интерфейс создания видео — Интерфейс создания видеоИсточник: Hi-Tech Mail

Итоговые ролики в версии Kandinsky 3.0 имеют низкое качество, выходят очень смазанными, пиксельными и напоминают видео из 2000-х, которые передавались через Bluetooth и ИК-порт на телефонах.

Советы, как правильно составлять запрос нейросети

Составление грамотного запроса — самая важная часть работы с нейросетью, без этого понять, как пользоваться Kandinsky в 2024 году, не выйдет. Разберемся подробнее как составлять запрос.

1. Грамотно формулируйте запрос, указывайте важные детали

В самом простом виде запрос должен содержать три составляющих.

Описание объекта. Его внешний вид, детали облика, эмоции (улыбается, плачет, злой).

Для людей — возраст (молодая девушка, пожилой мужчина, ребенок), цвет волос, цвет глаз, наличие веснушек и другие важные детали.

Для животных — порода, вид, тип шерсти, ее цвет.

Для неживых объектов — текстура (гладкий, шершавый, матовый), материал (мрамор, камень, дерево, кожа).

Фон и его детали. Время года (лето, зима), время суток (день, ночь), погодные условия (ясная погода, снегопад), наличие дополнительных объектов (улица с машинами, свет уличных фонарей).
Стиль. Можно выбрать из списка доступных в сервисе стилей или описать свой собственный.

После того как запрос готов, можно генерировать картинку и вносить корректировки в зависимости от полученного результата.

2. Повлиять на результат можно с помощью негативных промтов

Нейросеть, как и человек, может мыслить стереотипно и понимать всю информацию, данную запросом, в буквальном смысле. Например, если написать «лиса», то получится исключительно рыжий зверек, а «помидор» всегда будет красным.

Чтобы преодолеть эти нюансы, стоит вписывать желаемый результат в промт, например «чернобурая лиса», а в негативный промт нежелательный результат, например «рыжая лиса».

3. Писать запросы однозначными, не использовать метафоры и намеки

Нейросети пока не способны распознавать намеки, крылатые выражения и пословицы и другие выразительные фигуры речи. Поэтому в запросах их лучше не использовать. Вместо них нужно давать больше конкретики и четких указаний в запросе.

Попытка сгенерировать иллюстрацию к поговорке «Толочь воду в ступе» — Попытка сгенерировать иллюстрацию к поговорке «Толочь воду в ступе»Источник: Hi-Tech Mail

Примеры изображений, сгенерированных нейросетью Kandinsky

Промт: Красивая молодая девушка в лавандовом поле, красное платье, светлые волосы, плетеная корзинка в руках. Лето, ясная солнечная погода. Реализм, студийное фото, высокая детализация.

Генерация девушки с корзинкой в лавандовом поле — Генерация девушки с корзинкой в лавандовом полеИсточник: Hi-Tech Mail

Промт: Полосатый серый кот. Деревня, скотный двор. Осень, облачная погода, листопад. Картина маслом, высокая детализация.

Генерация деревенского кота в технике рисования маслом на холсте — Генерация деревенского кота в технике рисования маслом на холстеИсточник: Kandinsky

Промт: Молодой парень катается на серфинге по волнам. Лето, ясная погода, солнечный свет, яркие краски. Стиль Айвазовский, высокая детализация.

Молодой парень катается на серфинге в стиле картин Айвазовского — Молодой парень катается на серфинге в стиле картин АйвазовскогоИсточник: Kandinsky

Промт: Ваза с суккулентами и кактусами на окне. Цвета сочные, зеленые, салатовые, бордовые, желтые. Солнечный свет, высокая детализация, студийное фото.

Ваза с суккулентами — Ваза с суккулентамиИсточник: Kandinsky

Промт: Машина Peugeot 206 красного цвета. Фон природа, лес. Ясная солнечная погода, лето. Студийное фото, высокая детализация, фотография, высокое разрешение.

Генерация машины определенной марки и модели — Генерация машины определенной марки и моделиИсточник: Kandinsky

Плюсы и минусы нейросети Kandinsky

Разработчики нейросети Kandinsky радуют пользователей постоянными обновлениями функционала, свежими версиями и максимальной приближенностью качества к известным аналогам — зарубежным Midjourney, Dall-E и Stable Diffusion, но типичные недостатки нейросетей не обошли стороной. При генерациях все еще можно получить шесть пальцев, кривые глаза, проблемы с линзами и зеркалами и многие другие типичные «ляпы» нейросетей.

Ляп с человеком-собакой по запросу «Фермер» — Ляп с человеком-собакой по запросу «Фермер»Источник: Hi-Tech Mail

Сравним подробнее плюсы и минусы.

Плюсы: Бесплатная нейросеть; Мультиязычная, понимает запросы на русском языке; Доступна в России, не нужно заходить с VPN; Другие пользователи не видят генерации; Может генерировать изображения во многих стилях, копировать стили художников, рисовать персонажей и персон русской культуры и фольклора; Можно использовать в чат-ботах «Телеграмм» и «ВК»; Можно объединять два изображение в одно новое; Можно генерировать стикеры; Можно создавать анимацию и видео; Можно интегрировать к себе на сайт или в приложение; Простой интерфейс на сайте и в чат-ботах

Минусы: Только для некоммерческого использования; Нет ленты пользовательских генераций; Не всегда предсказуемое качество итоговых изображений, даже при указании стиля и качества; Видео создается очень низкого качества

Вопросы и ответы

Есть ли аналоги у Kandinsky?

Среди нейросетей, хорошо работающих в России, понимающих русскоязычные запросы и имеющих простой и понятный интерфейс, как аналог можно выделить «Шедеврум» от «Яндекса». «Шедеврум», так же, как и Kandinsky, имеет лицензию только для некоммерческого использования.

Со свободной лицензией для коммерческого и некоммерческого использования и открытым исходным кодом, доступных из России, можно выделить нейросеть Stable Diffision.

На каких языках работает Kandinsky?

Сервис поддерживает и понимает запросы более чем на 100 языках, включая русский.

Можно ли использовать созданные этой нейросетью картинки в коммерческих целях?

Kandinsky имеет лицензию только для некоммерческого использования. Подробнее с ограничениями и правилами сервиса можно ознакомиться в пользовательском соглашении.