Нейросеть Кандинский 2.1: обзор нейросети для генерации изображений по текстовому описанию

Нейросеть Кандинский 2.1

Что такое Кандинский 2.1

Нейросеть Кандинский 2.1 — это инновационная нейросеть, разработанная компанией Сбербанк для генерации изображений по текстовым подсказкам. Название модели нейросети связано с именем Василия Кандинского, выдающегося русского художника-абстракциониста.

Одним из основных преимуществ нейросети Kandinsky 2.1 является возможность отправлять подсказки на множестве языков, в том числе на русском языке, что открывает еще больше возможностей для ее использования. Благодаря этому, пользователи могут легко генерировать изображения на основе своих идей и фантазий.

Kandinsky 2.1 является самой новой моделью нейросети. Ее прошлая версия Kandinsky 2.0 имела только 2 миллиарда параметров, тогда как новая модель имеет 3,3 миллиарда параметров. Это позволяет ей генерировать изображения более высокого качества и точности.

Нейросеть Кандинский 2.1 является технологией, которая может быть использована в различных областях, таких как дизайн, реклама, искусство и многие другие. С помощью нейросети можно создавать уникальные и креативные изображения, которые помогут привлечь внимание и заинтересовать аудиторию.

Как пользоваться Kandinsky 2.1

Попробовать модель Кандинский 2.1 можно пятью разными способами:

На сайте fusionbrain.ai — преимуществом данного сервиса является расширенный функционал работы с изображениями.
На сайте Rudalle — помимо Кандинский 2.1 там можно попробовать и другие модели нейросети, такие как Kandinsky 2.0, Malevich и Emojich. В последнем можно сгенерировать смайлики по описанию.
С помощью телеграм-бота нейросети — удобный способ, кто предпочитает работу в известном мессенджере.
В мобильном приложении Салют для Андроид.
На умном устройстве под управлением Салют ТВ.

Отметим, что все выше приведенные сервисы являются официальными.

Мы решили протестировать Кандинский 2.1 с помощью сервиса fusionbrain.ai.

Заходим на сайт https://fusionbrain.ai/diffusion и видим такой главный экран:

главный экран Кандинский 2.1

Слева сбоку расположены 4 инструмента:

инструменты Кандинский 2.1

Стрелка — с помощью нее можно задать размеры изображения, уменьшая и увеличивая вручную область изображения.
Ладонь — с ее помощью можно двигать область изображения по рабочему экрану.
Иконка картинки — позволяет загрузить свое изображение на последующую доработку.
Ластик — позволит удалить необходимый элемент с изображения.

В нижнем левом блоке сайта можно выбрать стиль, в котором будет генерироваться изображение.

Доступны следующие стили:

стили стили 2

Ну и главное поле ввода текстовой подсказки располагается в нижней части экрана.

поле текстовой подсказки

Начнем тестировать Кандинского!

Для начала решили вбить простой запрос «собака ест косточку» и выбрали стиль Детальное фото.

Вот какой результат сгенерировала модель Кандинский 2.1:

результат генерации изображений в Кандинский 2.1 1

Для скачивания изображения необходимо нажать на кнопку Скачать в правой части экрана.

Далее отправили на генерацию запрос «дед мороз и снегурочка рядом с большой елкой«. Стиль выбрали Новый год.

Результат:

результат генерации изображений в Кандинский 2.1 2

Деда мороза и елку видим на картинке, а вот снегурочка где-то потерялась.

Попробуем также на этом изображении испытать инструмент ластик.

Видим, что на картинке присутствуют подарки. Выделим их с помощью ластика и посмотрим получится ли у нейросети удалить их с изображения.

результат генерации изображений в Кандинский 2.1 3 Убираем ненужный элемент с помощью ластика

Результат обработки:

результат генерации изображений в Кандинский 2.1 4

Как видим нейросеть просто заменила подарки чем-то вроде снега. Не совсем то, что хотелось бы.

Еще несколько генераций с используемыми промтами.

результат генерации изображений в Кандинский 2.1 5

Стиль: Студийное фото

Используемый промт:

Гостиная в красивом светлом современном доме в скандинавском стиле с большими окнами, выходящими на бассейн.

результат генерации изображений в Кандинский 2.1 6

Стиль: Портретное фото

Используемый промт:

Пожилой мужчина с морщинами и теплой улыбкой наслаждается утренним кофе в закусочной.

результат генерации изображений в Кандинский 2.1 7

Стиль: Детальное фото

Используемый промт:

Молодой Киану Ривз в черном длинном кожаном пальто идет по улице под дождем.

результат генерации изображений в Кандинский 2.1 8

Стиль: Студийное фото

Используемый промт:

Космонавт смотрит кино в кинотеатре и ест попкорн.

результат генерации изображений в Кандинский 2.1 9

Стиль: Ренессанс

Используемый промт:

Зал великолепного дворца в стиле барокко, наполненный золотыми статуями черепов и картинами с черепами, красивая лестница, картины эпохи Возрождения, мраморные колонны, высокие растения.

Лимиты и ограничения

Кандинский 2.1 является бесплатной нейросетью и на данный момент отсутствуют какие либо платные тарифы.

Нет также ограничений на количество генерируемых изображений, что отличает нейросеть от многих других подобных сервисов.

Единственное найденное ограничение это максимальное разрешение изображения, которое составляет 768х768 пикселей.

Преимущества Кандинский 2.1

сервис бесплатный;
нет ограничений на количество генераций;
большое количество предлагаемых стилей;
можно менять разрешение изображений.

Недостатки Кандинский 2.1

Обработка загружаемых изображений работает пока плохо. Мы загружали фотографию пустой комнаты и просили нейросеть дорисовать на фото диван, но Кандинский ни в какую не хотел менять что-либо на изображении.
Функция ластика также работает не идеально, не удаляет выделенное, а просто заменяет другим объектом.
Нет возможности для генерации изображения размером больше 768х768 пикселей.
Генерируется только один вариант изображения. Во многих других подобных нейросетях обычно предоставляются четыре варианта.

Сравнение генерируемых изображений Кандинский 2.1 с другими нейросетями

Проведём наш фирменный тест и на примере одного текстового запроса сравним генерацию изображений Кандинский 2.1 с другими похожими нейросетями.

Для сравнения с Кандинским взяли 6 популярных нейросей для генерации изображений: Шедеврум, Midjourney, Stable Diffusion, DALL-E 2, Blue Willow и Lexica.

Во все нейросети отправили один и тот же промт: «Кот сидит на крыше дома».

Вот какой результат получился в Кандинский 2.1:

результат генерации изображений в Кандинский 2.1 10