Что такое Stable Diffusion?
Stable Diffusion – это современная модель искусственного интеллекта, предназначенная для создания изображений посредством подсказок.
Алгоритм спонсируется стартапом Stability AI, который нацелен стать лидером массовой революции в области искусственного интеллекта с открытым исходным кодом. Алгоритм основан на передовых идеях, таких как DALL-E 2 от Open AI, Imagen от Google, и других моделях генерации изображений с учетом множества оптимизаций.
Отличия Stable Diffusion от DALL-E и Midjourney
- Первое, в чем Stable Diffusion выигрывает у DALL-E 2 и Midjourney — это скорость создания и обработки изображений.
- Второе, это более точное попадание в запрос пользователя, в отличии, например, от Midjourney, который больше креативит.
- Третье, и безусловно самое главное отличие — это то, что Stable Diffusion полностью бесплатный.
- Четвертое, это полное отсутствие каких-либо лимитов на генерацию изображения.
Приведем пару наглядных примеров отличий генерируемых изображений Stable Diffusion и Midjourney.
Обе нейросети попросим сгенерировать изображение по простому запросу “кот сидит на крыше дома”.
Вот что сделал Stable Diffusion:
А так видит кота, сидящего на крыше, Midjourney:
Как видим, у Midjourney получилось более художественно, а у Stable Diffusion более реалистично.
А вот что запросу “море и закат солнца” выдает Stable Diffusion:
Работа Midjourney:
Важно добавить, что при запросе на генерацию этих изображений не использовалось каких-то дополнительных настроек в виде стилей и прочего, то есть мы задали голый запрос нейросети. Безусловно, играясь с дополнительными требованиями в запросе, можно получить необходимый результат.
Способы использования Stable Diffusion
Существует пять способов использования Stable Diffusion:
- С помощью различных веб сервисов. Вы заходите на сайт, вводите запрос и получаете изображение. Часто даже не нужна регистрация, в отличии от Midjourney.
- В приложениях для Android и Apple iOs
- Через Telegram ботов
- С помощью программы, устанавливаемой на компьютер. В отличии от первого способа можно добиться более качественных результатов, но не подойдет, если у вас слабый компьютер.
- Работа через консоль. Подходит для владеющих навыками программирования.
Сайты для генерации изображений Stable Diffusion
На данный момент доступно множество веб сервисов, где можно попробовать модель Stable Diffusion для перевода текста в картинку. Расскажем о них и какие есть плюсы и минусы у каждого.
- Hugging Face — пожалуй, самый популярный сервис по Stable Diffusion. Преимуществом является то, что не нужно регистрироваться и нет никаких лимитов на генерацию изображений. Имеет простой и понятный интерфейс. Из минусов можно выделить не самую шуструю работу, периодическую недоступность из-за нагруженности и отсутствие API.
- Dream Studio — официальный сайт генерации картинок Stable Diffusion. В отличии от Hugging Face необходима регистрация и есть лимит в 200 изображений в бесплатной версии. Преимуществом является возможность отправить на генерацию не только текстовый запрос, но и картинку. Также по умолчанию дается больше настроек в виде количества шагов, количества нужных картинок, степень строго соответсвия вашему запросу и другие.
- Visualise Studio — требует авторизацию через Google аккаунт. Без авторизации дает сгенерировать только 3 картинки. В основном все функции платные, бесплатный функционал сильно ограничен. Также часто недоступен и выдает ошибку «We’ll be back soon. We’re making some changes, hold tight.»
- Mage.Space — по простоте и отсутствию лимитов и необходимости регистрации либо авторизации похож на Hugging Face. Поле для запроса, вводите, получаете результат. При этом, если решитесь на регистрацию или переход на профессиональный аккаунт, станет доступно большое количество настроек, а также есть возможность использовать модель не только Stable Diffusion, но и другие известные модели, например Midjourney, Analog и прочие.
- PlaygroundAi — также очень популярный сервис, с отсутствием каких-либо лимитов, но необходима авторизация. Зато после нее вам станет доступен целый портал, где можно не только генерировать изображения, но и смотреть за работами других пользователей, подсматривать их запросы. Также есть функция Image to Image, где на вход можно отправлять свое изображение.
- Avyn — необходима регистрация, но отсутствуют лимиты на количество генерируемых изображений. Также есть галерея, где можно посмотреть уже готовые работы. К минусам отнесем практически полное отсутствие каких-либо настроек.
- Dezgo — бесплатный, лаконичный и без ограничений на количество генерируемых картинок. Помимо моделей Stable Diffusion версий 1.4, 1.5 и 2.1-b, можно потестировать также аниме модели Anithing 3.0 и Waifu Diffusion 1.3. Также есть функционал «картинка в картинку».
Приложения для Android и Apple iOs
Генерировать изображения используя модель Stable Diffusion можно через специальные приложения для смартфонов:
- Make AI Art — приложение для смартфонов на Android. Доступна не только модель Stable Diffusion, но и MidJourney.
- Draw Things — приложение для Apple iOs. Приложение весит не мало, потребует около 3ГБ на телефоне. Доступно начиная с Iphone 11 и новее. Доступно много настроек, можно выбрать для работы и другие нейросети. Есть также функционал генерации логотипов и аватар.
Telegram боты Stable Diffusion
На данный момент существуют следующие телеграм боты:
Список будет пополняться.
Программы на компьютер
Поиграться с моделью Stable Diffusion можно также установив программу на свой компьютер. Вот 3 популярных программ на ПК:
- NMKD GUI — программа для Windows. Займет на диске около 11 Гб. Обладает большим количеством настроек. Полностью бесплатна и нет лимитов.
- CMDR2’s 1-Click Installer — можно установить не только на Windows, но и на Linux. После того как скачаете с гитхаба папку с файлами программы, необходимо запустить ее через файл «Start Stable Diffusion UI.cmd». Места на диске занимает больше, чем NMKD GUI, около 26 Гб, но количество настроек удивляет.
- Diffusion Bee — программа для компьютеров на MacOS. В отличии от программ для Windows, занимает очень мало места на диске, всего около 280 Мб. Имеет понятный интерфейс, при этом количество дополнительных настроек также внушительное.