Содержание статьи
Stable Diffusion: что это за нейросеть и как её использовать
Как скачать и установить Stable Diffusion
Не стоит сразу пугаться. Примерно через минуту откроется браузер с пользовательским интерфейсом, в котором и происходит общение с нашей нейросетью. Но окно с командной строкой во время работы со Stable Diffusion закрывать нельзя, ядро нашей нейросети работает именно там, а в браузере находится только удобная для работы оболочка.
В процессе генерации попадались котики, у которых на месте глаз жёлтые круги без зрачков или с плохо проработанными зрачками. Чтобы повысить качество глаз и избавиться от плохих вариантов, в поле Negative prompt добавили пункты bad eyes, ugly eyes, чтобы исключить варианты с плохими уродливыми глазами.
Ещё немного технической информации прежде чем перейдём непосредственно к рисованию. Скорость работы Stable Diffusion очень сильно зависит от установленной в компьютере видеокарты и объёма видеопамяти. Важный момент: при работе нейросеть использует ядра CUDA, которые есть только в видеокартах NVidia, и лучше брать именно их.
Теперь нужно выбрать и скачать модель. У нейросетей для генерации картинок существуют разные модели, натренированные для создания изображений в разных стилях. Например, у Midjourney есть стандартная модель Midjourney v4, более свежая Midjourney v5, создающая более фотореалистичные изображения, и модель niji•journey, генерирующая картинки в стиле аниме и манга.
Запускаем установочный файл и начинаем установку. В процессе вас спросят, куда установить нейросеть. Лучше создавать папку для установки в корне диска (например, C:\EasyDiffusion или D:\EasyDiffusion). Так вам точно не придется потом искать установленную нейросеть.
Теперь поместим нашего кота в атмосферное место. Думаю, ему подойдёт старая библиотека. Составляем запрос: «photo of cat, sitting on the table, books on the table, medieval windows behind, lancet windows, old library, table lamps, victotrian room, stone walls, chandeliers, many books, HDR, sun rays, cinematic light, volumetric light, soft light, photorealistic, perfect composition» / фото кота, сидит на столе, книги на столе, средневековые окна позади, стрельчатые окна, старая библиотека, настольные лампы, викторианская комната, каменные стены, люстры, много книг, HDR, солнечные лучи, кинематографический свет, объемный свет, мягкий свет, фотореалистичный, идеальная композиция.
Наши котики имеют размер 1024х768 пикс, что не так много. Для инстаграма хватит, а вот на большом мониторе особо не порассматриваешь, да и для печати маловато. Поэтому попробуем увеличить размер изображения. Делается с помощью тех же кнопок справа вверху (наводим мышь на картинку, чтобы кнопки появились).
Чтобы получить красивый более крупный портрет, придётся немного доработать наш запрос и некоторые настройки. Итоговый промт выглядит вот так: «RAW photo, (((close-up))) portrait of the cat, sitting on the table, books on the table, medieval windows behind, lancet windows, old library, table lamps, victorian room, stone walls, chandeliers, many books, HDR, sun rays, god rays, cinematic light, volumetric light, soft light, photorealistic, perfect composition» / RAW фото, (((крупный план))) портрет кота, сидящего на столе, книги на столе, средневековые окна сзади, стрельчатые окна, старая библиотека, настольные лампы, викторианская комната, каменные стены, люстры, много книг , HDR, солнечные лучи, божественные лучи, кинематографический свет, объемный свет, мягкий свет, фотореалистичный, идеальная композиция.
Делаем несколько вариантов готового фото в Stable Diffusion
Попробуем сделать формат нашего изображения менее квадратным. Ставим ширину изображения (Width) 1024 пикс, а высоту (Height) — 768. Считается, что наилучший результат нейросеть выдает лучший результат при генерации квадратных картинок 512х512 пикселей, так как обучалась именно на таком размере. Если же нужно сделать прямоугольные картинки, рекомендуется делать одну из сторон либо равной 512 пикселей, либо уменьшить или увеличить это значение в два раза, до 256 или 1024 точек соответственно.
Что касается результата увеличения, то тут он не так впечатляет, как в том же Midjourney. Если Midjourney во время увеличение продолжает дорисовывать изображение, добавляя и изменяя детали, то Stable Diffusion просто физически увеличивает картинку, увеличивая резкость и сохраняя плавность линий. В целом, результат увеличения в Stable Diffusion очень похож на работу Topaz Gigapixel.
Easy Diffusion ― универсальный клиент, который работает на всех операционных системах: Windows, macOS, Linux. В этой версии возможности Stable Diffusion довольно ограничены ― можно генерировать картинки только по текстовому запросу. Но зато вы можете выбрать стиль, в котором хотите увидеть результат: от рисунка карандашом до 3D.
Оригинальный набросок и результат, который выдала нейросеть по промпту
Промпт: ranslucent women in biomechanical body, liquid cooling, intricate circuits, white gradient with orang, yellow and golden smoke and blue crystal liquid, stunning, render, hyper realistic, octane render
Автор промпта: thepromptman
Изображение: thepromptman / PromptHero
Работает она не на удалённом облачном сервере, как Midjourney или DALL-E, а прямо на компьютере пользователя. В этом есть плюсы: не надо оплачивать подписку, не надо ждать в очереди, пока нейросеть создаст картинки для других клиентов и займётся твоим запросом. Есть и минусы: не каждый компьютер подойдёт для запуска и стабильной работы Stable Diffusion. Нужна мощная видеокарта и несколько десятков гигабайт свободного места на диске. Разработчики рекомендуют использовать видеокарту Nvidia серии RTX 3xxx с объёмом видеопамяти не менее 6 Гб.
Обратите внимание: составление промта для Stable Diffusion немного отличается от того, как это делается в Midjorney. Нейросеть Midjorney лучше понимает сложные связные предложения, и в ней можно писать что-то типа «кот, сидящий на столе среди книг рядом с настольной лампой в старой викторианской библиотеке». Stable Diffusion лучше понимает отдельные слова или сочетания из 2-3 слов, разделённые запятыми. Так что составление промта для этой нейросети похоже на описание фото для фотостока.
Можно вернуться к квадратному формату, а можно попытаться это исправить с помощью поля Negative Prompt, в которое добавим описание того, что не хотим получать в генерации: «deformed, distorted, disfigured, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, mutated hands and fingers, disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation» (деформированный, искаженный, изуродованный, плохо нарисованный, плохая анатомия, неправильная анатомия, лишняя конечность, отсутствующая конечность, искажённые конечности, мутировавшие руки и пальцы, отсоединенные конечности, мутация, мутировавший, уродливый, отвратительный, размытый, ампутация).
Нейросети становятся всё совершеннее, входят в нашу жизнь всё чаще и вызывают всё больше споров. В конце марта 2023-го разработчики Midjourney закрыли бесплатный пробный доступ из-за злоупотребления технологией. В этом материале поработаем с бесплатным аналогом Midjourney — нейросетью Stable Diffusion. Где скачать, как установить и как работать со Stable Diffusion — разбираемся на котиках.