Содержание статьи
Stable Diffusion — как установить и как пользоваться нейросетью
Как генерировать картинки в Stable Diffusion: показываем на котиках
Теперь нужно выбрать и скачать модель. У нейросетей для генерации картинок существуют разные модели, натренированные для создания изображений в разных стилях. Например, у Midjourney есть стандартная модель Midjourney v4, более свежая Midjourney v5, создающая более фотореалистичные изображения, и модель niji•journey, генерирующая картинки в стиле аниме и манга.
После сбора данных нейросеть обучалась на GPU — сервере с графической картой для сложных операций. Обучение проходило по следующему принципу: система задействовала технологию CLIP (Contrastive Language–Image Pre-training) — генерацию готовой композиции в один этап. Для сравнения, обычно создание изображения происходит послойно: начинается с фона и заканчивается объектом. CLIP же позволяет строить ассоциативные ряды между словами и изображениями. Обучение Stable Diffusion продолжается — это помогает усовершенствовать нейросеть.
Наши котики имеют размер 1024х768 пикс, что не так много. Для инстаграма хватит, а вот на большом мониторе особо не порассматриваешь, да и для печати маловато. Поэтому попробуем увеличить размер изображения. Делается с помощью тех же кнопок справа вверху (наводим мышь на картинку, чтобы кнопки появились).
В процессе генерации попадались котики, у которых на месте глаз жёлтые круги без зрачков или с плохо проработанными зрачками. Чтобы повысить качество глаз и избавиться от плохих вариантов, в поле Negative prompt добавили пункты bad eyes, ugly eyes, чтобы исключить варианты с плохими уродливыми глазами.
Что касается результата увеличения, то тут он не так впечатляет, как в том же Midjourney. Если Midjourney во время увеличение продолжает дорисовывать изображение, добавляя и изменяя детали, то Stable Diffusion просто физически увеличивает картинку, увеличивая резкость и сохраняя плавность линий. В целом, результат увеличения в Stable Diffusion очень похож на работу Topaz Gigapixel.
Нажимаем и ждём, пока Stable Diffusion увеличит нашу картинку. На компьютерах со слабой видеокартой возможны ошибки. На нашем подопытном с GTX 960 4 Гб увеличение работает через раз. Но тут ничего не поделаешь: либо пробовать раз за разом, либо менять железо.
Модель Stable Diffusion 1.5
Попробуем сделать формат нашего изображения менее квадратным. Ставим ширину изображения (Width) 1024 пикс, а высоту (Height) — 768. Считается, что наилучший результат нейросеть выдает лучший результат при генерации квадратных картинок 512х512 пикселей, так как обучалась именно на таком размере. Если же нужно сделать прямоугольные картинки, рекомендуется делать одну из сторон либо равной 512 пикселей, либо уменьшить или увеличить это значение в два раза, до 256 или 1024 точек соответственно.
Работает она не на удалённом облачном сервере, как Midjourney или DALL-E, а прямо на компьютере пользователя. В этом есть плюсы: не надо оплачивать подписку, не надо ждать в очереди, пока нейросеть создаст картинки для других клиентов и займётся твоим запросом. Есть и минусы: не каждый компьютер подойдёт для запуска и стабильной работы Stable Diffusion. Нужна мощная видеокарта и несколько десятков гигабайт свободного места на диске. Разработчики рекомендуют использовать видеокарту Nvidia серии RTX 3xxx с объёмом видеопамяти не менее 6 Гб.
Не стоит сразу пугаться. Примерно через минуту откроется браузер с пользовательским интерфейсом, в котором и происходит общение с нашей нейросетью. Но окно с командной строкой во время работы со Stable Diffusion закрывать нельзя, ядро нашей нейросети работает именно там, а в браузере находится только удобная для работы оболочка.
Запускаем установочный файл и начинаем установку. В процессе вас спросят, куда установить нейросеть. Лучше создавать папку для установки в корне диска (например, C:\EasyDiffusion или D:\EasyDiffusion). Так вам точно не придется потом искать установленную нейросеть.
У M-процессоров от Apple видеопамять и оперативная память – это одно и то же. Поэтому владелец даже MacBook Air 2020 года с «оперативкой» в 8 гигабайт и процессором M1 может без труда раскатать себе очень эффективную модельку и пользоваться такой нейросетью как следует. А если у вас 64 или больше «оперативы» в Mac, то можно смотреть в сторону самых-самых топовых LLM!
Также поддерживается русский язык интерфейса. И если нейросеть способна отвечать на русском языке или хотя бы переводить свой ответ с английского на русский на лету, то и общаться с ней вы тоже сможете на русском, пусть и через языковой барьер нейропереводчика.
Как установить LM Studio
Неплохая работа с глубиной резкости и боке, реалистичные котики почти без проблем с глазами. Но интерьер и атмосфера получились не такими выразительными, как в Deliberate. В целом, рекомендуем к установке и использованию / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт
У Stable Diffusion из-за открытого кода моделей гораздо больше: есть модели для имитации разных художественных стилей, для реализма, для аниме и для создания архитектурных эскизов. Мы будем использовать одну из самых популярных универсальных моделей Deliberate 2.0, её можно скачать здесь.
В апреле 2022 года компания OpenAI выпустила DALL-E 2. Главная особенность этой нейросети — возможность экспериментировать со стилями. Можно сгенерировать картинку в формате реализма, футуризма, а также «примерить» стиль известных художников: например, Винсента ван Гога или Василия Васильевича Кандинского.
Перед загрузкой обязательно обратите внимание на то, сколько весит файл модели: он целиком будет выгружен в видеопамять вашего компьютера. Ищите вариант, который займёт до 70% видеопамяти вашего Mac или PC. Крупные и «тяжёлые» модели стоит скачивать в формате GGUF. Это квантованные, то есть «сжатые» версии, сохранившие максимум пользы модели, но занимающие многократно меньше видеопамяти, чем «несжатые» версии.
Составим такое описание: a cat made out of metal, ((cyborg)), (intricate details), hdr, ((intricate details, hyperdetailed)), sitting on the table, steampunk, books on the table, medieval windows behind, lancet windows, old library, victorian room, table lamps, stone walls, sun rays, soft light, photorealistic, perfect composition, cinematic shot / кот из металла, ((киборг)), (сложные детали), hdr, ((сложные детали, гипердетализация)), сидит на столе, стимпанк, книги на столе, средневековые окна сзади, стрельчатые окна, старая библиотека , викторианская комната, настольные лампы, каменные стены, солнечные лучи, мягкий свет, фотореалистичный, идеальная композиция, кинематографический кадр.
Не буду приводить здесь ссылки на сторонние LLM-модели, но могу сразу сказать: реальный их выбор огромен, и вы можете найти модель как широкого формата, так и заточенную под использование какой-нибудь конкретной задачи. Например, есть модели-помощники для разработчиков приложений, модели естественного общения, ролевые модели, джейлбрейкнутые (взломанные) модели без цензуры и политических/моральных ограничений и так далее.
Stable Diffusion — нейросеть, умеющая генерировать изображения по текстовому запросу (txt2img). У неё открытый исходный код, а значит, любой желающий может использовать её для создания красивых картинок (и даже вносить изменения в код, если умеет программировать).
А для более комфортной и быстрой работы нужны более производительные видеокарты с объёмом памяти от 8 (а лучше от 12) гигабайт. Например, GeForce RTX 3050 на 8GB или GeForce RTX 4070Ti на 12GB. Что касается ноутбуков, то на ноутбуке Lenovo Legion 5 с видеокартой RTX3060 на 6GB Stable Diffusion должна работать довольно шустро (правда, 6 Гб может не хватить для сильного увеличения готовых картинок). А вот MSI Stealth GS77 точно справится с чем угодно: в нём стоит RTX3080Ti 16Gb.