Как пользоваться нейросетью stable diffusion

0
24

Stable Diffusion — как установить и как пользоваться нейросетью

Для фотореалистичных изображений:

Первые генеративные нейросети были коммерческими: их нельзя было загрузить на компьютер, дополнить и дообучить под свои задачи. Со временем появились open-source модели, доступные для скачивания. По словам директора по инновациям Wink и преподавателя Британской высшей школы дизайна Артема Орлова, самой популярной стала именно Stable Diffusion: «Любой мог скачать XL-версию, закинуть туда сто изображений Москвы, например, и на выходе получить модель, которая знает все про город». Развитие пошло дальше: в 2023 году добавился дополнительный AI-инструмент (AI ― от англ. artificial intelligence, «искусственный интеллект»), ControlNet, с помощью которого пользователи могли генерировать изображения не только на основе текстового промта, но и с помощью других изображений и набросков.

Сайт для генерации изображений и сообщество для AI-энтузиастов. Нейросетевые художники могут делиться результатами своего творчества и следить за чужими успехами. Предлагает разнообразные стили и возможности настройки промптов. Бесплатно доступны только старые модели, для новых требуется покупка кредитов.

В процессе генерации попадались котики, у которых на месте глаз жёлтые круги без зрачков или с плохо проработанными зрачками. Чтобы повысить качество глаз и избавиться от плохих вариантов, в поле Negative prompt добавили пункты bad eyes, ugly eyes, чтобы исключить варианты с плохими уродливыми глазами.

Теперь поместим нашего кота в атмосферное место. Думаю, ему подойдёт старая библиотека. Составляем запрос: «photo of cat, sitting on the table, books on the table, medieval windows behind, lancet windows, old library, table lamps, victotrian room, stone walls, chandeliers, many books, HDR, sun rays, cinematic light, volumetric light, soft light, photorealistic, perfect composition» / фото кота, сидит на столе, книги на столе, средневековые окна позади, стрельчатые окна, старая библиотека, настольные лампы, викторианская комната, каменные стены, люстры, много книг, HDR, солнечные лучи, кинематографический свет, объемный свет, мягкий свет, фотореалистичный, идеальная композиция.

Попробуем сделать формат нашего изображения менее квадратным. Ставим ширину изображения (Width) 1024 пикс, а высоту (Height) — 768. Считается, что наилучший результат нейросеть выдает лучший результат при генерации квадратных картинок 512х512 пикселей, так как обучалась именно на таком размере. Если же нужно сделать прямоугольные картинки, рекомендуется делать одну из сторон либо равной 512 пикселей, либо уменьшить или увеличить это значение в два раза, до 256 или 1024 точек соответственно.

Не стоит сразу пугаться. Примерно через минуту откроется браузер с пользовательским интерфейсом, в котором и происходит общение с нашей нейросетью. Но окно с командной строкой во время работы со Stable Diffusion закрывать нельзя, ядро нашей нейросети работает именно там, а в браузере находится только удобная для работы оболочка.

Ещё немного технической информации прежде чем перейдём непосредственно к рисованию. Скорость работы Stable Diffusion очень сильно зависит от установленной в компьютере видеокарты и объёма видеопамяти. Важный момент: при работе нейросеть использует ядра CUDA, которые есть только в видеокартах NVidia, и лучше брать именно их.

ЧИТАТЬ ТАКЖЕ:  Технологии искусственного интеллекта позволяет решать следующие задачи какие

Stable Diffusion — нейросеть, умеющая генерировать изображения по текстовому запросу (txt2img). У неё открытый исходный код, а значит, любой желающий может использовать её для создания красивых картинок (и даже вносить изменения в код, если умеет программировать).

Принцип работы

А для более комфортной и быстрой работы нужны более производительные видеокарты с объёмом памяти от 8 (а лучше от 12) гигабайт. Например, GeForce RTX 3050 на 8GB или GeForce RTX 4070Ti на 12GB. Что касается ноутбуков, то на ноутбуке Lenovo Legion 5 с видеокартой RTX3060 на 6GB Stable Diffusion должна работать довольно шустро (правда, 6 Гб может не хватить для сильного увеличения готовых картинок). А вот MSI Stealth GS77 точно справится с чем угодно: в нём стоит RTX3080Ti 16Gb.

О проблемах с авторским правом «Ленте.ру» рассказал эксперт по ИИ, основатель и директор проекта BotB2b Виктор Попов. По его словам, команда Stability AI использовала для обучения нейросети картины известных художников, изображения с сайтов-агрегаторов, где авторы продают свои работы или выкладывают в бесплатный доступ.

Обратите внимание: составление промта для Stable Diffusion немного отличается от того, как это делается в Midjorney. Нейросеть Midjorney лучше понимает сложные связные предложения, и в ней можно писать что-то типа «кот, сидящий на столе среди книг рядом с настольной лампой в старой викторианской библиотеке». Stable Diffusion лучше понимает отдельные слова или сочетания из 2-3 слов, разделённые запятыми. Так что составление промта для этой нейросети похоже на описание фото для фотостока.

Составим такое описание: a cat made out of metal, ((cyborg)), (intricate details), hdr, ((intricate details, hyperdetailed)), sitting on the table, steampunk, books on the table, medieval windows behind, lancet windows, old library, victorian room, table lamps, stone walls, sun rays, soft light, photorealistic, perfect composition, cinematic shot / кот из металла, ((киборг)), (сложные детали), hdr, ((сложные детали, гипердетализация)), сидит на столе, стимпанк, книги на столе, средневековые окна сзади, стрельчатые окна, старая библиотека , викторианская комната, настольные лампы, каменные стены, солнечные лучи, мягкий свет, фотореалистичный, идеальная композиция, кинематографический кадр.

Неплохая работа с глубиной резкости и боке, реалистичные котики почти без проблем с глазами. Но интерьер и атмосфера получились не такими выразительными, как в Deliberate. В целом, рекомендуем к установке и использованию / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

На втором компьютере стояла довольно старая видеокарта Nvidia GTX 960 на 4 Гб (по производительности она примерно равна GTX 1050Ti), и она работала заметно медленнее. С размером 1024х768 она не справляется, не хватает видеопамяти и задача завершается с ошибкой. Так что на ней генерировали изображения в два раза меньше, 768х512 пикселей. На генерацию четырёх изображений такого размера уходило 6-9 минут.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь