Содержание статьи
Топ-10 нейросетей для обработки фото
Как изменить часть изображения с помощью Inpaint в Stable Diffusion
Давайте поработаем с вот такой фотографией девушки на мосту. Перетаскиваем фото. Теперь самое главное: во вкладке inpaint можно создать маску, чтобы нейросеть работала только с нужной областью и не затрагивала другие. После загрузки фото появляется кнопка кисти с ползунком для выбора размера(1), ластик (2), чтобы стереть ошибочно нарисованную маску, и кнопка отмены последних действий (3)
Нам понадобится расширение для нейросети depthmap2mask, которое тоже можно найти на Гитхабе, вот здесь. Чтобы его установить, переходим во вкладку Extensions и выбираем Install from URL. Вставляем в нужное поле ссылку, и жмём на кнопку Install. После этого переключаемся на Installed, убеждаемся, что расширение на месте, и нажимаем большую кнопку Apple and restart UI. Когда интерфейс перезагрузится, можно работать.
Этот ИИ-редактор поддерживает функции вышеупомянутых нейросетей, поэтому он подходит для решения простых задач (обрезка, изменение яркости и т.д.). Но также в нём доступны и другие функции, нацеленные на более сложные манипуляции с фото. Например, ИИ-обмен лицами, шаблоны для оформления соцсетей и печатной продукции. К тому же, в Pixlr есть простенький генератор ИИ-изображений .
При желании можно создать даже несколько версий исходной картинки, сфокусировавшись отдельно на переднем и на заднем плане и размыв остальное. В целом, получилось похоже на снимок со светосилого объектива и полнокадровой камеры. При этом мы сами можем выбирать, где будет наш фокус.
С помощью Runway можно создавать презентации, короткометражки и другие мультимедийные креативы. Эта нейронка интегрирована с другими сервисами и программами (Adobe Photoshop, Unity и т.д.), поэтому работа в ней подойдёт как специалистам, так и обычным юзерам, которые хотят расширить свои творческие возможности.
Начнём с самой простой задачи: возьмём готовое фото и сгенерируем несколько похожих на него картинок. У нас есть фотография бургера с бесплатного фотостока, но верхняя булочка примята, а котлета выглядит слегка подгорелой. Да и вообще, это фото может скачать и использовать кто угодно, а мы хотим собственный уникальный бургер. При этом композиция хороша, цвета тоже, да и начинки в бургере немало.
Работать мы сегодня будем со сборкой Portable Stable Diffusion, в которой есть удобный интерфейс для обработки изображений, и с моделью Deliberate 2.0, которая на сегодня лучше всего подходит для создания фотореалистичных изображений разных предметов (есть модели, которые хороши в создании людей, но больше не умеют ничего). Вот здесь на Гитхабе можно скачать эту сборку, а вот ссылка на Deliberate 2.0. О том, как установить нейросеть и модели для неё, мы писали вот в этой статье.
4. Batch count — количество одновременно генерируемых изображений. На мощной видеокарте уровня RTX 4090 можно генерировать по 8 (или даже 12-16) изображений за раз, это занимает пару минут. На слабой видеокарте с 4-6 Гб памяти лучше поставить от 2 до 4, чтобы не ждать слишком долго.
Подключение к сервису
Теперь можно генерировать. Настройки вкладки Sketch выглядят точно так же, как и во вкладке img2img, с которой мы работали в первой главе нашей статьи. Ключевые слова довольно простые: «photo of man eating burger, bar, table, bokeh lights background».
Самым важным в настройках, как обычно, был параметр Denoising strength. Приличные картинки получались в довольно узком диапазоне от 0,7 до 0,78. При меньших значениях картинка была слишком «рисованной», ну а при больших, несмотря на фотореалистичность, отличалась по композиции.
Для этого понадобится вкладка Sketch из раздела img2img — в ней мы будем рисовать набросок. Интерфейс в этой вкладке очень похож на тот, с которым мы работали, создавая маску в Inpaint. Разница только в том, что у кисти теперь есть не только размер, но и палитра выбора цвета:
Запускаем нейросеть. Stable Diffusion работает на локальном компьютере, а её интерфейс открывается во вкладке браузера. Во так он выглядит. Нам нужна вкладка img2img (1), в которой есть ещё одна одноименная вкладка (4). Есть поля для ввода описания Prompt (2) и Negative Prompt (3), и есть область для загрузки изображения (5). В неё мы и перетаскиваем наше фото бургера.
Runway — нейросеть, которая умеет анимировать фото по слоям (можно отдельно анимировать ближний, средний и дальний план) и превращать статичную картинку в видео. К тому же, платформа предлагает огромное количество функций по редактированию изображений (повысить качество, расширить границы, удалить фон и т.д.) и созданию их новых вариаций.
В поле Prompt пишем просто «Burger on the plate» («Бургер на тарелке»). Stable Diffusion хорошо работает только с английским, так что тем, у кого с ним плохо, стоит вооружиться переводчиком. А тем, кто не уверен, что способен сформулировать промт самостоятельно, помогут библиотеки промтов — базы с набором проверенных запросов.
Ideogram упрощает процесс создания визуального контента и позволяет юзерам создавать оригинальные изображения, правильно вводя текстовые подсказки. Помимо самостоятельной генерации, можно воспользоваться библиотекой нейросети, в которой собраны работы других пользователей доступные к переиспользованию или скачиванию.
Выбирайте селфи или портреты с хорошим освещением. Лицо должно быть изображено крупным планом. Если использовать фото по пояс или в полный рост, высока вероятность того, что Midjourney проигнорирует ваши черты лица. Зато в таком случае у нейросети остается место, чтобы нарисовать красивый и детальный фон. Так что, вероятно, придется выбирать.
Cutout
Основные возможности TinyWow включают генерацию изображений на основе текстовых запросов, удаление объектов, фона и водяных знаков, преобразование форматов файла, оптимизацию графики и автоматизацию рутинных процессов. В области обработки фотографий предусмотрены конвертеры и инструменты на базе ИИ для удаления фона, повышения разрешения, размытия и множество других ранее упомянутых функций.
Слева вверху — оригинальный бургер с фотостока. Справа от него наш красивый бургер с Denoising strength 0,3. Он стал более аккуратным, словно над ним поработал ретушёр, но при этом общая композиция очень похожа на оригинал. При Denoising strength 0,55 бургер стал менее фотореалистичным, начинка немного поменяла вид (как и задний план — вместо стены теперь какой-то размытый интерьер). Ну а при 0,88 тарелка посинела, ракурс изменился и из бургера исчезла одна из котлет и сыр. Зато появилась картошечка.
Воспользуйтесь текстовыми нейросетями для составления запроса. Подойдет любая, в том числе бесплатная. Попросите ее предложить 10 сюжетов картинок, на которых персонаж оказывался бы в кадре из известного фильма или игры. Или был нарисован в каком-то очень узнаваемом стиле.
Идём в раздел фильтров, и выбираем фильтр Lens Blur/Размытие объектива. В качестве карты глубины (Depth map) указываем наш канал Alpha 1, радиус выбираем так, чтобы получить убедительное (но не чрезмерное) размытие. И теперь самое интересное: с помощью инструмента Set Focal Point/Задать фокус мы можем показать Фотошопу, какой из объектов оставить резким, а что размыть. В этом помогает как раз созданная нейросетью карта глубины, без неё такой фокус не получится.
До массового распространения нейросетей для обработки фото многие из базовых задач, такие как удаление фона или ретушь изображений, приходилось решать в Photoshop и других аналогичных программах. Это занимало значительно больше времени и требовало глубокого изучения функционала того или иного софта. Кроме того, качество результата напрямую зависело от навыков и опыта дизайнера.
6. Denoising strength — очень важный параметр, от которого зависит, насколько сильно сгенерированная картинка будет отличаться от исходной. При значении до 0,4 сгенерированная картинка не сильно отличается по цветам и композиции от оригинала, а вот при значениях свыше 0,75 она может измениться до неузнаваемости.