Содержание статьи
Топ-10 нейросетей для создания и редактирования картинок
Image Creator — нейросеть, интегрированная в Bing
Как и другие зарубежные нейросети, Craiyon генерирует изображения на основе текстовых запросов и понимает только английский язык. Сгенерировать картинку по фото не получится. Перед началом работы вам предложат выбрать один из трёх стилей: art, drawing и photo. Также можно нажать кнопку None и создавать изображение без выбора определённой стилистики. Затем всё стандартно: вводите запрос и получаете несколько вариантов от искусственного интеллекта на выбор. Дополнительно можно указать негативный промпт, чтобы обозначить, каких элементов на картинке быть не должно.
Чтобы оценить, насколько хорошо модель сегментации прогнозирует маску (выбирает правильные метки для разных участков изображения), авторы запустили её на синтезированных фотографиях. Если выходные снимки получаются достаточно реалистичными, то хорошо обученная сеть должна быть способна прогнозировать правильную метку.
Stable Diffusion Online – это нейросеть, которая поможет создает фотореалистичные изображения с учетом текстового промпта. Для генерации картинок используется модель Stable Diffusion XL – поэтому сервис создает высококачественные изображения за считанные секунды.
Для получения лучших результатов сервис рекомендует использовать Midjourney v6. За генерацию одной картинки нейросеть берёт 2 кредита и создаёт 4 картинки за раз — то есть для одного промпта нужно 8 кредитов. На бесплатном тарифе протестировать нейросеть не получится, так как вам доступно всего 5 кредитов. За дополнительную плату можно изменять соотношение сторон изображения в диапазоне от 1:1 до 9:21.
Однако на одной Midjourney свет клином не сошёлся. Команда ProductStar вместе с Павлом Исаенко, дизайн-директором в «Яндексе», составила подборку нейросетей, которые умеют создавать картинки по текстовым запросам и фото не хуже, а может, даже и лучше. Чтобы конкурс был честным, всем участникам предложили одно и то же задание — сгенерировать симпатичного слона в городе.
Подписка на платную версию нейросети Craiyon начинается от 5 долларов в месяц. За эту сумму вы можете убрать рекламу и водяной знак, использовать функцию удаления фона за 15 секунд, а также генерировать неограниченное количество изображений — по 9 картинок за 45 секунд.
Craiyon — позволяет генерировать изображения на ПК и на смартфоне
Сервис доступен в онлайне и в мобильных приложениях на iOS и Android. Онлайн-версия ограничена пятью картинками в день, а в приложении можно генерировать неограниченное количество изображений, получать по два варианта за раз и создавать видео по описанию. Для начала работы авторизуйтесь через «Яндекс ID», введите запрос и дождитесь очереди.
Ко всем слоям генератора и дискриминатора применяется спектральная норма. Скорости обучения установлены на 0.0001 для генератора и 0.0004 для дискриминатора. В качестве оптимизатора используется Adam с параметрами β1 = 0, β2 = 0.999. Все эксперименты проводятся на NVIDIA DGX-1 с 8 графическими процессорами V100.
Для работы с сервисом регистрироваться не обязательно, однако в браузере Opera с включённым VPN запросы не всегда срабатывают. В Google Chrome всё стабильнее, но приготовьтесь к тому, что во время генерации вас могут отвлекать многочисленные рекламные баннеры.
На рисунках видно, что модель NVIDIA показывает гораздо лучшее визуальное качество. Когда размер обучающей выборки невелик, модель SIMS тоже генерирует хорошие изображения, хотя некоторые детали могут отклоняться от заданной маски (например, форма бассейна на втором рисунке).
После регистрации вы попадёте в раздел Create, где можно написать промпт до 350 символов и выбрать стиль — от чернильной графики до стрит-арта. Нейросеть создаст вертикальные изображения, которые подходят в качестве иллюстраций для соцсетей и обоев для смартфонов.
Easy-Peasy.AI — это онлайн-сервис, который позволяет создавать изображения с помощью одной из четырёх нейросетей: DALL-E 3, Midjourney v6, Stable Diffusion 3.0 и Stable Diffusion XL. Помимо выбора нейросети, вы можете задать стиль изображения или указать имя художника, чей стиль искусственный интеллект должен будет воспроизвести. Однако есть ограничение: стили современных художников нельзя скопировать из-за авторских прав.
Dream by Wombo
Набор можно скачать здесь. В частности, вам понадобится загрузить архивы train2017.zip, val2017.zip, stuffthingmaps_trainval2017.zip, и annotations_trainval2017.zip. Изображения, метки и карты объектов должны иметь ту же структуру файлов и папок, как в datasets/coco_stuff/. Карты объектов можно разбить на «карты вещей» («things instance map») и «карты меток» («stuff label map»). Для этого необходимо установить pycocotools с помощью pip install pycocotools и запустить скрипт datasets/coco_generate_instance_map.py.
Scribble Diffusion — это нейросеть, которая генерирует картинки на основе ваших рисунков. Для начала работы вам нужен персональный токен, который новые пользователи получают после авторизации через GitHub-аккаунт. Зарегистрируйтесь, введите токен и можете начинать.
Нейросеть не человек, поэтому никакие права принадлежать ей не могут. Создатели нейросетей никакого участия в генерации изображений не принимают, поэтому также не могут претендовать на авторские права. Вам, в свою очередь, права тоже не принадлежат: вы не принимали значительного участия в создании картинки (пока что идея и текстовый запрос активным участием не считаются).
Важный компонент глубоких нейронных сетей — слои нормализации. Они бывают безусловные (не зависят от внешних данных) и условные. Пространственно-адаптивный слой, используемый NVIDIA, является слоем условной нормализации и называется SPADE (SPatially-Adaptive (DE)normalization). По принципу работы он похож на Batch normalization и фактически обобщает несколько существующих слоёв нормализации. Со SPADE нет необходимости отправлять карту сегментов маски на первый слой генератора, поскольку он заранее изучает параметры модуляции и закодированную информацию о расположении меток. Поэтому энкодер генератора, обычно использующийся в архитектурах GAN, отбрасывается. Так сеть получается более простой и «лёгкой».
Напомним, что для создания уникальных образцов, в данном случае изображений, обычно используются глубокие генеративно-состязательные сети (GAN). GAN состоят из двух компонентов: генератора и дискриминатора. Генератор пытается создать реалистичные изображения таким образом, чтобы дискриминатор не смог отличить их от настоящих. Модель NVIDIA основана на GAN, но она синтезирует не совсем случайные, а условно случайные изображения, поскольку входные данные задаются пользователем (карта пейзажа).
Lexica — это платный онлайн-сервис, доступный только авторизованным пользователям. Минимальный тариф стоит 8 долларов в месяц при плате за год и включает 1000 быстрых генераций, при которых используются самые мощные серверы компании. Если вы исчерпаете лимит генераций на стартовом тарифном плане, то до начала следующего месяца создавать новые изображения будет невозможно.
Для измерения точности сегментации используется метрика среднего пересечения над объединением (Intersection-over-Union, mIoU) и подлинность пикселей (accu). Для сегментации каждого набора данных используются современные нейросети: DeepLabV2 для COCO-Stuff, UperNet101 для ADE20K и DRN-D-105 для Cityscapes. Помимо этого, для измерения расстояния между распределениями синтезированных и реальных изображений используется расстояние Фреше (Frechet Inception Distance, FID) — чем оно меньше, тем лучше модель.
Раньше подобные фотореалистичные изображения генерировались путём «сшивания» между собой фрагментов из готовой базы данных с фотографиями. Современные же алгоритмы на основе нейросетей изучают непосредственно отображения — связи между исходными и целевыми данными. Они, как правило, работают гораздо быстрее и не используют внешние наборы данных.