Нейросети

Как нейросети генерируют изображения

15.02.2024

Содержание статьи

9 крутых нейросетей, которые создают картинки по тексту

DALL-E 3

Приступим к генерации в демо-версии Exactly. Чтобы обучить нашу модель ИИ, нужно загрузить не менее 5 изображений. Если есть свой фотобанк, это отлично. Допустим, фотобанка нет, поэтому загружаем фото, которые были. Проверяем, чтобы не было повторяющихся картинок и добавляем описания на английском языке.

Условия использования: Нужно зарегистрироваться на сайте https://www.midjourney.com/home и добавиться в Дискорд-сервис. Генерировать изображения можно в каналах Newbies по команде /imagine. Далее нужно написать промпт на английском языке и отправить его в чат, и нейросеть начнёт создавать картинку.

Firefly создан на основе изображений Adobe Stock, контента с открытой лицензией и разработан таким образом, чтобы его можно было безопасно использовать в коммерческих целях. Авторы Adobe Stock получают вознаграждение за контент, который используется для переобучения моделей Firefly.

Если добавлять окончание ar 16:9, то нейросеть генерит не квадратные картинки, а прямоугольные. Внизу четырёх вариантов изображений стоят кнопки — выбрать Upscale и скачать в хорошем качестве или доработать вариант. Считаем нумерацию с левой верхней картинки. Выбираем четвёртую и скачиваем.

Midjourney называют более художественной нейросетью (в противовес DALL·E — более реалистичной), с ее помощью можно создавать сложные арты, удивляющие креативностью. Попробовать можно бесплатно в Discord (для этого нужно выбрать любую комнату в разделе Newcomer rooms, написать в чате /imagine и в строке promt вписать описание картинки на английском; если не поняли, вот инструкция).

Kandinsky 3.1 — это нейросеть, разработанная Сбербанком. Модель является частью его инициативы по развитию искусственного интеллекта и внедрению в различные сферы деятельности, включая искусство, дизайн и маркетинг. Пока нейросеть доступна для всех желающих.

В этом промпте сразу несколько подводных камней, с которыми может не справиться нейросеть. Флаг Сербии имеет много сложных деталей, у девушки нужно будет прорисовать пальцы, на обложке учебника могут быть надписи, солнце должно бликовать естественно, изображение должно быть реалистичным.

В какой-то момент к DALL·E Mini обращались так часто, что компания Hugging Face — владелец серверов, на которых лежал проект — фиксировала по 50 тысяч генераций в сутки (команда не спала ночами, обслуживая нейросеть, пишет Wired). Популярность даже заставила разработчиков сменить название на Craiyon, чтобы алгоритм не ассоциировался с оригинальным проектом OpenAI.

Когда нельзя использовать изображения из нейросети

Пока автором может считаться только человек, который управляет нейросетью с помощью промптов. Часто авторское право на созданный контент принадлежит компании, которая разработала или использует эту нейросеть. Компании-владельцы разрабатывают свою внутреннюю политику и стандарты, чтобы предотвратить нарушения авторского права.

ЧИТАТЬ ТАКЖЕ: Как создать искусственный интеллект в игре

Условия использования: Так как права на наши творения принадлежат нам, можем распоряжаться картинками как захотим. Однако в бесплатной тестовой версии на наших картинках будет стоять водяной знак. Для обучения ИИ понадобятся картинки-референсы, не менее 5 штук размером не меньше 512 px. Картинки нельзя скачать из интернета, они должны быть наши или у нас должно быть разрешение автора на их использование. В демо-версии 3 персональные AI модели, 25 бесплатных генераций с разрешением 1080х1080 px. Платный пакет стартует от 20 долларов в месяц и имеет больше возможностей.

Работает алгоритм не идеально — он ближе к уже устаревшей первой версии американской DALL·E. Однако это все еще самая сложная нейросеть в РФ. На ее тренировку ушло 24 тысяч GPU-дней — так называют произведение задействованных GPU (графических процессоров) и дней, которые ушли на обучение алгоритма (так, если вы используете 5 GPU и тренируете сеть 5 дней, потратите 25 GPU-дней).

Не очень высокое качество отрисовки, тем не менее, не помешало проекту взорвать интернет. Довольно быстро появился форум на Reddit (сейчас там больше 100 тысяч подписчиков) и Twitter-сообщество (миллионник), где пользователи делятся самыми безумными вариантами генерации — нередко из них рождаются новые мемы (вот, например, Танос, который ищет свою маму в супермаркете Walmart, а вот Дарт Вейдер, попавший на камеру видеонаблюдения во время брейкданса).

По словам разработчиков, Imagine работает лучше, чем детище OpenAI. Но верить приходится на слово — проект находится на экспериментальной стадии (и непонятно, когда из нее выйдет). Пока можно ознакомиться с примерами работ, либо попробовать небольшое демо на официальном сайте (нам предлагают составить запрос из нескольких готовых шаблонов).

Правила использования изображений описаны в пользовательском соглашении. Например, когда компания MidJourney только запустила свой сервис, она сделала генерацию доступной для всех, и картинки принадлежали всем. Любой участник видел творчество других людей и мог публиковать у себя, копировать или использовать как-то ещё. Сейчас права передаются вместе с платной подпиской, но с ограничением, что компания может использовать созданный контент для улучшения работы сервиса.

Сразу обозначим, что нам понадобится конкретная картинка под конкретные задачи, как это обычно и бывает в бизнесе. Нас не интересуют абстрактные цели, как развлечься всем офисом и посмеяться над тем, как зам по финансовой работе мог бы выглядеть, если бы он был котиком.

DALL-E 3 — это третье поколение модели генерации изображений, разработанной OpenAI. Нейросеть, которая рисует картинку по запросу. Она позволяет создавать высококачественные изображения на основе текстовых описаний с использованием продвинутых алгоритмов машинного обучения.

9 крутых нейросетей, которые создают картинки по тексту

DALL-E 3

Когда нельзя использовать изображения из нейросети

ОСТАВЬТЕ ОТВЕТ Отменить ответ

ЭТО ПОПУЛЯРНО

ЭТО ИНТЕРЕСНО

ВЫБОР РЕДАКТОРА