Содержание статьи
9 крутых нейросетей, которые создают картинки по тексту
Генератор Случайных Лиц (Этот Человек Не Существует)
Gerwin — это сервис больше ориентированный на бизнес, но здесь есть инструменты и для творчества. Например, есть разные шаблоны документов: чтобы писать произведения или небольшие истории и даже создавать диалоги. Я попросила ИИ написать диалог Шекспира и Алексии.
Не очень высокое качество отрисовки, тем не менее, не помешало проекту взорвать интернет. Довольно быстро появился форум на Reddit (сейчас там больше 100 тысяч подписчиков) и Twitter-сообщество (миллионник), где пользователи делятся самыми безумными вариантами генерации — нередко из них рождаются новые мемы (вот, например, Танос, который ищет свою маму в супермаркете Walmart, а вот Дарт Вейдер, попавший на камеру видеонаблюдения во время брейкданса).
Здесь собраны разные боты, с которыми можно вести осмысленный диалог, просить нарисовать картинки или написать сценарий, диалог, монолог для книги. На сайте много ботов в виде известных личностей. В Character AI можно спросить о чём угодно Сократа, Илона Маска или Тони Старка. Это всё боты, созданные другими пользователями.
ruDall-E или Kandinsky — ещё один сервис для создания иллюстраций по текстовому описанию. Тут нужно написать задание, выбрать разрешение и стиль: рисунок карандашом, портретное или студийное фото, живопись или классицизм. Дальше ИИ сгенерирует картинку. Вот, что у него получается
Еще одна программа, вдохновленная детищем OpenAI — ее создал энтузиаст из Техаса Борис Дайма для участия в конкурсе программистов. Сгенерировать картинку можно на сайте — вы получите сразу девять вариантов запроса не более, чем за две минуты. Правда, изображения в плане детальности уступают топовым проектам — нейронная сеть использует меньший набор параметров и обучена всего на 30 миллионах примеров, хотя создана на той же архитектуре, что и оригинальная DALL·E.
Вот как это работает: генератор пытается создать лицо. Дискриминатор получает снимки с лицами людей и творения генератора. Дискриминатор пытается распознать, кто есть кто. Генератору приходится стараться лучше, чтобы дискриминатор находил поменьше различий с реальными лицами. В результате генератор обучается создавать такие лица, которые дискриминатор не может отличить от настоящих.
Искусственный интеллект умеет многое, в том числе создавать людей. Нейросети генерируют лица, придумывают характер и даже анимируют человека. Я протестирую нейросеть для создания людей по описанию. Посмотрю, как ИИ сгенерирует человека, а ещё персонажа для книги.
ChatGPT напишет план к произведению или книгу, и легко придумает персонажа. Я попросила ИИ описать внешность и характер героини книги, путешественницы во времени. Нейросеть меня не поняла и начала описывать, как поэтапно придумать героиню. Тогда я написала, что полностью доверяю создание персонажа ChatGPT и на этот раз получила нужный мне ответ.
Текст
Проект одноименной независимой исследовательской лаборатории под руководством бывшего инженера NASA сейчас тоже на стадии бета-тестирования. Как и остальные, Midjourney относится к классу диффузионных нейронных сетей, то есть состоит как бы из двух нейросетей: одна отвечает за распознавание текста, другая — за генерацию изображений.
Это нейросеть для создания фото человека по описанию, её также можно использовать для рисования вымышленных персонажей. Картинки получаются очень крутые, но для этого надо подробно описывать, что должно быть на рисунке. И добавлять настройки: экспозицию, свет, яркость.
По словам разработчиков, Imagine работает лучше, чем детище OpenAI. Но верить приходится на слово — проект находится на экспериментальной стадии (и непонятно, когда из нее выйдет). Пока можно ознакомиться с примерами работ, либо попробовать небольшое демо на официальном сайте (нам предлагают составить запрос из нескольких готовых шаблонов).
Если простым языком: нейронную сеть обучают распознавать нос, глаза, губы брови и генерировать подобные лица. А вообще у генеративно-состязательных нейронных сетей, которые и создают лица, есть 2 составляющих: генератор и дискриминатор. Они взаимообучаются, чтобы научиться создавать лица, похожие на человеческие.
Работает алгоритм не идеально — он ближе к уже устаревшей первой версии американской DALL·E. Однако это все еще самая сложная нейросеть в РФ. На ее тренировку ушло 24 тысяч GPU-дней — так называют произведение задействованных GPU (графических процессоров) и дней, которые ушли на обучение алгоритма (так, если вы используете 5 GPU и тренируете сеть 5 дней, потратите 25 GPU-дней).
Недавно бета-версия DALL·E 2 стала доступна онлайн — чтобы протестировать ее, нужно встать в лист ожидания и дождаться очереди. Если же хочется понять прямо сейчас, на что способны современные нейросети, составили подборку программ на базе ИИ, которые создают картинки по текстовому описанию. Одни из них идеально подходят для портретов, другие — для сюрреалистичного искусства и иллюстраций. Можете испытать их сами или посмотреть на картинки, которые сгенерировали мы.