Содержание статьи
9 крутых нейросетей, которые создают картинки по тексту
Imagine — главный конкурент DALL·E 2
По словам разработчиков, Imagine работает лучше, чем детище OpenAI. Но верить приходится на слово — проект находится на экспериментальной стадии (и непонятно, когда из нее выйдет). Пока можно ознакомиться с примерами работ, либо попробовать небольшое демо на официальном сайте (нам предлагают составить запрос из нескольких готовых шаблонов).
Работает алгоритм не идеально — он ближе к уже устаревшей первой версии американской DALL·E. Однако это все еще самая сложная нейросеть в РФ. На ее тренировку ушло 24 тысяч GPU-дней — так называют произведение задействованных GPU (графических процессоров) и дней, которые ушли на обучение алгоритма (так, если вы используете 5 GPU и тренируете сеть 5 дней, потратите 25 GPU-дней).
Недавно бета-версия DALL·E 2 стала доступна онлайн — чтобы протестировать ее, нужно встать в лист ожидания и дождаться очереди. Если же хочется понять прямо сейчас, на что способны современные нейросети, составили подборку программ на базе ИИ, которые создают картинки по текстовому описанию. Одни из них идеально подходят для портретов, другие — для сюрреалистичного искусства и иллюстраций. Можете испытать их сами или посмотреть на картинки, которые сгенерировали мы.
Описание любого изображения онлайн с помощью нейросети. Преобразуйте картинки в текст мгновенно с помощью простого в использовании сервиса. Нейросеть точно описывает визуальный контент, экономя ваше время и усилия. Загрузите изображение, и нейросеть предоставит точное и информативное текстовое описание, включая: объекты и люди на изображении, цвета, формы и текстуры, действия или события, изображенные на изображении, эмоции или настроение, выраженные на изображении.
Еще одна программа, вдохновленная детищем OpenAI — ее создал энтузиаст из Техаса Борис Дайма для участия в конкурсе программистов. Сгенерировать картинку можно на сайте — вы получите сразу девять вариантов запроса не более, чем за две минуты. Правда, изображения в плане детальности уступают топовым проектам — нейронная сеть использует меньший набор параметров и обучена всего на 30 миллионах примеров, хотя создана на той же архитектуре, что и оригинальная DALL·E.
В какой-то момент к DALL·E Mini обращались так часто, что компания Hugging Face — владелец серверов, на которых лежал проект — фиксировала по 50 тысяч генераций в сутки (команда не спала ночами, обслуживая нейросеть, пишет Wired). Популярность даже заставила разработчиков сменить название на Craiyon, чтобы алгоритм не ассоциировался с оригинальным проектом OpenAI.
RuDALL-E — российский ответ Илону Маску
Midjourney называют более художественной нейросетью (в противовес DALL·E — более реалистичной), с ее помощью можно создавать сложные арты, удивляющие креативностью. Попробовать можно бесплатно в Discord (для этого нужно выбрать любую комнату в разделе Newcomer rooms, написать в чате /imagine и в строке promt вписать описание картинки на английском; если не поняли, вот инструкция).
Не очень высокое качество отрисовки, тем не менее, не помешало проекту взорвать интернет. Довольно быстро появился форум на Reddit (сейчас там больше 100 тысяч подписчиков) и Twitter-сообщество (миллионник), где пользователи делятся самыми безумными вариантами генерации — нередко из них рождаются новые мемы (вот, например, Танос, который ищет свою маму в супермаркете Walmart, а вот Дарт Вейдер, попавший на камеру видеонаблюдения во время брейкданса).
Как это работает? В основе системы лежит глубокое обучение, где модель нейросети просматривает огромное количество изображений и связывает визуальные образы с определенными концепциями и словами. Затем, когда пользователь предоставляет нейросети изображение, она использует основанный на глубоком обучении алгоритм для генерации соответствующего текста.
Брейкданс Дарта Вейдера, падение астероида на Землю и животные в исторических костюмах — для искусственного интеллекта нет невозможного. Выбрали интересные проекты от Google, Сбера, NVIDIA и даже от бывшего инженера NASA, которые позволяют генерировать изображения по самым безумным описаниям — многие из них можно попробовать бесплатно.
Изображение в текст — это процесс, при котором нейросеть «читает» предоставленную ей картинку и создает соответствующее описание или комментарий. Эта функция открывает новые горизонты для образования и креативного мышления, позволяя нам получить более глубокое понимание того, что мы наблюдаем.
Применение изображения в тексте может быть разнообразным. Это может быть полезным для создания описаний изображений в каталогах или онлайн-магазинах, где текст важен для привлечения и удержания клиентов. Это также может быть использовано для автоматического создания подписей к фотографиям, благодаря чему пользователи смогут легко находить нужные им изображения.