Как рисуют нейросети

0
20

Как рисуют нейросети: лучшие примеры сгенерированных изображений

Получает запрос от пользователя

Нейросети могут генерировать текстуры, модели персонажей, окружение, предметы и другие игровые элементы. Это позволяет разработчикам создавать игры с более разнообразным контентом, сокращая время и ресурсы, необходимые для ручной разработки. Например, в игре No Man’s Sky нейросети используются для генерации бесконечного числа планет с уникальными ландшафтами, флорой и фауной. А в марте 2024 года Google представила модель Genie, которая может создавать разные игровые миры из изображений, фотографий и даже эскизов. Она обучена на 200 тыс. часов интернет-видео об играх.

Нейросети стали обыденностью: студенты пишут курсовые с помощью ChatGPT, иллюстраторы рисуют в Midjourney, а Т9 регулярно предлагает неловкие автозамены. Технологиями заинтересовались и корпорации: например, РЖД провели конкурс цифрового искусства. Но что мы знаем о том, как нейросети работают с языком? Как видят слова и изображают их? Спросили у Владимира Морозова — разработчика машинного обучения в отделе обработки естественного языка «‎Яндекса».

Еще нейросеть научилась лучше рисовать в стиле фотореализма, генерировать целостные художественные произведения в виде картин, арта, скетчей. У Kandinsky 3.0 улучшили функцию редактирования изображений: теперь можно дорисовывать части картин в режиме бесконечного полотна. И наконец, появилась возможность генерации видео — пока что на основе четырехсекундных гифок.

Если модель смотрит на один последний токен, это униграммная модель: она предсказывает следующее слово по последнему во фразе. Биграммные модели смотрят на два слова назад. Но технически количество слов, которые будут учитываться в предсказании, не ограничено. Поэтому модели могут быть n-граммными, где n — любое число. В сравнении с другими модели такого типа быстро работают и мало весят, особенно если значение n небольшое, а токен — буква или часть слова. Поэтому n-граммные модели активно используют в клавиатурах, чтобы персонализировать подсказки.

Если вы знаете язык программирования Python и умеете кодить, можете использовать консоль — для этого нужно зайти на сервис GitHub и настроить среду разработки. Главный плюс такого подхода в том, что можно использовать больше методов генерации изображений и лучше вникнуть в специфику работы ИИ.

Для предсказания важен контекст, поэтому модель учится понимать, как слова в предложении связаны между собой и какие из них чаще встречаются вместе. На основе анализа и контекста модель предсказывает, какое слово или фразу логично было бы использовать дальше. За это отвечает декодер.

Игровая индустрия

Нейросети стали обыденностью: студенты пишут курсовые с помощью ChatGPT, иллюстраторы рисуют в Midjourney, а Т9 регулярно предлагает неловкие автозамены. Технологиями заинтересовались и корпорации: например, РЖД провели конкурс цифрового искусства. Но что мы знаем о том, как нейросети работают с языком? Как видят слова и изображают их? Спросили у Владимира Морозова — разработчика машинного обучения в отделе обработки естественного языка «‎Яндекса».

Владимир рассказывает: «Дальнейший процесс зависит от того, какую задачу мы хотим решить: если нейросеть анализирует предложение и должна выдать предложение, то языковая модель обновляет контекст новыми сгенерированными словами и снова предсказывает слово».

Наш мозг сначала сканирует информацию, получает из нее данные, запоминает и потом использует при необходимости. Нейросеть работает схожим образом. Программисты обучают ее: показывают изображения и текстовые материалы. Она анализирует, запоминает их и учится искать различия.

Как объясняет разработчик машинного обучения Владимир Морозов, на входе модель получает текст. Например, если пользователь набирает слова на клавиатуре, первой их прочитает именно языковая модель. За распознавание высказывания отвечает энкодер. Чтобы понять смысл, модель делит входной текст на мелкие кусочки, такие как слова или фразы.

ЧИТАТЬ ТАКЖЕ:  Что можно сказать об искусственном интеллекте

Это минималистичный сервис на основе плагина ControlNet для нейросети Stable Diffusion, который учитывает силуэты нарисованного скетча и промт, чтобы сгенерировать новую картинку. Даже если нарисовать несколько каракулей, ИИ проанализирует их и создаст что-то интересное.

Как языковые модели видят тексты

Модель видит текст как единицы языка: слова, буквы, цифры или знаки препинания — их по-другому называют токенами. Из чего будут состоять токены, зависит от того, как программист, который работает с моделью, поделил текст. Можно анализировать выражения на уровне букв, слов или частей слова.

Как нейросеть создает изображение

Нейросеть от компании OpenAI, которая создала ChatGPT. Особенность этого сервиса в том, что для работы вам не нужно уметь составлять промты. Можно написать запрос в произвольном виде — нейросеть распознает и доработает его, чтобы сгенерировать картинку. Доступ к сервису бесплатный: через Bing Image Creator и по платной подписке в ChatGPT.

Обучение нейросетей — это процесс, в котором модель «учится» на основе данных. Это могут быть изображения, тексты, звуки или другие типы информации. Специалисты выбирают архитектуру нейросети, определяют параметры и обучают ее на большом объеме данных. Затем они тестируют, насколько хорошо модель справляется с задачами.

Принципы работы языковой модели зависят от её типа. До того как разработчики стали использовать нейросети, в ходу были более простые статистические алгоритмы. Языковые модели на их основе называют классическими. Простейшая модель такого рода, например, выдаёт одно и то же слово вне зависимости от того, что получает на входе. Более сложные учитывают вероятности. Например, могут подсчитать, что после «привет» люди часто пишут «как дела», а после «хлеб» — «белый». В качестве предсказания модель может предложить самое частотное слово или слово, которое встречается с определённой вероятностью. Логика работы зависит от того, какая стратегия предсказания заложена в модель.

Затем модель создаёт следующий фрагмент текста, который она считает наиболее верным в контексте. Именно эту фразу пользователь увидит у себя на клавиатуре смартфона в строке подсказок. Процесс повторяется множество раз, чтобы сгенерировать полный текст или ответ на вопрос, если нейросеть встроена не в клавиатуру, а чат-помощник.

🎨 Нейросеть учится рисовать с помощью условных генеративных моделей, которые создают арт на основе других изученных картинок. Нейросети показывают разные изображения, чтобы она научилась изображать различные элементы. Она соединяет нейроны и в итоге создает свою интерпретацию изображения. Во время обучения нейросеть корректирует варианты и запоминает лучшие.

Более современные модели на основе нейросетей ориентируются на большее количество параметров. В отличие от, например, n-граммных, которые смотрят на фиксированное число слов, они могут смотреть на весь текст целиком. Кроме того, они способны учитывать стиль текста, день недели и даже сезонность — это как раз контекст.

Если модель смотрит на один последний токен, это униграммная модель: она предсказывает следующее слово по последнему во фразе. Биграммные модели смотрят на два слова назад. Но технически количество слов, которые будут учитываться в предсказании, не ограничено. Поэтому модели могут быть n-граммными, где n — любое число. В сравнении с другими модели такого типа быстро работают и мало весят, особенно если значение n небольшое, а токен — буква или часть слова. Поэтому n-граммные модели активно используют в клавиатурах, чтобы персонализировать подсказки.

🟡 Дорисовывать и редактировать изображение от нейросети вручную. В Kandinsky 3.0 добавили новую inpainting-модель к уже имеющейся outpainting-модели. C inpainting можно редактировать выбранные объекты и целые области. А с outpainting — создавать панорамы за счет расширения границ картинки. Можно комбинировать эти функции — взять готовую картинку, чтобы нейросеть дорисовала на ней недостающие детали.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь