Содержание статьи
Как создать своего персонажа при помощи нейросети
Как научиться генерировать персонажей через нейросети
Гораздо более интересным представляется вариант использования бесплатной нейросети Stable Diffusion. Ее можно установить себе на компьютер и дообучить на своем наборе данных. В этот набор должны войти фотографии человека, которого мы хотим воссоздать. Чем больше будет фотографий в различные моменты жизни и в разном эмоциональном состоянии, тем лучше нейросеть сможет потом генерировать изображения этого человека. Главное — подробно и правильно разметить фотографии, которые мы будем загружать в качестве обучающей выборки.
После обучения мы можем давать Stable Diffusion запросы на генерацию фотографий этого конкретного человека в различном возрасте, эмоциональном состоянии, с разной прической и в конкретных местах. Также можно задавать параметры снимка: например, попросить сгенерировать картинку человека в полный рост.
Представьте человека, который всегда говорит только правду, может похвастаться энциклопедическими знаниями всего на свете и постоянно ничего не делает. Поначалу с ним весело пообщаться, вы будете задавать кучу вопросов, однако вскоре придет осознание, что вы беседуете со статичным куском железа, у которого даже нельзя спросить «что ты сегодня делал?» Вернее спросить можно, но ответ вряд ли удивит.
Звучат сгенерированные нейросетью голоса очень похоже на реальных людей. Так что, если у вас есть достаточное количество записей голоса нужного человека, вы без труда сможете воссоздать его речь при помощи нейросети. «Прикрутив» чат-бота по API к такому сервису, можно озвучивать реплики «цифрового двойника».
В будущем мы, вероятно, сможем разработать ИИ, который будет реагировать по-человечески на новые ситуации, но мы не знаем, сколько времени это займет. В сообществе экспертов по ИИ сейчас идут дебаты на эту тему: одни считают, что на это уйдет 50 с лишним лет, а другие думают, что намного меньше», — утверждает Амит Рой-Чоудхури, профессор электротехники и вычислительной техники в Калифорнийском университете в Риверсайде.
После этого загружаем полученные снимки в нейросеть Instant NeRF от Nvidia и – вуаля! – у нас есть трехмерная сцена с нужным человеком, в которой мы можем рассмотреть его со всех сторон. Примечательно, что исходный код Instant NeRF находится в открытом доступе и использовать его тоже не составит труда.
Этот минимальный набор данных уже сегодня поможет создать виртуальную модель человека, управляемую искусственным интеллектом. Конечно, в общении с этой моделью вы сможете частично узнать человека, которого она копирует, но такой искусственный интеллект все еще будет вести себя как нейросеть — его реакции не будут “человеческими” и беседы с ним будут не такими интересными.
В итоге, по словам парня, нейросеть стала не просто забавой — он стал так часто изучать китайский язык с ChatGPT-chan (так разработчик назвал виртуального персонажа), что у него начались проблемы в реальных отношениях и нейросеть пришлось удалить. Не беремся судить, правда это или просто хайп, но прецедент создан.
Дизайн персонажа
Следующий большой этап — это определение стилистики. Это очень важный момент в контексте генерации, потому что неправильно определенная стилистика персонажа повлияет на итоговый результат — вместо стилизованного парня вы получите реалистичного мужчину, который может никак не подходить к вашей истории.
Скорее всего, у вас уже есть примеры нейросетей для работы, с помощью которых вы хотите генерировать персонажей. Если нет, вы можете изучить возможности разных моделей в другой нашей статье. Ниже мы просто опишем дополнительные решения, которые будут полезны при генерации персонажей в той или иной нейросети.
Например, мы решили дать развернутое описание по каждому из пунктов для демона, который влюбился в женщину-ангела, но когда на небесах об этом узнали, ее казнили в назидание всем. Демон не смог вынести боли от утраты и решил уничтожить каждого причастного к убийству ангела — он отправился в ангельскую резиденцию и устроил бойню. Мы захотели запечатлеть этот момент.
Когда мы создали виртуальный портрет человека, воссоздали его манеру речи и голос, наступает самое сложное — объединить это всё так, чтобы оно заработало. Насколько это сложная задача, мы судить не беремся — оставим рассуждения программистам. Но кое-кому уже удалось провернуть подобное.
Если с чат-ботом, имитирующим личность человека, мы разобрались, то воссоздать голос тем более не составит труда. Для этого существует несколько сервисов. Самый продвинутый — нейросеть VALL-E от Microsoft, которой достаточно трех секунд образца аудио, чтобы она могла воспроизводить нужный голос. Однако этой технологией пока воспользоваться нельзя — Microsoft переживает за фейки, которые наводнят интернет, если к VALL-E появится открытый доступ.
Можно пойти еще дальше и использовать нейросеть Point-E для создания 3D-модели человека. Конечно, после этого придется серьезно поработать с прототипом в 3D-редакторе, добавив трехмерному аватару правильные черты лица, одежду и так далее. Но такой способ позволяет добиться куда большего – например, воссоздать целую комнату в трехмерном пространстве с предметами и нужным человеком. Затем это в пространство можно войти как игрок в VR-очках и общаться с аватаром, управляемым искусственным интеллектом. Например, в этом видео один из разработчиков Nvidia сгенерировал при помощи Instant NeRF трехмерное пространство из загруженных фотографий и прогулялся по нему при помощи VR-очков: