Содержание статьи
Почему нейросеть так плохо генерирует руки
Почему у нейросетей плохо получается рисовать кисти рук?
ИИ неплохо научились рисовать лица и одежду людей, а вот с пальцами рук у многих нейросетей-генераторов до сих пор были проблемы. Дело в том, что на фотографиях в датасетах руки встречаются довольно редко. Также при генерации таких картинок приходится учитывать многие нюансы: на исходных изображениях могут быть видны только отдельные части пальцев или кисти.
В процессе исследования данного явления, компания Stability AI, занимающаяся разработкой нейросетей, сообщила, что для обучения ИИ-художников используются масштабные датасеты, состоящие из десятков миллионов изображений. Чем больше в датасетах присутствует частей человеческого тела, тем лучше нейросеть будет рисовать человека. Но проблема заключается в том, что на фотографиях руки не являются главным объектом съемки, и обычно на исходных изображениях занимают мало места. Также, руки довольно редко бывают сфотографированы крупным планом.
Другой подход заключается в использовании генеративных состязательных сетей (GAN). Они состоят из двух частей: генератора, создающего изображения, и дискриминатора, который пытается отличить реальные изображения от созданных. Обучив генератор создавать изображения, неотличимые от реальных, GAN могут создавать более реалистичные и анатомически точные руки.
Одним из способов решения этой проблемы является включение предварительных знаний о геометрии рук и конечностей в архитектуру нейронной сети. Например, в некоторых моделях используются специализированные модули, предназначенные для улавливания геометрической структуры рук и пальцев, а в других — ограничения или штрафы, побуждающие генерируемые изображения соответствовать определенным геометрическим свойствам.
Популярная нейросеть Midjourney наконец-то научилась рисовать человеческие руки: теперь на изображениях, сгенерированных ИИ, можно увидеть не 15, 10 и даже не 7 пальцев на одной руке, а, как и положено, всего 5. Обновленная до версии V5, Midjourney прокачалась в прорисовке, а пользователи уже протестировали новые возможности ИИ. Автор Telegram-канала «Данайские нейросети» попросил Midjourney изобразить голливудских звезд с поднятой вверх рукой. Правда, пользователь еще и поместил актеров в декорации 90-х. Посмотрите, что из этого вышло.
Сетевое издание Men Today
Учредитель ООО «Фэшн Пресс»: 119435, г. Москва, Большой Саввинский пер., д. 12, стр. 6, этаж 3, пом. II;
Адрес редакции: 119435, г. Москва, Большой Саввинский пер., д. 12, стр. 6, этаж 3, пом. II;
Главный редактор: Антон Леонидович Иванов
Адрес электронной почты редакции: info@mentoday.ru
Номер телефона редакции: +7 (495) 252-09-99
Знак информационной продукции: 16+
Cетевое издание зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-84122 от 09 ноября 2022 г.
Недостаток изображений или недостаточное количество обучающих данных тоже может внести свой вклад в проблему генерации рук в нейронных сетях для генерации изображений. Тренировочные данные, используемые для обучения этих моделей, должны быть разнообразными и охватывать широкий спектр сценариев, поз и условий освещения. Это гарантирует, что полученная модель способна генерировать высококачественные изображения, точно отражающие реальный мир.
Еще одна причина плохой генерации рук: отсутствие фотографий людей в полный рост в датасетах. Нейросети достаточно хорошо научились рисовать лица, одежду, тела и пейзажи, но когда на картинке появляются руки, то сгенерированные изображения можно легко отличить от работы реального художника.
Сложная и изменчивая форма
Иногда имеющиеся данные для обучения могут не включать достаточное количество примеров рук в различных позах. Из-за этого нейросети будет сложно генерировать реалистично выглядящие руки и конечности. Это может существенно повлиять на общее качество генерируемых изображений.
Некоторые фото рук, которые есть в датасетах, могут быть не самого высокого качества и изображать лишь отдельные пальцы кисти. Если нейросеть получает много таких фотографий, то она начинает думать, что именно так и должны выглядеть руки. Для того чтобы улучшить работу нейросетей с изображениями рук, нужно дополнительное обучение, которое позволит им не только узнавать внешний вид рук, но и также понимать, как они функционируют и какие ограничения существуют у человеческих конечностей.
Кроме того, руки и конечности представляют собой сложные структуры. Точное моделирование их в двумерном изображении может оказаться сложной задачей для любой нейронной сети. Это может привести к тому, что модель будет генерировать нереалистичные руки даже при наличии достаточного количества обучающих данных.
© 2021 — 2024 ООО «Фэшн Пресс»
При размещении материалов на Сайте Пользователь безвозмездно предоставляет ООО «Фэшн Пресс» неисключительные права на использование, воспроизведение, распространение, создание производных произведений, а также на демонстрацию материалов и доведение их до всеобщего сведения.