Чего не могут нейросети с изображением

0
24

Неидеальная технология: проблемы и ограничения нейросетей

Не спешим ставить крест на нейронках

Главная причина, по которой пользователи критикуют нейросети, — это неумение рисовать руки. ИИ не усваивает форму человеческой кисти и добавляет лишние пальцы или, наоборот, рисует «лапки динозавра», а также в целом искажает конечности. Иногда нейросети даже дорисовывают лишнюю руку или ногу целиком. Причём стиль рисовки здесь не имеет значения: безумные руки можно увидеть и у реалистичных изображений, и у «мультяшных».

Бум нейросетей — тренд последних лет, который набрал обороты в конце 2022 года. Искусственный интеллект (ИИ) стал доступен широкому кругу пользователей как возможность генерировать уникальные изображения и иллюстрировать самые безумные фантазии, так что в интернете уже поговаривают о том, что профессия дизайнера изжила себя, ведь технология уже рисует лучше и быстрее. При этом есть несколько проблем, которые создателям нейросетей ещё не удалось решить до конца — Sostav рассказал о них в своём материале.

Активное применение нейросетей для создания контента может привести к тому, что интернет заполонит сгенерированная информация. Это грозит огромным количеством фейков, в том числе новостных, которые тем более опасны, чем более качественные тексты научится писать ИИ — будет все сложнее отличить информацию из источников от сгенерированных материалов с фактическими ошибками. Тем более что нейросеть умеет учитывать алгоритмы поисковых систем, и ее материалы могут занимать более высокие позиции в выдаче.

Человек способен сразу же применять усвоенный навык, причем в разных сферах и контекстах — освоив сложение чисел, мы можем использовать это в быту, взаимных расчетах, исследованиях. А комбинируя навык с другими, способны решать все более и более сложные задачи. Он становится частью инструментария, которым мы владеем в любых обстоятельствах.

Искусственный интеллект — мощная технология, основанная на представлении о мозге как о компьютере. В 1943 году Уоррен Маккаллох и Уолтер Питтс предложили первую простую математическую модель биологического нейрона — сеть из таких нейронов способна обрабатывать данные аналогично тому, как это делает человеческий мозг.

Однако хуже обрезанной головы может быть только плохо нарисованная голова с перекошенным лицом. Это не редкость в работах ИИ. Нейросеть может неестественно расположить части лица и слить его с пространством. Понятия «естественно» у технологии нет, а так как все люди разные, при поиске универсальных решений ошибки неизбежны.

Бывает такое: арт от нейросети кажется красивым и детализированным, но если начать присматриваться, то оказывается, что никакие конкретные детали там не прорисованы. Эта проблема встречается чаще, чем может показаться: вместо цветов — пятна, вместо птиц — пятна, вместо надписей — линии и пятна. Формы напоминают то, что должно быть изображено, но ничего в сущности разглядеть на таких картинках нельзя.

Анонимный источник сообщил, что модель смогла решить некоторые математические задачи, что говорит о ее больших перспективах в будущем. Освоение математики — следующий шаг в развитии ИИ, на котором он научится рассуждать, а не просто статистически предсказывать и генерировать ответы, как это сейчас делают языковые модели.

ЧИТАТЬ ТАКЖЕ:  Искусственный интеллект фильм про что

Коллапс и деградация

Также ИИ станет обучаться на собственных текстах, что приведет ко все более частым ошибкам и неизбежному снижению качества работы. Произойдет технический коллапс. В интернете будет стремительно уменьшаться количество ценной информации, а нейросети станут практически бесполезными.

Есть версия, что этому предшествовало письмо от штатных исследователей, в котором говорилось о прорыве в области ИИ, который может угрожать человечеству. У совета директоров возникли опасения по поводу коммерческого использования разработок до понимания последствий. Сэма Альтмана отстранили из-за того, что был недостаточно прозрачен в коммуникации с советом. Его способность возглавлять OpenAI была поставлена под сомнение.

Чтобы нейросеть не обрезала голову персонажам, можно загружать референсы в полный рост. Запрос к ИИ на изображение человека в полный рост также помогает избежать проблемы обрезки. Кроме того, результат может улучшить детализация — стоит описать, что делает персонаж, его движения и положения конечностей. Но при этом не стоит запрашивать потреты и добавлять положительную оценку: дело в том, что ИИ считает изображения людей с обрезанной головой более привлекательными.

Например, языковая модель Galactica по просьбе пользователя написала очень убедительную «научную статью» о пользе употребления битого стекла. В материале были ссылки на исследования и мнения экспертов, имеющие вид полноценной доказательной базы. Та же модель путала исторические даты, имена, факты — к примеру, писала о запуске медведей в космос. В итоге из-за многочисленных жалоб пользователей, тестировавших платформу, она была заблокирована.

Проблема сохраняется и тогда, когда ИИ призван решить проблему зрительного контакта человека с камерой. Недавно компания Nvidia выпустила технологию на основе нейросети, которая позволяет создать имитацию зрительного контакта на видео, если человек не смотрит в камеру. Выглядит это так, как будто ИИ просто поменял расположение глаз — взгляд такой же неживой и расфокусированный, как на многих картинках от нейросетей.

Обычным пользователям, которые генерируют контент в нейросетях, любители технологии рекомендуют избегать рисовки рук (такой параметр можно выбрать в интерфейсе отдельных ИИ, включая Midjourney) или изображать их так, чтобы они были заняты. Также повысит шансы на успех детализация кистей рук: лучше подробнее описать, как выглядят пальцы и кожа на них.

Анализ показал, что тарабарщина не была системным сбоем, и машины по-прежнему понимали друг друга. Предположительно боты перешли на упрощенную форму общения для более быстрого принятия решений. Во избежание непредвиденных последствий систему отключили.

Также у DALLE-2 в лексиконе обнаружился набор абсурдных слов, которые соответствуют определенным визуальным концепциям и даже могут согласовываться между собой. Эти слова нейросеть сначала сгенерировала на картинках, а потом исследователи предложили их в качестве запросов и получили определенный результат. Видимо, ИИ видит в них совпадения с реальными запросами, то есть для него эти слова похожи на что-то, что уже встречалось в вводных данных.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь