Как видит это нейросеть

0
11

Что такое нейросеть и как она работает. Объясняем простыми словами

Чем опасна предвзятость нейросетей

На примерах с HR-алгоритмом Amazon и набором данных от Google видно, что предвзятость ИИ приводит к искажениям, которые могут масштабироваться. Любой перекос в системе соответствия слов Word2vec автоматически переносится в каждое использующее этот набор приложение. Например, в алгоритмах поиска на Word2vec слово «программист» теснее связано с мужским полом, чем с женским. Это значит, что поиск по фразе «резюме программиста» может выдавать резюме мужчин выше и чаще, чем женщин.

Далее приложение просит выбрать из галереи 10-20 фотографий, на которых видно только ваше лицо. Будет хорошо, если они сняты с разных ракурсов, на них видны разные эмоции и используется разнообразный фон. Если соблюсти все требования, аватарки получатся наивысшего качества.

Предубеждённые нейросети могут нанести буквальный, а не гипотетический вред, уверены в ЮНЕСКО. Организацию беспокоит, что ребёнок, запрашивая в поиске выражение «‎school girl»‎, обнаружит много интересного, но не связанного с учёбой контента, — именно из-за предвзятости поисковых алгоритмов. Запрос «‎school boy»‎ будет более адекватным.

В ноябре в приложении Lensa появилась новая функция «Magic Avatars», которая при помощи нейросети изучает лицо человека и создает пачку из 50-200 аватарок в разных стилях. Давайте узнаем, как нейросеть рисует по фото и что из этого получается — результат впечатляет.

На схеме представлены разные типы смещения данных (слева направо). Первоначальный источник искажённых данных — реальный мир (World). Biased data появляются при сборе и разметке данных (Data), во время процесса обучения (AL/ML) и при обучении с участием человека (Human review) [7]

С 2018 года у Twitter использует алгоритм для обрезки изображений. Он подравнивает изображения, чтобы они помещались в окнах предварительного просмотра. Программа пытается распознать, что будет интереснее пользователю, и включает эту часть изображения в превью. После жалоб пользователей и проверки выяснилось, что алгоритм чаще выбирает лица со светлым, а не с тёмным оттенком кожи, причём у женщин эта разница выражена намного сильнее, чем у мужчин.

По-настоящему нейросети рванули вперёд с 2000-х годов, когда появилась подходящая для них техническая база. Это позволило к 2006 году разработать концепцию глубокого обучения нейросетей — вида машинного обучения на огромных массивах данных, после которого многоуровневые нейросети могли решать задачи без участия человека. Теперь нейронные сети куда эффективнее решают прикладные задачи.

Для распознавания оттенка кожи использовались инструменты VGG-face и RetinaFace, а также YCbCr-алгоритм и шкала фототипов Фитцпатрика, которая была разработана в 1970-х годах и измеряет чувствительность кожи к ультрафиолету. Шкала Фитцпатрика делит все типы кожи на шесть оттенков — от самого светлого, «европейского», до очень тёмного, близкого к чёрному. Как отмечают журналисты, эта шкала — неидеальный, но стандартный инструмент измерения, который применяется в разных отраслях от медицины до исследований по этике ИИ. Авторы эксперимента рассчитали среднее значение оттенка кожи для каждого изображения и присвоили ему значение: от 70 (для самого светлого) до 215 (для самого тёмного типа кожи).

Эксперимент: Stable Diffusion vs. реальный мир

Авторы исследования в Science от 2017 года изучали, перенимает ли искусственный интеллект особенности значений слов, исторически закрепившиеся в языке. С помощью алгоритма GloVe они проанализировали корпус интернет-текстов из 840 миллиардов слов, составив статистику слов, связанных между собою по ассоциации. Чем чаще два слова встречались в текстах на небольшом расстоянии друг от друга, тем чаще они ассоциировались между собой.

В примере с Amazon, когда робот занижал баллы в резюме женщин, можно говорить о смещении репрезентативности (Representation Bias). ИИ для обучения были представлены резюме преимущественно мужчин, присланные в Amazon за десятилетний период. В результате алгоритм решил, что мужчины предпочтительнее.

Приложение Lensa вышло в начале 2022 года, и с самого начала предназначалось для улучшения фотографий при помощи нейросети. Владельцы смартфонов на Android и iOS получили возможность в пару нажатий ретушировать портреты, размывать или изменять фон, накладывать эффекты и так далее.

Миром управляют белые мужчины. Они же в основном работают врачами, юристами и судьями — хотя среди них иногда встречаются и белые женщины. Преступления совершают темнокожие парни, а женщины с афроамериканскими корнями готовят бургеры в забегаловках. Ну а если в ресторан зашел русский, то он непременно возьмет стопку водки. Именно так видит наш мир нейросеть Stable Diffusion. Алгоритмы искусственного интеллекта не только генерируют изображения или тексты, но и воспроизводят общественные стереотипы. Рассказываем, как и почему они это делают.

ЧИТАТЬ ТАКЖЕ:  Как видит тебя нейросеть

В начале 2023 года журналисты Bloomberg провели эксперимент. С помощью нейросети Stable Diffusion v1.5 они сгенерировали 5 100 изображений. Для всех картинок запрос был одинаковым: цветное портретное фото, указание профессии, высокое качество. Журналистов интересовало, как нейросеть изобразит юриста, архитектора, политика, судью, генерального директора, врача, инженера, учителя, кассира, домработницу, работника фастфуда, посудомойку (в английскому у всех этих слов, разумеется, нет грамматического рода), уборщика, социального работника, заключённого, террориста, наркоторговца. Запросы были подобраны так, чтобы количество высоко- и низкооплачиваемых персонажей было одинаковым.

Анализ модели показал неравноправие женщин и мужчин. Если Word2vec задавали запрос вида «отец — врач, мать — ?», то ответ был «мать — медсестра». На запрос «мужчина — программист, женщина — ?» модель предлагала вариант «домохозяйка». Выборка Google News отражала историческую гендерную предвзятость.

Осознают риски и передовые AI-компании. За месяц до запуска чат-бота компания OpenAI наняла юриста, который тестировал ChatGPT на наличие стереотипов в отношении афроамериканцев и мусульман. Он с помощью запросов провоцировал нейросеть на опасные, предвзятые и некорректные ответы.

В 1958 году американский психолог Корнеллского университета Фрэнк Розенблатт повторил математическую модель нейросети с помощью компьютерного кода. Его нейрокомпьютер «Марк-1» был построен на идее персептрона — математической модели биологического нейрона. Нейросеть имела один слой (данные от входа сразу шли на вывод), но её уже можно было обучить. Она могла сама относить объекты по категориям. Например, распознавать печатные буквы на карточках.

Как пользоваться приложением Lensa

Раньше, чтобы сделать красивую аватарку для социальных сетей, люди обращались за помощью к фотографам и художникам. Сегодня все стало намного проще, потому что существуют нейросети, способные из обычной фотографии сделать произведение искусства. В ноябре 2022 года большую популярность обрела нейросеть Lensa — скачав одноименное приложение на свой смартфон, вы можете загрузить несколько своих фотографий и получить целый набор аватарок в разных стилях. Хотите фото, где вы похожи на стилягу из второй половины 20 века? Или вам интересно узнать, как бы выглядело ваше лицо внутри космического скафандра? Удовлетворить любопытство и сделать красивую аватарку можно прямо сейчас. Просто следуйте нашей инструкции.

Однако первые успехи нейросетей привели к завышенным ожиданиям, которые они не смогли оправдать. В конце 1960-х правительство США, где проводились основные исследования нейросетей, резко урезало финансирование подобных разработок, посчитав их не оправдывающими себя.

Оказалось, что названия цветов (роза, маргаритка) связаны с нежностью и любовью, а названия насекомых — с уродством и грязью. Учёные совместили корпус с базой имён и обнаружили, что типично европейские имена ассоциируются с понятиями «семья», «друг», «счастливый», а имена африканского происхождения пересекаются со словами «бедность», «тюрьма», «убийство». Это позволило сделать вывод, что ИИ воспринимает не только формальную структуру языка, но и заложенные в нём стереотипы.

Самый популярный алгоритм обучения нейросети — метод обратного распространения ошибки. В начале обучения разработчик подаёт на вход тренировочные примеры и правильные ответы. Нейросеть классифицирует данные, затем сравнивает свой результат с ожидаемым и вычисляет, где была ошибка.

Нейросеть (англ. neural network) — математическая модель нейронной сети, которая имитирует работу человеческого мозга. Нейросети состоят из множества взаимосвязанных искусственных нейронов, способных обрабатывать большие массивы данных и находить в них сложные закономерности. Возможности нейросетей позволяют ИИ-помощникам понимать речь, генерировать связный текст, распознавать и создавать изображения.

Всё дело в данных. Для обучения модели могут использоваться смещённые или искажённые данные (biased data). Смещение происходит, когда в наборе данных одни элементы получают больший вес и/или лучше представлены, чем другие. Обучение на biased data приводит к неверным результатам, ошибкам и копированию человеческих стереотипов. Как отметил в материале Bloomberg представитель разработчика Stable Diffusion, «все модели ИИ обладают предвзятостью, характерной для того наборов данных, на которых они обучаются».

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь