Содержание статьи
С чем не справится искусственный интеллект
Проблема нейросетей №1. Не всегда понимает контекст
Главная проблема нейросетей ― у ИИ нет здравого смысла, как у человека. Например, нейросеть распознает объекты на изображении, но не всегда понимает, что происходит. Она знает, что «мяч» и «окно» — это объекты, но не знает, что если бросить мяч в окно, стекло разобьется. Для человека это очевидно, а для нейросети — нет. Из-за этого на предсказания нейросети нельзя полагаться на сто процентов.
Хотя нейросети способны генерировать текст, музыку или изображения, они делают это на основе данных. Проблема использования ИИ в том, что она создает неуникальный контент. Можно использовать контент нейросетей для вдохновения ― полностью заменить дизайнеров, программистов и копирайтеров ИИ пока не может.
Пусть сеть состоит из подряд идущих нейронов с функцией активации $\sigma(x)$; функция потерть (англ. loss function) $L(y) = MSE(y, \hat) = (y — \hat)^2$ (англ. MSE — Mean Square Error); $u_d$ — значение, поступающее на вход нейрону на слое $d$; $w_d$ — вес нейрона на слое $d$; $y$ — выход из последнего слоя. Оценим частные производные по весам такой нейронной сети на каждом слое. Оценка для производной сигмоиды видна из рисунка 1.
Ещё одним недостатком нейросети является то, что она – аппроксиматор, при настройке которого не вычисляется целевая функция, а осуществляется подбор функций, складывающихся и за счет этого дающих результат в виде набора значений, похожего на исходный. Вследствие этого, выходные данные ИНС, фактически, всегда будут с ошибкой, значение которой заранее не известно, но есть возможность её уменьшить до рационального уровня во время обучения.
А вот нейросети в этом плане ограничены. Если нейросеть умеет генерировать изображения, это не значит, что она способна создать красивый слайд для презентации. Хотя OpenAI (создатели ChatGPT), «Яндекс» и «Cбер» сегодня работают над нейронками, которые умеют сразу все: писать тексты и код, создавать изображения и быть компаньоном-собеседником.
Когда человек узнает новую информацию, он сразу может ее использовать, когда принимает решения. Среди недостатков нейросетей: им требуется время. Например, чтобы научиться играть в стрелялку, нейросети нужно попробовать сотню раз, чтобы разобраться, куда можно и нельзя ходить. Человеку это понятно интуитивно, а ИИ учится методом проб и ошибок. При этом если препятствия или враги появляются неожиданно, нейросеть будет действовать неадекватно, полагаясь на историю своих игр, а не на реальную ситуацию.
Таким образом, увеличение числа слоев нейронной сети с одной стороны увеличивает ее способности к обучению и расширяет ее возможности, но с другой стороны может порождать данную проблему. Поэтому для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять ее.
Эта функция часто используется, поскольку множество ее возможных значений — отрезок $[0, 1]$ — совпадает с возможными значениями вероятностной меры, что делает более удобным ее предсказание. Также график сигмоиды соответствует многим естественным процессам, показывающим рост с малых значений, который ускоряется с течением времени, и достигающим своего предела [2] (например, рост популяции).
Определение
Напомним, что градиентом в нейронных сетях называется вектор частных производных функции потерь по весам нейронной сети. Таким образом, он указывает на направление наибольшего роста этой функции для всех весов по совокупности. Градиент считается в процессе тренировки нейронной сети и используется в оптимизаторе весов для улучшения качества модели.
В данной конструкции вывод нейрона подается как следующему нейрону, так и нейрону на расстоянии 2-3 слоев впереди, который суммирует его с выходом предшествующего нейрона, а функция активации в нем — ReLU (см. рисунок 3). Такая связка называется shortcut. Это позволяет при обратном распространении ошибки значениям градиента в слоях быть более чувствительным к градиенту в слоях, с которыми связаны с помощью shortcut, то есть расположенными несколько дальше следующего слоя.
Исследование в области нейронных сетей началось более полувека назад, однако прорыв произошел только недавно. В последние годы ИНС эксплуатируются в различных областях, например для диагностирования заболеваний с помощью определения классов медицинских снимков, целевого маркетинга, исследования поведенческих данных, прогноза электрической нагрузки, проверки качества, определения химических соединений и т.д.
Этого опасаются копирайтеры, редакторы и сценаристы — все чаще их задачи дают нейросетям. Разработчики нейросетей и сами подогревают эти опасения: на сайте компании OpenAI говорится, что ИИ повлияет на 80% рабочих мест, особенно на те, которые требуют изучения большого объема данных.
Битрикс24 провели исследование о проблемах применения искусственного интеллекта и выяснили, что 47,5% опрошенных представителей российских компаний готовы платить больше сотрудникам за умение пользоваться ИИ-инструментами в работе. Но ожидают, что так сотрудники повысят производительность труда и будут тратить освободившееся время на то, чтобы приносить прибыль бизнесу.
В реальном мире часто возникают задачи, которые сложно решить математическими методами. Представьте, что вы создаете самопилотируемый автомобиль. Вам нужно указать в алгоритме, как машина должна действовать, если человек внезапно выбежал на дорогу. Должен ли автомобиль резко свернуть на обочину, рискуя жизнью людей в салоне? Или продолжить двигаться вперед, ведь по правилам человека там быть не должно? Люди принимают такие решения за доли секунды не задумываясь. Но выразить их в коде гораздо сложнее.
Проблема нейросетей №7. Подвержена искажениям в данных
Нейросети, как и люди, бывают предвзятыми. Например, в дискриминации обвинили программу, которая несколько лет помогала отделу кадров в Amazon отбирать резюме разработчиков. Алгоритм обучили выбирать соискателей, чьи резюме были похожи на резюме сотрудников, которые уже работают в компании. А мужчин в IT-индустрии — больше 90%. Алгоритм видел резюме преимущественно от мужчин и, соответственно, среди кандидатов выбирал именно их. После того, как проблема ИИ с дискриминацией женщин вскрылась, компания перестала использовать программу.
Вы можете почувствовать себя на месте инженеров, которые решают основные проблемы искусственного интеллекта, с помощью сайта Moral Machine. Он предлагает пользователям выбрать, какому пешеходу или водителю они бы сохранили жизнь, ― оказывается, что сделать это сознательно невероятно трудно.
В процессе обратного распространения ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это в свою очередь может сделать нестабильным алгоритм обучения нейронной сети. В таком случае элементы градиента могут переполнить тип данных, в котором они хранятся. Такое явление называется взрывающимся градиентом (англ. exploding gradient).
Однако, входные значения скрытых слоев есть выходные значения функций активаций предшествующих им слоев. В частности, сигмоида насыщается (англ. saturates) при стремлении аргумента к Пользователи нейросетей делятся с ними своими данными. Например, когда просят составить текст договора для трудоустройства с использованием своей личной информации. Хакеры взламывают серверы таких систем, чтобы украсть данные пользователей. Так, например, мошенники получили доступ к конфиденциальным данным Samsung из-за того, что один из сотрудников ввел информацию в ChatGPT. Нейросети защитить сложно — это большие и сложные системы, которыми пользуются миллионы людей.\infty$ или $-\infty$, то есть имеет там конечный предел. Это приводит к тому, что более отдаленные слои обучаются медленнее, так как увеличение или уменьшение аргумента насыщенной функции вносит малые изменения, и градиент становится все меньше. Это и есть проблема затухающего градиента.
Существует аналогичная обратная проблема, когда в процессе обучения при обратном распространении ошибки через слои нейронной сети градиент становится все меньше. Это приводит к тому, что веса при обновлении изменяются на слишком малые значения, и обучение проходит неэффективно или останавливается, то есть алгоритм обучения не сходится. Это явление называется затухающим градиентом (англ. vanishing gradient).
Функция проста для вычисления и имеет производную, равную либо $1$, либо Нейросеть — это алгоритм машинного обучения, который имитирует работу нейронов в человеческом мозге. С помощью нейросетей компьютер решает задачи, которые раньше считались прерогативой человека: пересказывать и сочинять тексты, писать программы, создавать цифровые картины, управлять автомобилем. Чтобы учиться, нейросетям нужны большие объемы данных. Из них компьютер извлекает закономерности и учится, прямо как человек. В последние годы появились мощные процессоры, а также большое количество данных, которые генерируют интернет-пользователи, например, в соцсетях. Так тренировать разные нейронки стало проще. Но пока нейросети несовершенны. Какие бывают проблемы использования искусственного интеллекта, рассказываем в статье.$. Также есть мнение, что именно эта функция используется в биологических нейронных сетях. При этом функция не насыщается на любых положительных значениях, что делает градиент более чувствительным к отдаленным слоям.