Содержание статьи
Как сделать свою нейросеть за 10 минут на Python
Процесс тренировки
Для уменьшения ошибки нейронной сети надо поменять весовые коэффициенты, причем послойно. Каким же образом это осуществить? Ничего сложного в этом нет: надо воспользоваться методом градиентного спуска. То есть нам надо рассчитать градиент по весам и сделать шаг от полученного градиента в отрицательную сторону. Давайте вспомним, что на этапе прямого распространения мы запоминали входные сигналы, а во время обратного распространения ошибки вычисляли дельты, причем послойно. Как раз ими и надо воспользоваться в целях нахождения градиента. Градиент по весам будет равняться не по компонентному перемножению дельт и входного вектора. Дабы обновить весовые коэффициенты, снизив таким образом ошибку нейросети, нужно просто вычесть из матрицы весов итог перемножения входных векторов и дельт, помноженный на скорость обучения. Все вышеперечисленное можно записать в следующем виде:
Вторая переменная это Training Outputs. Она хранит в себе массив 1 на 4, и это наши ожидаемые выходные данные. Также не забываем транспонировать вторую переменную, чтобы ее содержание поменялось и было 4 на 1. Дальше нам надо инициализировать веса. Ранее я уже говорил, что мы будем это делать при помощи генератора случайных чисел. Чтобы и у вас, и у меня получались одинаковые случайные числа, давайте договоримся и укажем сид генератора в значении 1.
Допустим, передадим ей значение 1.1.0. Как вы помните, во входных тренировочных данных такого значения у нас не было. В коде задействовать нашу уже обученную нейросеть можно также очень просто. Запускаем получившийся код и видим результат. Наша нейронная сеть прекрасно справилась и поняла, что очень большая вероятность того, что на выходе должна быть цифра 1. И то, что мы сейчас с вами запрограммировали, это простейшая нейронная сеть, которая называется Перцептрон. Но даже с такой простой нейронкой уже можно решить решать какие-то более-менее реальные задачи.
Давайте поймем почему формула имеет такой вид. Сначала нам нужно учесть то, что мы хотим скорректировать вес пропорционально размеру ошибки. Далее ошибка умножается на значение, поданное на вход нейрона, что, в нашем случае, 0 или 1. Если на вход был подан 0, то вес не корректируется. И в конце выражение умножается на градиент сигмоиды. Разберемся в последнем шаге по порядку:
Больше нейронов. В нашей тренировочной нейросети только один нейрон. Но если нейронов будет больше — каждый из них сможет по-своему реагировать на входные данные, соответственно, на следующие нейроны будут приходить данные с разных синапсов. Значит — больше вариативность, «подумать» и передать сигнал дальше может не один нейрон, а несколько. Можно менять и формулу передачи, и связи между нейронами — так получаются разные виды нейронных сетей.
Конечно, после сигмоида мы никогда не получим такие значения, но и результат после обучения нашей нейронки сложно назвать хоть чем-то хотя бы близко похожим на то, что нам нужно. И происходит это потому, что метод обратного распространения подразумевает многократное обучение нейронной сети. В коде которого будет производиться регулирование в соответствии с уже известными алгоритмами выравнивания весов.
Затем нам понадобится веса для синапсов. Именно они будут выявлять взаимосвязь между входными данными и результатом. Сейчас просто запомните, что именно веса будут оказывать наибольшую роль в определении результата и чуть позже в коде мы воспользуемся популярным решением для инициализации весов. В частности, веса будут инициализироваться генератором случайных чисел. Это довольно важно, потому что если бы был способ найти идеальные начальные веса, то дальнейшее обучение сети просто не требовалось бы.
Когда мы узнаем дельту последнего слоя, мы сможем найти дельты и всех предыдущих слоев. Чтобы это сделать, нужно будет лишь перемножить для текущего слоя транспонированную матрицу с дельтой, а потом перемножить результат с вектором производных функции активации предыдущего слоя:
Как написать это на Python
Давайте внимательно посмотрим на него. Вышенаписанная формула — это не что иное, как определение умножения матрицы на вектор. И в самом деле, если мы возьмем матрицу W размера n на m и выполним ее умножение на X размерности m, то мы получим другое векторное значение n-размерности, то есть как раз то, что надо.
Дабы найти значение ошибки E, надо найти сумму квадратов разности векторных значений, которые были выданы нейронной сетью в виде ответа, а также вектора, который ожидается увидеть при обучении. Еще надо будет найти дельту каждого слоя и учесть, что для последнего слоя дельта будет равняться векторной разности фактического и ожидаемого результатов, покомпонентно умноженной на векторное значение производных последнего слоя:
Но нейронные сети — все же не человеческий мозг. Мозг сложнее, объемнее, в нем намного больше нейронов, чем в любой компьютерной нейросети. Поэтому чрезмерное обучение может сделать хуже. Например, переобученная нейросеть может начать распознавать предметы там, где их нет — так люди иногда видят лица в фарах машин и принимают пакеты за котов. А в случае с искусственной нейронной сетью такой эффект еще явнее и заметнее. Если же учить нейросеть на нескольких разнородных данных, скажем, сначала обучить считать числа, а потом — распознавать лица, она просто сломается и начнет работать непредсказуемо. Для таких задач нужны разные нейросети, разные структуры и связи.
Еще есть, например, метод обратного распространения ошибки — градиентный алгоритм для многослойных нейросетей. Сигналы ошибки, рассчитанные с помощью градиента, распространяются от выхода нейронной сети к входу, то есть идут не в прямом, а в обратном направлении.
Один нейрон может превратить в одну точку входной вектор, но по условию мы желаем получить несколько точек, т. к. выходное Y способно иметь произвольную размерность, которая определяется лишь ситуацией (один выход для XOR, десять выходов, чтобы определить принадлежность к одному из десяти классов, и так далее). Каким же образом получить n точек? На деле все просто: для получения n выходных значений, надо задействовать не один нейрон, а n. В результате для каждого элемента выходного Y будет использовано n разных взвешенных сумм от X. В итоге мы придем к следующему соотношению:
Только ленивый не слышал сегодня о существовании и разработке нейронных сетей и такой сфере, как машинное обучение. Для некоторых создание нейросети кажется чем-то очень запутанным, однако на самом деле они создаются не так уж и сложно. Как же их делают? Давайте попробуем самостоятельно создать нейросеть прямого распространения, которую еще называют многослойным перцептроном. В процессе работы будем использовать лишь циклы, массивы и условные операторы. Что означает этот набор данных? Только то, что нам подойдет любой язык программирования, поддерживающий вышеперечисленные возможности. Если же у языка есть библиотеки для векторных и матричных вычислений (вспоминаем NumPy в Python), то реализация с их помощью займет совсем немного времени. Но мы не ищем легких путей и воспользуемся C#, причем полученный код по своей сути будет почти аналогичным и для прочих языков программирования.
Например, на вход поступает картинка. Чтобы нейросеть могла понять, что на ней изображено, она должна выделить разные элементы из картинки, распознать их и подумать, что означает сочетание этих элементов. Примерно так работает зрительная кора в головном мозге. Это несколько задач, их не смогут решить одинаковые нейроны. Поэтому нужно несколько слоев, где каждый делает что-то свое. Для распознавания часто используют так называемые сверточные нейросети. Они состоят из комбинации сверточных и субдискретизирующих слоев, каждый из которых решает свою задачу.
В учебных целях очень часто применяют самую простейшую из них, линейную. Ее еще называют единичный скачок или жесткая пороговая функция. Выглядит в коде она следующим образом. Мы же будем применять более адекватную и подходящую функцию активатора, а именно сигмоид.
Пишем код
И теперь, когда мы понимаем общий принцип действия, давайте перейдем к написанию кода, чтобы более наглядно увидеть реализацию всего, что я только что рассказывал. Но сначала в Python нам нужно установить модуль numpy. Он нам понадобится для легкой и высокопроизводительной работы с многомерными массивами. В описании я оставлю ссылку на репозиторий numpy в PyPy. Устанавливается он, как и любой другой модуль в Python, без каких-либо проблем. Теперь в коде начнем с импорта numpy, а затем объявим функцию sigmoid для реализации нашей функции активатора. Уже здесь нам пригождается numpy.
Хауди-хо, друзья! Недавно вы просили меня рассказать, как создать свою собственную нейронную сеть с нуля. Поэтому сегодня мы с вами этим и займемся. Создадим простейшую нейронную сеть, а именно Перцептрон. И на самом деле это не так сложно, как может показаться на первый взгляд. Дело в том, что нейронные сети как таковые базируются на определенных алгоритмах и математических функциях. Здесь можно встретить сигмоиду, линейную регрессию и угродительность. Но как мы знаем, чтобы пользоваться формулами, не обязательно понимать, как они работают.
Из него мы используем метод exp, который нужен для вычисления экспонента и всех элементов входного массива. Но нам это в принципе не важно. Как я ранее говорил, это просто формула, которую мы применяем. И не обязательно быть математиком, чтобы это делать. Затем нам нужно объявить тренировочные данные. С этой целью мы создадим две переменные. Первая это training inputs. Она будет хранить в себе массив 4 на 3 с соответствующими входными данными, которые я наглядно . показывал ранее на табличке.
Так часто происходит в реальных задачах, например, при распознавании предметов. Не у всех из них есть жесткие критерии: скажем, гипертрофированного мультяшного персонажа мы по-прежнему различаем как человека, хотя у него совсем другие пропорции. Нейронную сеть сложно научить похожему — но современные системы могут справиться и с этим.
А начнем из простого и распространенного примера. Допустим, у нас есть какая-то проблема, которую наша нейронка должна уметь решать. Во всех учебниках и уроках по нейронкам обычно можно встретить вот эту таблицу. Здесь вы видите набор входных и выходных данных. Можете попробовать поставить видео на паузу и вычислить самостоятельно связь между этими данными. Хотя здесь нет ничего сложного, я думаю, уже видно, что в выходном столбце оказываются значения из первого столбца входного массива. На данном этапе ваш мозг, при помощи своих нейронных связей, синапсов и кое-чего еще, уже смог решить данную проблему и научиться, как ее решать впоследствии.
Говоря проще, ИНС можно назвать неким «черным ящиком», превращающим входные данные в выходные данные. Если же посмотреть на это с точки зрения математики, то речь идет о том, чтобы отобразить пространство входных X-признаков в пространство выходных Y-признаков: X → Y. Таким образом, нам надо найти некую F-функцию, которая сможет выполнить данное преобразование. На первом этапе этой информации достаточно в качестве основы.