Нейросети

Какие бывают слои нейросети

17.06.2024

Содержание

Нейронные сети

TL;DR

В отличие от полносвязных и свёрточных слоев, которые обрабатывают каждый элемент входной последовательности отдельно, рекуррентные слои используют информацию о предыдущих элементах для обработки текущего. Основная идея рекуррентности в том, что на каждом шаге обработки последовательности слой получает текущий элемент и предыдущее внутреннее состояние. Он объединяет эту информацию, обновляет свое состояние и генерирует выходной элемент. Это позволяет им эффективно работать с последовательными данными, где важны зависимости между элементами.

Генеративно-состязательные сети (GAN) состоят из двух нейронных сетей — генератора и дискриминатора. Генератор использует слои для создания новых данных, а дискриминатор применяет слои для оценки реалистичности сгенерированных данных. Поэтому сетки, построенные на GAN, хорошо работают с задачами генерации новых данных — создания изображений или музыки.

Пулинговый слой призван снижать размерность изображения. Исходное изображение делится на блоки размером [math]w\times h[/math] и для каждого блока вычисляется некоторая функция. Чаще всего используется функция максимума (англ. max pooling) или (взвешенного) среднего (англ. (weighted) average pooling). Обучаемых параметров у этого слоя нет. Основные цели пулингового слоя:

В материале попробуем просто рассказать о том, как устроена нейронная сеть, какие типы архитектуры нейросетей существуют и какую роль в работе сетки играют слои. Материал — для нетехнических специалистов. Понимание базы поможет чуть лучше понимать инженеров и разработчиков, а также, возможно, принимать более информированные бизнес-решения, связанные с внедрением разработок на основе ИИ.

Каждый тип слоёв вносит свой вклад в обработку данных нейросетью, позволяя ей извлекать различные типы признаков и закономерностей. Комбинируя эти слои в различных архитектурах, можно создавать мощные модели для решения задач компьютерного зрения, обработки естественного языка и других областях.

Нейронные сети прямого распространения (Feed forward neural networks, FFNN). Прямолинейный вид нейросетей, при котором соседние узлы слоя не связаны, а передача информации осуществляется напрямую от входного слоя к выходному. FFNN имеют малую функциональность, поэтому часто используются в комбинации с сетями других видов.

Inception module

Применение Dropout во время обучения улучшает способность модели обобщать, экстраполировать полученные знания на новые, незнакомые данные. Это повышает производительность модели в реальных условиях, когда она сталкивается с данными, отличными от тех, на которых она обучалась. Это можно назвать гибкостью.

В сверточной нейронной сети выходы промежуточных слоев образуют матрицу (изображение) или набор матриц (несколько слоёв изображения). Так, например, на вход сверточной нейронной сети можно подавать три слоя изображения (R-, G-, B-каналы изображения). Основными видами слоев в сверточной нейронной сети являются сверточные слои (англ. convolutional layer), пулинговые слои (англ. pooling layer) и полносвязные слои (англ. fully-connected layer).

Во время обучения слой Dropout случайным образом «выключает» (то есть игнорирует) определённый процент нейронов в предыдущем слое — и эти нейроны не участвуют в текущей итерации обучения. Модель вынуждена учиться по-другому, полагаясь на различные комбинации имеющихся нейронов для предсказания результата. Так слои исключения предотвращают переобучение модели — overfitting.

Двумя серьезными проблемами в обучении глубоких нейронных сетей являются исчезающий градиент (англ. vanishing gradient) и взрывающийся градиент (англ. exploding gradient). Они возникают из-за того, что при дифференцировании по цепному правилу, до глубоких слоев нейронной сети доходит очень маленькая величина градиента (из-за многократного домножения на небольшие величины на предыдущих слоях). Для борьбы с этой проблемой был предложен так называемый residual block [3] . Идея заключается в том, чтобы взять пару слоёв (например, сверточных), и добавить дополнительную связь, которая проходит мимо этих слоёв. Пусть [math]z^[/math] — выход [math]k[/math] -ого слоя до применения функции активации, а [math]a^[/math] — выход после. Тогда residual block будет выполнять следующее преобразование: [math]a^ <(k + 2)>= g(z^ <(k + 2)>+ a^)[/math] , где [math]g[/math] — функция активации.

Правильная комбинация слоев и архитектур может значительно повысить производительность нейронной сети и качество результатов её работы. Различные типы нейронных сетей имеют свои особенности внутренней архитектуры, а что ещё важнее — та или иная архитектура лучше справляется с тем или иным типом задач. Вот пара примеров:

ЧИТАТЬ ТАКЖЕ: Искусственный интеллект о чем

Мы предлагаем готовые решения для работы с искусственным интеллектом, машинным обучением и нейронными сетями. Клиентам доступны платформа для совместной ML-разработки с ускорением до +1700 GPU Tesla v100 и A100 ML Space, инструменты для обработки языка ruGPT-3 & family и другие сервисы.

Например, в случае распознавания изображений первые скрытые слои могут обнаруживать простые элементы (края и углы), а последующие слои комбинируют эти элементы в более сложные структуры (формы и объекты). Количество скрытых слоев потенциально бесконечно — их количество зависит от сложности задачи и архитектуры нейронной сети.

Сверточные нейронные сети (CNN) обычно состоят из чередующихся сверточных слоёв и слоёв пулинга, за которыми следуют один или несколько полносвязных слоев. Благодаря операции свёртки слои в CNN эффективно извлекают пространственные признаки из изображений и демонстрируют высокую точность на задачах классификации изображений. Соответственно, такой тип сеток хорош для задач компьютерного зрения, например, распознавания объектов на фото.

AlexNet

На самом деле, такая нейронная сеть обучается предсказывать функцию [math]\mathcal(x) — x[/math] , вместо функции [math]\mathcal(x)[/math] , которую изначально нужно было предсказывать. Для компенсации этой разницы и вводится это замыкающее соединение (англ. shortcut connection), которое добавляет недостающий [math]x[/math] к функции. Предположение авторов, которые предложили residual block, заключалось в том, что такую разностную функцию будет проще обучать, чем исходную. Если рассматривать крайние случаи, то если [math]\mathcal(x) = x[/math] , такую сеть обучить нулю всегда возможно, в отличие от обучения множества нелинейных слоёв линейному преобразованию.

Слои пулинга (или подвыборки) выбирают одни элементы из входных данных как наиболее важные и отбрасывают другие как менее значимые. Например, в случае обработки изображений, слой пулинга может взять квадратный участок изображения и выбрать из него самый яркий пиксель (максимальное значение) или усреднить значения пикселей (среднее значение). Это позволяет сократить количество данных, которые нужно обрабатывать, что, в свою очередь, уменьшает вычислительные затраты и время обучения модели.

Свертка (англ. convolution) — операция над парой матриц [math]A[/math] (размера [math]n_x\times n_y[/math] ) и [math]B[/math] (размера [math]m_x \times m_y[/math] ), результатом которой является матрица [math]C = A * B[/math] размера [math](n_x-m_x+1)\times (n_y-m_y+1)[/math] . Каждый элемент результата вычисляется как скалярное произведение матрицы [math]B[/math] и некоторой подматрицы [math]A[/math] такого же размера (подматрица определяется положением элемента в результате). То есть, [math]C_ = \sum_^\sum_^A_B_[/math] . На Рисунке 1 можно видеть, как матрица [math]B[/math] «двигается» по матрице [math]A[/math] , и в каждом положении считается скалярное произведение матрицы [math]B[/math] и той части матрицы [math]A[/math] , на которую она сейчас наложена. Получившееся число записывается в соответствующий элемент результата.

Как всегда бывает с технологиями на определённом уровне распространения, большинство пользователей не знает, как это устроено и работает. Пользователь взаимодействует с простым понятным интерфейсом и не представляет, что происходит под капотом. Это нормально.

Сверточный слой нейронной сети представляет из себя применение операции свертки к выходам с предыдущего слоя, где веса ядра свертки являются обучаемыми параметрами. Еще один обучаемый вес используется в качестве константного сдвига (англ. bias). При этом есть несколько важных деталей:

Примечание: При такой модели обучение нейронной сети сводится к изменению коэффициенту весов, то есть связи между отдельными нейронами. Если вес положительный — сигнал в нейроне усиливается, нулевой — нейроны не влияют друг на друга, отрицательный — сигнал в принимающем нейроне погашается.

Слои Dropout помогают предотвратить переобучение модели и улучшить её способность обобщать данные. Переобучение происходит, когда модель слишком хорошо запоминает тренировочные данные, но плохо работает на новых, незнакомых данных. Слои исключения помогают избежать этой проблемы.

Рекуррентные нейронные сети (RNN), включая LSTM и GRU, имеют петли обратной связи, позволяющие им обрабатывать последовательные данные по одному элементу за раз. Они используют специальные рекуррентные слои, которые запоминают предыдущие состояния и учитывают контекст, «видят» зависимости между последовательными элементами. Рекуррентные нейронные сети (RNN) или их модификации хороши для обработки текста или речи.

Нейронные сети

TL;DR

Inception module

AlexNet

ОСТАВЬТЕ ОТВЕТ Отменить ответ

ЭТО ПОПУЛЯРНО

ЭТО ИНТЕРЕСНО

ВЫБОР РЕДАКТОРА