Как видит нейросеть

0
25

Как нейросеть видит известные произведения по их названиям

Как работает нейросеть Lensa

Приложение Lensa вышло в начале 2022 года, и с самого начала предназначалось для улучшения фотографий при помощи нейросети. Владельцы смартфонов на Android и iOS получили возможность в пару нажатий ретушировать портреты, размывать или изменять фон, накладывать эффекты и так далее.

Я далеко не поклонник этой книги, где художник сперва получает способности убивать на расстоянии, а потом на его картинах начинает проявляться лавкрафтовское чудовище. Очень хорошие идеи, но, как по мне, Король Ужаса мог бы развить их и круче. Дьюма-Ки — это название острова, на котором поселился художник. И само то, что название вынесено в заголовок романа, указывает на очевидные странности книги. Вам о чём-нибудь это название говорит? Вот и мне нет. А Kandinsky понял всё как-то по-своему…

Если Кинг в ближайшее время не напишет ужастик про писателя, беседующего с нейросеткой, то человечество много потеряет. Потому что — ну! Ну? Очевидно же, что Kandinsky явно намекает, что надо было развивать сюжет в сторону ацтекской культуры. Да, у Кинга по молодости проклятых индейских кладбищ и вещиц было не меньше, чем указанное уносило жизней, оставляя на каждой странице кровавые брызги чернил от персонажей. ИИ говорит тебе, Кинг, возвращайся к истокам!

Обратное распространение включает в себя расчет градиентов разными методами , которые представляют собой скорость изменения ошибки сети по отношению к ее весам и смещениям (на графике ниже градиент выглядит как угол наклона стрелочки: чем больше разница между желаемым и полученным результатом, тем больше угол наклона). По сути, этот шаг определяет, какой вклад вносит каждый параметр в общую ошибку предсказания, чтобы потом изменить его и приблизиться к желаемому значению.

Раньше, чтобы сделать красивую аватарку для социальных сетей, люди обращались за помощью к фотографам и художникам. Сегодня все стало намного проще, потому что существуют нейросети, способные из обычной фотографии сделать произведение искусства. В ноябре 2022 года большую популярность обрела нейросеть Lensa — скачав одноименное приложение на свой смартфон, вы можете загрузить несколько своих фотографий и получить целый набор аватарок в разных стилях. Хотите фото, где вы похожи на стилягу из второй половины 20 века? Или вам интересно узнать, как бы выглядело ваше лицо внутри космического скафандра? Удовлетворить любопытство и сделать красивую аватарку можно прямо сейчас. Просто следуйте нашей инструкции.

Вот тут повезло больше, хотя и бытовало ощущение, что нейросеть уже как-то выучила, что такое Раскольников, старушка и многие другие элементы, которые пытаются высмеять подростки, чтобы снять стресс после того, как столкнулись в нежном возрасте с глубокими копаниями в психике не очень здорового студента, отправившегося своими силами и топором спасать Пенсионный фонд.

М-да. И Достоевский , и нейросетка в один голос согласны, что мрачные питерские интерьеры и экстерьеры в ненастную погоду вызывают желание кого-нибудь порешить топором.

На более поздних слоях нейросети, изображения становятся менее похожими на исходные фотографии, потому что на этапе обработки нейросеть сосредотачивается на абстрактных и сложных признаках и понятиях, которые она выучила из тренировочных данных. Вот почему это происходит:

Обратное распространение: Учимся на ошибках

Так как чаще всего для обучения нейросетей, распознающих изображения, используется обучение “с учителем” (подробнее о видах обучения можете посмотреть в моей предыдущей статье), когда путешествие фотографии по сети достигает своей кульминации на выходном слое, прогнозы сети сравниваются с реальным содержанием фотографии, анализируя расхождение. Именно здесь в игру вступает обратное распространени е, позволяя сети учиться на своих ошибках и уточнять свое понимание фотографии.

Процесс визуализации признаков начинается со случайного изображения или шума, которое затем подвергается оптимизации, чтобы максимизировать активацию конкретного “нейрона” или группы “нейронов” в определенном слое нейросети. Это достигается путем изменения пикселей изображения таким образом, чтобы они максимально активировали выбранные “нейроны”.

2. Абстракция : Нейросеть стремится к абстракции, выделяя особенности, которые ей кажутся важными для различения между классами объектов. Это может привести к тому, что изображения становятся все более абстрактными и трудно интерпретируемыми для человеческого восприятия. То, какие именно особенности ей покажутся важными, во многом зависит от данных, на которых нейросеть обучалась. Например, если все мужчины, которых нейросеть “видела”, были в черных очках, то нейросеть первым делом научится распознавать на фотографии черные очки, а остальные признаки, такие как форма лица или волосы на лице, она будет опускать.

ЧИТАТЬ ТАКЖЕ:  Как назвать искусственный интеллект

Ниже вы видите иллюстрацию того, как нейросеть на более поздних слоях “видит” характеристики одного участка фотографии. Сбоку показано значение функции активации каждого выхода. Таким образом, что нейросеть “видит”, что выбранный участок похож на шею человека или нижнюю часть лица.

Далее приложение просит выбрать из галереи 10-20 фотографий, на которых видно только ваше лицо. Будет хорошо, если они сняты с разных ракурсов, на них видны разные эмоции и используется разнообразный фон. Если соблюсти все требования, аватарки получатся наивысшего качества.

По мере продвижения изображения через сеть, промежуточные слои начинают агрегировать базовые характеристики, обнаруженные в предыдущих слоях, для распознавания более сложных паттернов. Например, нейроны в этих слоях могут начать формировать комбинации граней для определения более сложных текстур, таких как кожа или волосы.

Нейросети состоят из связанных узлов, иногда называемых “нейроны” (в англоязычной литературе часто используется термин nodes). Эти “нейроны” служат фундаментальными вычислительными единицами , которые обрабатывают и передают информацию по всей нейросети. Подобно биологическим нейронам в нашем мозге, искусственные “нейроны” работают совместно для решения сложных задач. Давайте разберем их работу на примере.

На графике ниже можно увидеть этот процесс более подробно. Значение W 0 — это желаемый результат вычислений. Это те значения, которые разработчик дает нейросети в конце, говоря “На фотографии с вероятностью 100% был изображен мужчина”. А W e1 — результат, полученный изначально нейросетью: “На фотографии с вероятностью 80% изображена женщина”. С помощью градиентного спуска, нейросеть меняет свои веса таким образом, чтобы приблизится к W 0 . Она вычислит, какой именно фактор повлиял на ошибку и изменит его вес. Например, нейросеть изначально могла “решить”, что у всех женщин острый подбородок, и поэтому у этого признака был суммарно большой вес. После того, как в нейросеть поступит фотография мужчины с острым подбородком, она уменьшит вес этого признака, чтобы он не искажал результат.

Как меня видит нейросеть?

Вот тут не смогла пройти мимо, захотелось похвастаться: все три генерации блестящи. Глаза Kandinsky даже не всегда делает хорошо (иногда страдает симметричность), но тут, даже если сделать скидку на недостатки сетки, у всех трех барышень очень умный взгляд.

Мне больше всего нравится первая картинка. Лицо юное и взгляд не сфокусирован, но при этом чувствуется упрямый характер девушки.

Процесс визуализации признаков начинается со случайного изображения или шума, которое затем подвергается оптимизации, чтобы максимизировать активацию конкретного “нейрона” или группы “нейронов” в определенном слое нейросети. Это достигается путем изменения пикселей изображения таким образом, чтобы они максимально активировали выбранные “нейроны”.

Примечание: В нашей статье мы будем рассматривать градиентный спуск в классическом виде, однако следует заметить, что когда речь идет об анализе изображений в виду большой размерности градиентный спуск в изначальном виде может быть невозможен, поэтому приходится использовать приближенные к нему методы, которые руководствуются похожей логикой.

Чтобы визуализировать, что «видит» нейросеть, на какие вещи она обращает внимание, можно использовать технику, называемую визуализацией признаков (feature visualization) . Эта техника позволяет воссоздать изображения, которые максимально активируют определенные нейроны в нейросети.

Каждый “нейрон” передает свое выходное значение следующему, который делает свой вывод, уже основываясь на выходе предыдущего. Например, если бы целью нашей нейросети было сделать вывод о том, стоит ли строить отель в определенном месте, то следующий нейрон использовал бы информацию о примерной цене за ночь в отеле, чтобы сделать свой вывод о рентабельности отеля. “Нейроны” объединяются в группы , которые анализируют какие-то конкретные характеристики , а группы “нейронов” — в слои, каждый из которых выполняет определенную задачу в процессе обработки информации. В нейросетях существует три основных типа слоев:

Нейросети играют важную роль в нашей жизни, но их внутреннее устройство зачастую остается тайной. В этой статье мы погрузимся в мир нейросетей, чтобы понять, как они работают. В качестве примера возьмем нейросеть для распознавания изображений и разберёмся как AI анализирует изображения, находит на них различные признаки и принимает решения.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь