Содержание статьи
Как нейросеть видит известные произведения по их названиям
Как меня видит нейросеть?
Вот тут не смогла пройти мимо, захотелось похвастаться: все три генерации блестящи. Глаза Kandinsky даже не всегда делает хорошо (иногда страдает симметричность), но тут, даже если сделать скидку на недостатки сетки, у всех трех барышень очень умный взгляд.
Мне больше всего нравится первая картинка. Лицо юное и взгляд не сфокусирован, но при этом чувствуется упрямый характер девушки.
Ниже вы видите иллюстрацию того, как нейросеть на более поздних слоях “видит” характеристики одного участка фотографии. Сбоку показано значение функции активации каждого выхода. Таким образом, что нейросеть “видит”, что выбранный участок похож на шею человека или нижнюю часть лица.
Далее приложение просит выбрать из галереи 10-20 фотографий, на которых видно только ваше лицо. Будет хорошо, если они сняты с разных ракурсов, на них видны разные эмоции и используется разнообразный фон. Если соблюсти все требования, аватарки получатся наивысшего качества.
Данные, которые «видит» нейросеть, хранятся в ее весах и смещениях. Обучение нейросети заключается в том, чтобы настроить эти веса и смещения таким образом, чтобы они лучше всего соответствовали задаче классификации или распознавания объектов. Когда нейросеть “видит” какой-то признак, который она уже обучена распознавать, определенная группа “нейронов” в ней “загораются” : подобно связям в мозгу, через которые проходит сигнал. То, насколько сильно нейросеть “реагирует” на какое-то изображение, можно увидеть по значениям функций активаций: чем они больше, тем активнее “нейроны” реагируют на изображения, а значит, они его “узнают” .
Сейчас нас интересует только функция «Magic Avatars», которая запускается через кнопку в левом верхнем углу экрана. Разработчики предупреждают, что на некоторых изображениях будут видны искажения — нейросеть Lensa работает хорошо, но не идеально. Приняв этот риск, нужно нажать на кнопку «Попробовать» в нижней части экрана.
Чтобы визуализировать, что «видит» нейросеть, на какие вещи она обращает внимание, можно использовать технику, называемую визуализацией признаков (feature visualization) . Эта техника позволяет воссоздать изображения, которые максимально активируют определенные нейроны в нейросети.
Строительные блоки нейронных сетей
После выбора фотографий, необходимо указать свой пол — чтобы результат вас порадовал, рекомендуется выбрать верный, без экспериментов. После этого нужно выбрать, сколько вариантов аватарок вы хотите получить: 50, 100 или 200. После оплаты, нейросеть начнет рисовать по фотографиям, которые вы загрузили. Процесс может занять более 20 минут, так что надо запастись терпением.
Так, например, первые скрытые слои могут отвечать за распознавание базовых характеристик изображения, таких как грани, текстуры и цвета. “Нейроны” в первом слое могут реагировать на вертикальные или горизонтальные линии на изображении , а другие могут определять области с определенным цветом.
Мы все пляшем вокруг нейросеток, как персонажи мультсериала вокруг инопланетянина: «Он родился!» Впервые человечество столкнулось с интеллектом, который не является человеческим, но при этом является достаточно развитым, чтобы можно было с ним общаться. Мы исследуем не искусственный интеллект, а себя самих: кто мы, чем мы отличаемся от других.
1. Входной слой: Это начальный слой, на котором сеть получает внешние данные. Каждый нейрон в этом слое представляет характеристику или атрибут входных данных. Таким образом, если нейросеть получает на вход фотографию, “нейроны” на входном слое разбивают ее на кусочки, которые потом будут анализироваться.
Приложение Lensa вышло в начале 2022 года, и с самого начала предназначалось для улучшения фотографий при помощи нейросети. Владельцы смартфонов на Android и iOS получили возможность в пару нажатий ретушировать портреты, размывать или изменять фон, накладывать эффекты и так далее.
Примечание: В нашей статье мы будем рассматривать градиентный спуск в классическом виде, однако следует заметить, что когда речь идет об анализе изображений в виду большой размерности градиентный спуск в изначальном виде может быть невозможен, поэтому приходится использовать приближенные к нему методы, которые руководствуются похожей логикой.
Погружение вглубь нейросети
Последние слои обычно отвечают за распознавание более абстрактных и сложных понятий , таких как форма лица, расположение глаз и рта, чтобы сделать окончательное предсказание о том, содержит ли изображение объект, который обучалась распознавать сеть, например, лицо.
Когда нейросеть обучается на данных, она стремится извлечь наиболее важные признаки из этой информации, которые помогут ей делать точные прогнозы или принимать решения в будущем. Однако в процессе этого обобщения она может «помнить» определенные детали обучающих данных в своих весах и смещениях.
В ноябре в приложении Lensa появилась новая функция «Magic Avatars», которая при помощи нейросети изучает лицо человека и создает пачку из 50-200 аватарок в разных стилях. Давайте узнаем, как нейросеть рисует по фото и что из этого получается — результат впечатляет.
На графике ниже можно увидеть этот процесс более подробно. Значение W 0 — это желаемый результат вычислений. Это те значения, которые разработчик дает нейросети в конце, говоря “На фотографии с вероятностью 100% был изображен мужчина”. А W e1 — результат, полученный изначально нейросетью: “На фотографии с вероятностью 80% изображена женщина”. С помощью градиентного спуска, нейросеть меняет свои веса таким образом, чтобы приблизится к W 0 . Она вычислит, какой именно фактор повлиял на ошибку и изменит его вес. Например, нейросеть изначально могла “решить”, что у всех женщин острый подбородок, и поэтому у этого признака был суммарно большой вес. После того, как в нейросеть поступит фотография мужчины с острым подбородком, она уменьшит вес этого признака, чтобы он не искажал результат.
В одном из вариантов локализации экранизации «Томминокеров» перевели как «барабашек». Тут не спойлерю, что же за существа заставляют становиться жителей городка гениями и создавать жутковатые изобретения, является главной интригой романа. Kandinsky считает, что это хомяки. Да, немного иррациональные, но хомяки. В принципе, я в Kandinsky верю. Если он пойдет на коллаб с ChatGPT, и они напишут роман про хомяков, управляющих человечеством, обязуюсь написать рецензию. И попытаться выжить, если ИИ мне начнут за рецу мстить.
Чтобы визуализировать, что «видит» нейросеть, на какие вещи она обращает внимание, можно использовать технику, называемую визуализацией признаков (feature visualization) . Эта техника позволяет воссоздать изображения, которые максимально активируют определенные нейроны в нейросети.
Попытка испытать на нейросетке классику зарубежную выдала более похожие на запрашиваемое варианты, чем те, что были с русской классикой.
На первой картинке конкретно Пип, да еще и теневая фигура сзади. Помести на обложку книги, никто и не скажет, что это нейросетка сделала, напротив, решат — «как глубоко задумано». Над второй картинкой глубоко думали и я, и Kandinsky. Представления не имею, на что мог надеяться человек на переднем плане картины? Судя по окружающему его пейзажу — тупо выжить. Это что-то между Гербертом Уэллсом и «Затерянным миром» Артура Конан Дойля (аналог Парка Юрского периода стопятидесятилетней давности).
2. Абстракция : Нейросеть стремится к абстракции, выделяя особенности, которые ей кажутся важными для различения между классами объектов. Это может привести к тому, что изображения становятся все более абстрактными и трудно интерпретируемыми для человеческого восприятия. То, какие именно особенности ей покажутся важными, во многом зависит от данных, на которых нейросеть обучалась. Например, если все мужчины, которых нейросеть “видела”, были в черных очках, то нейросеть первым делом научится распознавать на фотографии черные очки, а остальные признаки, такие как форма лица или волосы на лице, она будет опускать.