Содержание статьи
Нейросетевые персонажи самостоятельно научились играть в прятки
Прятки с ИИ
Разработчики протестировали три вида подвижных блоков: кубы, лестницы (половина куба) и длинные подвижные стены. Кроме того, неподвижные препятствия также менялись: сначала полигон представлял собой большую комнату и малую, связанные двумя проходами, а затем агенты соревновались в более открытой обстановке. Каждый раунд длится 240 условных шагов, причем первые 96 из них укрывающаяся команда прячется, а команда ловцов не может двигаться, и обе команды не получают никакую награду или штраф.
Для обучения ИИ игре в прятки учёные использовали подход, называющийся «ненаправленное исследование» (Undirected exploration), который заключается в том, что агенты имеют полную свободу действий для развития своего понимания игрового мира и разработки выигрышных стратегий. Это похоже на подход к многоагентному обучению, который применяли исследователи из DeepMind, когда несколько систем искусственного интеллекта были обучены играть в режиме «захват флага» в игре Quake III Arena . Как и в этом случае, агенты ИИ не были заранее обучены правилам игры, но со временем они выучили базовые стратегии и даже смогли удивить исследователей нетривиальным решениями.
Эту систему еще несколько лет назад считали в OpenAI «слишком опасной» и отказывались обнародовать (хотя в изначальном уставе компании-разработчика декларировалась открытость). Разработчики переживали, что их алгоритм может использоваться людьми с нечистыми помыслами. В качестве наиболее безвредного примера называли генерацию фейковых отзывов в интернет-магазинах.
Разработчики из OpenAI создали нейросетевых агентов, самостоятельно обучившихся различным стратегиям игры в прятки. Например, в начале прячущиеся агенты научились блокировать проходы большими блоками, однако через некоторое время ищущие агенты научились использовать блоки-лестицы для преодоления стен, после чего первые стали блокировать и лестницы, рассказывают авторы в блоге, а также в статье.
Сегодня поговорим именно про этих передовиков в сфере разработки искусственного интеллекта — компанию OpenAI. Она создавалась как некоммерческая организация, которая должна была работать на благо общества в сфере создания и обуздания искусственного интеллекта. По крайней мере такие смыслы закладывали в нее Илон Маск и другие сооснователи в 2015 году.
Сперва жертвы беспорядочно бились о стены. Потом панически убегали от врагов. Затем научились блокировать проходы с помощью коробок. А когда враги начали использовать пандус, чтобы перепрыгивать через стены, жертвы смекнули, что этот пандус можно спрятать и почти гарантированно победить. Вот только после этого ИИ научился мухлевать, не нарушая правила, но используя недочеты в их логике.
Спортзал для ИИ
Все упомянутое выше — это скорее игрушки, забавный аттракцион, который демонстрирует возможности машинного обучения в ярких красках. Основной продукт OpenAI — это GPT3, алгоритм обработки естественного языка третьего поколения. Он умеет создавать тексты, практически неотличимые от того, что пишет человек.
Например, есть простенькая задача по посадке лунного модуля между двумя флажками на игровом поле. У модуля основной двигатель и два боковых. Используя эти двигатели, ИИ должен аккуратно приземлиться между флажками, за что получит максимальное количество очков. Крушение отнимает сотню очков, работа каждого двигателя отнимает по 0,3 очка за каждый игровой кадр.
В результате долгого процесса обучения ИИ-агенты освоили шесть уникальных стратегий, каждая из которых помогала им переходить к следующему этапу игры. Вначале команды ищущих и прячущихся просто убегали и преследовали друг друга, но после примерно 25 миллионов матчей команда прячущихся научились блокировать проходы коробками и строить из них укрытия. После ещё 75 миллионов матчей команда ищущих обнаружила способы использовать пандусы, чтобы проникать в эти укрытия. Спустя ещё 10 миллионов раундов прячущиеся научились оттаскивать пандусы к краю игровой площадки и фиксировать их на месте, чтобы не позволить противникам использовать их.
Самое удивительное, что в ходе этих бесчисленных миллионов попыток искусственный интеллект обнаруживает уязвимости в логике своего мира, незадокументированные самими разработчиками механики, которые позволяют тем, кто прячется, или тем, кто ищет, добиваться победы. Синие в какой-то момент обнаружили, что контакт пандуса со стеной под определенным углом приводит к его вылету за пределы арены. Похожую уязвимость используют красные, когда обнаруживают, что удар пандусом о стену заставляет их взлететь и поймать взглядом синих. Это победная стратегия. Ее повторение с победным результатом приводит к закреплению.
Тем не менее это не помешало OpenAI лицензировать GPT3 эксклюзивно для Microsoft. IT-гигант получил доступ к исходному коду технологии, тогда как все остальные довольствуются работой с GPT3 через API (программную прокладку) и только после одобрения со стороны разработчиков.
Исследователи отметили, что укрывающиеся агенты научились еще более впечатляющему навыку. В случае, когда блоки располагались далеко, для достижения общей цели они стали по дороге подтягивать блок ближе к напарнику, после чего принимались за основную цель. Авторы отмечают, что в некоторых случаях агенты удивляли их, используя стратегии поведения, о которых разработчики не знали. Например, после блокировки лестниц укрывающейся командой ловцы научились придвигать к ним блоки, взбираться по заблокированной лестнице, а затем двигаться верхом на блоке к нужному месту.
Поиграться с тренировкой искусственного интеллекта можно и самому. OpenAI создала набор инструментов Gym для разработки и сравнения алгоритмов обучения с подкреплением. Набор позволяет обучать агентов всему — от посадки того самого лунного модуля до игры в «Космических захватчиков». Конечно, для этого нужны определенные знания в написании алгоритмов и языке программирования Python. Но кто знает, может, именно этот спортзал искусственного интеллекта и сподвигнет вас к освоению таких навыков.
В результате в трёх из пяти заданий боты, прошедшие предварительную подготовку в игре, обучались быстрее и показали лучший результат, чем ИИ, который обучался решению задач с нуля. Они немного лучше справились с выполнением задачи и возвратом на начальную позицию, последовательной блокировкой ящиков в закрытых комнатах и с размещением ящиков на заданных площадках, но показали немного более слабый результат при осознании количества объектов и созданию укрытия вокруг другого объекта.
«Имитатор-3»
Учёные использовали уже давно завоевавший свою славу метод машинного обучения с подкреплением , в котором искусственный интеллект помещается в неизвестную ему среду, имея при этом определённые способы взаимодействия с ней, а также систему наград и штрафов за тот или иной результат своих действий. Данный метод достаточно эффективен благодаря возможностям ИИ выполнять различные действия в виртуальной среде с огромной скоростью, в миллионы раз быстрее, чем может представить человек. Это позволяет методом проб и ошибок найти наиболее эффективные стратегии для решения поставленной задачи. Но у данного подхода также есть некоторые ограничения, например, создание среды и проведение многочисленных циклов обучения требует огромных вычислительных ресурсов, а сам процесс нуждается в точной системе сопоставления результатов действий ИИ с поставленной ему целью. Кроме того, приобретенные агентом таким образом навыки ограничены описанной задачей и, как только ИИ научится с нею справляться, никаких улучшений большей уже не будет.
Например, в 2017 году OpenAI потратила на облачные вычисления почти $8 млн — четверть от всех своих расходов, тогда как другая известная ИИ-лаборатория — DeepMind, за которой стоит Google, — в том же году позволила себе расходы в размере $440 млн. Переход на коммерческие рельсы позволит привлекать инвестиции в погоне за созданием настоящего искусственного интеллекта. Все, что пока есть у человечества, — это так называемые слабые ИИ, которые способны решать ограниченный круг задач.
Есть комната, две двери, пара ящиков и пандус. Первые два с половиной миллиона игр проходят в беспорядочной беготне по арене. К восьмому миллиону повторений команда синих обнаруживает способность двигать ящики и перекрывать ими проходы в комнату, пока красные в состоянии стазиса дают им фору. Еще около семи миллионов игр уходит на то, чтобы красные подобрали ключик к взлому комнаты. Они научились двигать пандус, чтобы с его помощью перепрыгивать через стену.
Обычно при обучении нейросетевых алгоритмов используется метод обучения с учителем. Например, чтобы обучить алгоритм распознавать котов на фотографиях, легче всего предоставить ему множество фотографий, на которых будут размечены коты и другие объекты. Таким образом, обучаемый алгоритм в явном виде получает примеры работы. Однако есть и совершенно другой подход, называемый обучением с подкреплением. Он подразумевает, что алгоритм получает лишь абстрактную награду или штраф от среды обучения.
Тот самый GPT3 — это слабый ИИ. Название, возможно, выглядит уничижительно, но GPT3 умеет генерировать текст, который сложно отличить от написанного человеком. С ним можно пообщаться на какие-то рядовые темы, его проза и даже поэзия могут быть одновременно удивительными и устрашающими. Все-таки это пугающая демонстрация того, как программа движется по пути познания человеческой речи.
Да, все верно. Речь про искусственный интеллект, который играет в прятки: красные ищут, синие прячутся. И так миллионы, десятки миллионов и сотни миллионов попыток, в ходе которых ИИ ошибается, обучается и находит неожиданные решения, способные удивить даже самих разработчиков из OpenAI.