Содержание статьи
Инопланетяне, кентавры и человеческие ошибки: как нейросети играют с людьми
Интеллектуальные пророчества
«Обыграть искусственный интеллект в го почти невозможно, поэтому сегодня произошло интересное событие. Пары человека и искусственного интеллекта, играющие за одну сторону — „цифровые кентавры“ — впервые выступили против искусственного интеллекта и обыграли его. Мы увидели, что человек с его интуицией и искусственный интеллект, машина с её невероятными мощностями вместе потенциально могут быть сильнее».
Чтобы исправить эту несправедливость, группа энтузиастов в 2018 году создала аналог AlphaZero, во многом повторяющий принципы работы этой программы, изложенные в научных статьях. Разработанный ими бесплатный шахматный движок с открытым исходным кодом был назван Leela Chess Zero.
В декабре 2017 года они опубликовали материал (препринт научной статьи), в котором рассказали об AlphaZero — дальнейшем развитии идей AlphaGo. В отличие от своей предшественницы, освоившей только игру в го, AlphaZero могла дополнительно прокачиваться в шахматах и сёги.
«Один из способов сделать это — применить наши наработки в задачах, в которых врачи-люди ставят диагнозы на основе медицинских снимков. Программа способна помочь выявить изображения, по которым прогнозируется высокая вероятность совершения врачебной ошибки».
На самом деле нейросеть Maia работает поразительно эффективно, поскольку в каждый момент времени шахматист в среднем выбирает один ход из 35 возможных вариантов. Лучшие из существовавших до неё программ могли предугадать человеческие действия на шахматной доске только в 35–40% случаев.
Как правило, организаторы соревнований выводят на большой экран изображения с мониторов гроссмейстеров, подключённых к шахматным компьютерам. Зрители в режиме реального времени могут видеть процесс взаимодействия игроков с ИИ, как профессионалы просчитывают вместе с компьютером различные варианты продолжения партии и выбирают из них лучшие. Таким образом, аудитория получает наглядное представление о ходе мыслительных процессов сильнейших шахматных игроков.
Таким образом, Maia можно дообучить на играх того же Магнуса Карлсена или кого-то из мастеров прошлого (например, Анатолия Карпова или Михаила Таля) и получить идеального спарринг-партнёра, имитирующего с высокой долей точности игру (и ошибки) нужного гроссмейстера. Мало кто откажется от возможности попрактиковаться в виртуальных баталиях против шахматных гениев прошлого и настоящего.
Для тренировки нейросети использовался метод обучения с подкреплением (reinforcement learning, RL). Сеть обучалась полностью самостоятельно, проводя тысячи партий против самой себя (потребовалось более 700 тысяч игр) и получая «вознаграждения» за действия, приводящие к выигрышу. Таким образом AlphaZero училась на собственных ошибках, корректируя параметры нейронной сети, чтобы принимать верные решения в последующих играх.
Кентавры вступают в игру
В этом примере нейросети Maia с уровнем Эло 1100–1400 предсказывают, что белые сделают заманчивый, но стратегически неверный ход b6. Напротив, версии Maia с уровнем Эло 1500–1900 прогнозируют, что в той же ситуации игроки с рейтингом 1500 и выше совершат хитрый ход bxa6, вынуждая противника оголить ферзевый фланг
Инфографика: Maia Chess
Компьютерные системы для совместной работы человека и искусственного интеллекта разработали школьники и студенты — победители хакатона «Игры разумов». На матч во Владивосток приехали восемь таких команд — разработчиков «кентавров» со всей России, которые привезли свои версии человеко-машинных интерфейсов для игры в го.
Специалисты проекта Maia разделили обучающую базу шахматных партий в соответствии с рейтингом Эло игроков, между которыми проводились партии. В итоге у них получилось девять обучающих наборов игр, сгруппированных по рейтингу Эло с шагом в 100 пунктов (от 1100 до 1900).
Взяв за основу Leela Chess Zero, они изменили метод, с помощью которого нейросеть постигала премудрости шахмат. Вместо обучения с подкреплением, во время которого программа тренировалась, играя против самой себя, они применили метод обучения с учителем, позволив нейронной сети наблюдать за множеством игр, проведённых людьми в интернете.
Теория игр, описанная Нэшем и Нейманом, рассматривает привычные нам игры (не на свежем воздухе, конечно) как взаимодействие участников в рамках некоторых формальных правил. Хорошим примером формализованной игры являются крестики-нолики. Есть два игрока, которые по очереди ставят крестик или нолик в свободное поле. Условие победы четко описано: три отметки в ряд. Игра интересна тем, что в ней есть способ верной победы, или доминирующая стратегия: побеждает всегда тот, кто ходит первым, если не совершит ошибок. Это значит, что компьютер может обыграть человека в эту игру всегда, при условии, что компьютер ходит первым. Если первым ходит человек, который не совершает ошибок, он тоже всегда обыграет компьютер. Такие доминирующие стратегии можно придумать далеко не для всех игр. Например, всем известные шахматы не имеют доминирующей стратегии. Игрок должен противодействовать своему партнеру по игре, то есть должен учитывать его ходы. Все современные системы искусственного интеллекта, такие как AlphaGo Zero, так и делают.
Первый шахматный матч, в котором игроки пользовались подсказками компьютеров, был проведён в 1998 году — между Веселином Топаловым и Гарри Каспаровым, которым помогали программы ChessBase 7.0 и Fritz 5. Этот матч способствовал появлению новой разновидности шахмат под названием advanced chess («продвинутые шахматы»), в которой игроки могут обращаться за помощью к ИИ.