Содержание статьи
Как компьютер научился обыгрывать человека в го и StarCraft
Как нейросети учатся играть и становятся лучше
В каждом из матчей было проведено по 100 игр. AlphaZero убедительно победила всех противников, не проиграв ни одной партии в шахматах и уступив лишь восемь игр в сёги программе Elmo. А вот в го всё прошло не так гладко, хотя победа всё равно была уверенной.
Компьютерные системы для совместной работы человека и искусственного интеллекта разработали школьники и студенты — победители хакатона «Игры разумов». На матч во Владивосток приехали восемь таких команд — разработчиков «кентавров» со всей России, которые привезли свои версии человеко-машинных интерфейсов для игры в го.
В шахматах мы видим всю доску: и чёрных, и белых. От нас невозможно скрыть, что происходит на другой стороне. В StarCraft почти всю карту скрывает «туман войны», и игрок не видит, что делает его оппонент. Большая часть игры в этом и заключается — нужно шпионить за своим соперником: смотреть, какие здания он строит, какой армией на нас пойдёт. От этого будет зависеть стратегия, которая приведёт к победе.
В виртуальных баталиях приняли участие лучшие игроки России — Илья Шикшин
(7-й дан EGF и 4-й профессиональный дан) и Александр Динерштейн (7-й и 3-й дан соответственно). Игроки использовали интерфейс, разработанный командой «Чёрное и белое» из МГТУ имени Баумана. Они сыграли в формате «цифровых кентавров» против искусственного интеллекта, созданного на базе нейронной сети Leela Zero, и победили его.
Чтобы проверить уровень игры AlphaZero, программисты DeepMind устроили турнир, заставив сражаться свою нейросеть против компьютерных программ, считавшихся до того лучшими в своём роде. Результаты соревнования показали уверенное превосходство AlphaZero над всеми конкурентами.
Первый шахматный матч, в котором игроки пользовались подсказками компьютеров, был проведён в 1998 году — между Веселином Топаловым и Гарри Каспаровым, которым помогали программы ChessBase 7.0 и Fritz 5. Этот матч способствовал появлению новой разновидности шахмат под названием advanced chess («продвинутые шахматы»), в которой игроки могут обращаться за помощью к ИИ.
Что такое го?
Специалисты DeepMind взяли три копии AlphaZero, запустили их на разных компьютерах и заставили обучаться каждую из них одной из трёх выбранных игр. На освоение сёги нейросеть затратила 12 часов, а на шахматы ушло и того меньше — всего лишь 9 часов. Таким образом, на изучение трёх сложнейших игр программе потребовалось менее суток.
В декабре 2017 года они опубликовали материал (препринт научной статьи), в котором рассказали об AlphaZero — дальнейшем развитии идей AlphaGo. В отличие от своей предшественницы, освоившей только игру в го, AlphaZero могла дополнительно прокачиваться в шахматах и сёги.
У нас есть белок, развёрнутый линейно. Представьте себе, что мы его отпускаем, и он сворачивается по своим законам. Например, потому, что какие-то молекулы любят друг с другом соединяться. Отсюда есть более и менее вероятные состояния белка. В одномерной структуре надо предсказать 3D-структуру, когда белок уже свернётся.
Для тренировки нейросети использовался метод обучения с подкреплением (reinforcement learning, RL). Сеть обучалась полностью самостоятельно, проводя тысячи партий против самой себя (потребовалось более 700 тысяч игр) и получая «вознаграждения» за действия, приводящие к выигрышу. Таким образом AlphaZero училась на собственных ошибках, корректируя параметры нейронной сети, чтобы принимать верные решения в последующих играх.
Системы, подобные шахматным «кентаврам», позволят усилить потенциал естественного и искусственного интеллектов в разных областях нашей жизни. Но при этом человек всё равно останется человеком — будет сам принимать решения и нести за них ответственность, пусть они и были основаны на подсказках, полученных от нейросетей.
Кстати, цифровые кентавры используются не только в шахматах. Например, в 2021 году российские программисты впервые в мире смогли продемонстрировать эффективную систему «человек + ИИ» для игры в го. В рамках 41-го чемпионата мира по го цифровые кентавры провели матч из 70 игр — соревновались как между собой, так и с чистым ИИ.
Что такое StarCraft?
Игры — удобный полигон для оттачивания наших методов. В отличие от реальной жизни игру можно масштабировать и ускорить. Например, нам ничего не мешает запустить сразу миллион StarCraft и ускорить игру. Так мы получим большое количество опыта, на котором можем обучиться.
Наблюдая за успехами компьютерных программ, гроссмейстеры задумались, как сделать их своими помощниками, а не противниками. И сочетание стратегического мышления, присущего человеческому разуму, с аналитическим превосходством компьютеров открывает весьма заманчивые перспективы.
Таким образом, Maia можно дообучить на играх того же Магнуса Карлсена или кого-то из мастеров прошлого (например, Анатолия Карпова или Михаила Таля) и получить идеального спарринг-партнёра, имитирующего с высокой долей точности игру (и ошибки) нужного гроссмейстера. Мало кто откажется от возможности попрактиковаться в виртуальных баталиях против шахматных гениев прошлого и настоящего.
Взяв за основу Leela Chess Zero, они изменили метод, с помощью которого нейросеть постигала премудрости шахмат. Вместо обучения с подкреплением, во время которого программа тренировалась, играя против самой себя, они применили метод обучения с учителем, позволив нейронной сети наблюдать за множеством игр, проведённых людьми в интернете.
Maia оказалась способна предсказывать также и промахи в игре. Даже самые неожиданные «зевки» и нелепые ходы, которые иногда совершают игроки. Такая невероятная способность к «предчувствию» того, как и когда люди могут ошибаться, делает Maia очень полезным инструментом для обучения шахматистов.
Шмид говорит, что SoG начинается как «проект» того, как изучать игры, а затем будет совершенствоваться через практику. Затем эту стартовую модель можно будет использовать в различных играх и учить ее играть против другой своей версии, изучая новые стратегии и постепенно становясь более способной. Но если предыдущая модель AlphaZero от «DeepMind» могла адаптироваться к играм с точными знаниями, то SoG может адаптироваться как к играм с точными, так и с неточными знаниями, что делает ее гораздо более универсальной.