Как научить нейросеть играть в игры

0
20

Нейросети в игровой индустрии

Как нейронные сети применяются в играх сейчас

В итоге AlphaZero выработала необычные, но очень эффективные приёмы, которые отличаются от манеры игры и принятой стратегии людей. Она часто использует неочевидные ходы — например, жертвует слоном или перемещает ферзя в угол доски «без видимых причин». И всё это для того, чтобы получить позиционное преимущество.

На старте программисты загрузили в AlphaZero только правила игры. В итоге программа училась с чистого листа (лат. tabula rasa), никогда не видела ни одной проведённой людьми игры и не получала никаких справочных сведений о том, как обычно гроссмейстеры начинают, ведут и заканчивают партии.

Для тренировки нейросети использовался метод обучения с подкреплением (reinforcement learning, RL). Сеть обучалась полностью самостоятельно, проводя тысячи партий против самой себя (потребовалось более 700 тысяч игр) и получая «вознаграждения» за действия, приводящие к выигрышу. Таким образом AlphaZero училась на собственных ошибках, корректируя параметры нейронной сети, чтобы принимать верные решения в последующих играх.

Как правило, организаторы соревнований выводят на большой экран изображения с мониторов гроссмейстеров, подключённых к шахматным компьютерам. Зрители в режиме реального времени могут видеть процесс взаимодействия игроков с ИИ, как профессионалы просчитывают вместе с компьютером различные варианты продолжения партии и выбирают из них лучшие. Таким образом, аудитория получает наглядное представление о ходе мыслительных процессов сильнейших шахматных игроков.

В виртуальных баталиях приняли участие лучшие игроки России — Илья Шикшин
(7-й дан EGF и 4-й профессиональный дан) и Александр Динерштейн (7-й и 3-й дан соответственно). Игроки использовали интерфейс, разработанный командой «Чёрное и белое» из МГТУ имени Баумана. Они сыграли в формате «цифровых кентавров» против искусственного интеллекта, созданного на базе нейронной сети Leela Zero, и победили его.

Но при этом AlphaZero играет намного эффективнее за счёт того, что сосредотачивает свои усилия на просмотре наиболее перспективных направлений, которые она способна определять благодаря лучшему пониманию игровой ситуации. Некоторые авторы называют эту способность нейронных сетей «цифровой интуицией».

ЧИТАТЬ ТАКЖЕ:  Мемы которые делает нейросеть

Определение искусственного интеллекта

В декабре 2017 года они опубликовали материал (препринт научной статьи), в котором рассказали об AlphaZero — дальнейшем развитии идей AlphaGo. В отличие от своей предшественницы, освоившей только игру в го, AlphaZero могла дополнительно прокачиваться в шахматах и сёги.

«Один из способов сделать это — применить наши наработки в задачах, в которых врачи-люди ставят диагнозы на основе медицинских снимков. Программа способна помочь выявить изображения, по которым прогнозируется высокая вероятность совершения врачебной ошибки».

В каждом из матчей было проведено по 100 игр. AlphaZero убедительно победила всех противников, не проиграв ни одной партии в шахматах и уступив лишь восемь игр в сёги программе Elmo. А вот в го всё прошло не так гладко, хотя победа всё равно была уверенной.

Во время игры AlphaZero просчитывает намного меньшее число возможных ходов, чем аналогичные программы предыдущих поколений. Например, в шахматах она просматривает «всего» 80 тысяч позиций в секунду, в то время как её конкурент Stockfish за то же время рассчитывает 70 миллионов вариантов.

Взяв за основу Leela Chess Zero, они изменили метод, с помощью которого нейросеть постигала премудрости шахмат. Вместо обучения с подкреплением, во время которого программа тренировалась, играя против самой себя, они применили метод обучения с учителем, позволив нейронной сети наблюдать за множеством игр, проведённых людьми в интернете.

Как выяснилось, «человечность» во многом определяется тем, какие ошибки обычно совершает игрок. Шахматисты с низким уровнем игры допускают больше глупых просчётов определённого вида (так называемых «зевков»), чем их более продвинутые коллеги. Таким образом, задача обучения Maia свелась к тому, чтобы научить её предсказывать и совершать ошибки, характерные для людей с разным уровнем квалификации.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь