Содержание статьи
Гонка за искусственным интеллектом
2017
Более совершенная версия AlphaGo Zero состоит из одной нейронной сети. Ей объяснили, что представляет собой главный атрибут игры – доска. Все остальное, включая правила, она выучила самостоятельно. Не обучаясь на партиях, сыгранных людьми, AlphaGo Zero обучалась на собственных. Она начинала с бессмысленных ходов, но после 4,9 млн партий выучила игру так, что сумела всухую обыграть оригинальный AlphaGo.
Го — одна из древнейших настольных игр. Вплоть до недавнего времени считалось, что компьютер не способен играть на равных с профессиональным игроком из-за высокого уровня абстракции и невозможности перебора всех доступных вариантов развития событий — точно число допустимых комбинаций в игре на стандартном гобане больше, чем число атомов в наблюдаемой Вселенной.
В рамках фестиваля го, который пройдет с 23 по 27 мая в китайском городе Вужень (провинция Чжэцзян), планируется провести матч из трех игр AlphaGo против Кэ Цзе. Также организаторы фестиваля планируют использовать ИИ и в других форматах игр — в частности, профессиональным игрокам предложат сыграть друг против друга, но у каждого игрока в команде будет свой компьютерный напарник. Кроме того, предполагается провести матч «AlphaGo против команды из пяти сильнейших игроков Китая» [2] .
Наиболее активно проявила себя Google, совершив 11 сделок, купив 11 компаний. В 2013 году Google приобрела стартап DNNResearch из университета Торонто, занимающийся алгоритмами глубинного обучения и нейросетями. Благодаря этой сделке, Google смогла серьезно улучшить функцию поиска изображений. В 2014 году была приобретена британская компания DeepMind Technologies за 600 миллионов долларов и программа DeepMind под названием AlphaGo смогла обыграть человека — чемпиона мира в игру «Го». В этом году была совершены сделки по приобретению стартапа Moodstock, занимающегося визуальным поиcком и бот-платформы Api.ai.
Система компьютерного самообучения получила название Deep-Q-Network (DQN). В ней используются две различные стратегии обучения. Во-первых, это глубинная нейронная сеть — система восприятия, принцип работы которой напоминает зрение животных: она делает ходы и замечает, как меняются пиксели на экране. «Q» в названии означает Q-learning: математический аналог обучения с подкреплением (или поощрением), благодаря которому люди и животные осваивают новые навыки: каждое новое эффективное действие вознаграждается. В случае DQN наградой являются очки в игре: пробуя различные действия, система запоминает те комбинации, которые приносят максимум очков.
Стартап Google Deep Mind продемонстрировал новые возможности искусственного интеллекта. Его система Deep-Q-Network смогла превзойти человека в 49 классических аркадных играх 1980-х, не имея доступа к исходному коду игр и без изучения практики игроков-людей. Об алгоритме работы системы рассказывается в журнале Nature, а коротко о новой технологии сообщил Science News.
AlphaGo победила в последней игре против Кэ Цзе и ушла из го
AlphaGo использует методы, применяемые для распознавания образов, оценки позиции и выбора наиболее выгодных ходов для данной позиции — глубинное обучение с помощью свёрточных нейронных сетей для организации двух нейронных сетей: стратегической сети (англ. policy network), которая помогает сократить число рассматриваемых ходов в каждой позиции, и оценочной сети (англ. value network), она помогает оценить позицию, не просматривая игру до конца.
В октябре 2015 года AlphaGo выиграла у Фань Хуэя (Fan Hui), трёхкратного чемпиона Европы матч из пяти партий со счётом 5—0. Это первый в истории случай, когда компьютер выиграл в го у профессионала в равной игре. Об этом было публично объявлено в январе 2016 года после публикации статьи в Nature.
Эффективность системы была далеко не очевидна: искусственный интеллект раньше всегда проигрывал человеку в играх наподобие Breakout или Space Invaders, где для получения рекордного счета необходимо искать сложные стратегии. Однако в итоге DQN обыграла живых экспертов в 60 процентах игр: она набрала на 20-30 процентов больше очков в Space Invaders и Pong, а в Breakout и Video Pinball — в 200 раз больше. Следующим этапом, по словам Хассабиса, станет трансфер знаний: перенос навыков из одной игры в другую (например, во вторую игру с летающими шариками система сможет играть быстрее, чем в первую).
Согласно заявлению DeepMind, такой подход позволил избавить искусственный интеллект от ограничений человеческого разума. При этом настольными играми применение самообучаемой нейронной сети, используемой для создания AlphaGo Zero, не ограничится. В DeepMind полагают, что этот подход может быть применен для решения более широкого круга комплексных задач, которые имеют сходные свойства с игрой типа Go, вроде задач планирования, или в ситуациях, в которых необходимо предпринять ряд действий в правильной последовательности (укладка белка или сокращение потребления энергии).
В третьей игре против AlphaGo Кэ Цзе играл белыми камнями. После почти трех с половиной часов игры китайский профессионал сдался, хотя у него оставалось еще более 32 минут на обдумывание ходов. Таким образом, программа выиграла три игры из трех. Представители DeepMind на пресс-конференции после игры заявили, что это был последний матч, на котором играл ИИ, поскольку в этот раз соревновательная программа продемонстрировала «наивысший уровень игры для AlphaGo». Стоит отметить, что, вероятно, речь идет о прекращении участия AlphaGo только в соревновательных матчах и такая формулировка, скорее всего, не означает, что программа совсем перестанет играть в го.
Исследователи дали DQN порезвиться с 49 классическими аркадными играми на платформе Atari 2600. Эти игры, по мнению Хассабиса, представляют собой золотую середину с точки зрения сложности игрового процесса. DQN были предоставлены крайне ограниченные ресурсы: две недели на каждую игру и вычислительные мощности одного-единственного персонального компьютера.
2016
Сотрудники DeepMind намерены провести матч AlphaGo против Кэ Цзе, сильнейшего в мире игрока в го по данным независимого рейтинга Go Ratings. В го не существует официального чемпионата мира, поэтому невозможно стать чемпионом мира по го, однако учитывая победы игроков в разных турнирах можно с высокой точностью определить фактического сильнейшего игрока, которым на текущий момент является Кэ Цзе.
Для оценки сил программы, создатели организовали турнир между AlphaGo и лучшими свободными и коммерческими программами для игры в го (Crazy Stone, Zen, Pachi, Fuego), которые использовали метод Монте-Карло, и GnuGo, которая была лучшей свободной программой до использования метода Монте-Карло. AlphaGo выиграла 494 матча из 495.
Почти 140 частных компаний, занимающихся созданием технологий в области искусственного интеллекта были приобретены за последние 6 лет, причем более 40 поглощений состоялось только в текущем году. Корпорации-гиганты, такие как Google, IBM, Yahoo, Intel, Apple и Salesforce, соревнуются в гонке по приобретению частных компаний, занимающихся ИИ. Южнокорейская Samsung, включилась в эту гонку в октябре, приобретя стартап Viv Labs, который занимается разработкой Siri-подобного ассистента, а GE совершила две крупных сделки по поглощению компаний в ноябре месяце.
Лондонскую фирму DeepMind, специализирующуюся в области искусственного интеллекта, в 2014 году приобрел Google. По данным СМИ сумма сделки составила около 400 миллионов фунтов стерлингов. После вхождения в состав американской корпорации один из основателей стартапа Демис Хассабис (Demis Hassabis) заставил компьютер самостоятельно обучаться опыту игры — и даже открывать эффективные ходы и стратегии, о которых не знали даже люди.
В мае 2017 года сильнейший игрок в го Кэ Цзе из Китая проиграл вторую партию программе AlphaGo. Таким образом, AlphaGo обеспечила себе победу в турнире из трех партий. Кэ Цзе, отметили эксперты, следившие за матчем, «идеально» начал партию, создавая сложные для соперника комбинации по всему игровому полю. Однако AlphaGo удалось упростить игру и добиться победы.
По мнению экспертов, система DQN имеет все шансы найти применение в рекламной стратегии Google. Пиксели аркадных игр являются аналогом многочисленных данных, которые поисковик собирает об отдельных пользователях, а очки — аналогом прибыли от рекламы. Обучение с подкреплением пригодится для улучшения качества объявлений: чем чаще на них кликают, тем больше очков получает система. Тот факт, что DQN обучается, наблюдая за происходящим на экране, а не обрабатывая исходный код, говорит о том, что Google она нужна для анализа изображений и видео.