В 2015 году искусственный интеллект google deepmind ai обучил себя чему

0
72

Гонка за искусственным интеллектом

2017

Более совершенная версия AlphaGo Zero состоит из одной нейронной сети. Ей объяснили, что представляет собой главный атрибут игры – доска. Все остальное, включая правила, она выучила самостоятельно. Не обучаясь на партиях, сыгранных людьми, AlphaGo Zero обучалась на собственных. Она начинала с бессмысленных ходов, но после 4,9 млн партий выучила игру так, что сумела всухую обыграть оригинальный AlphaGo.

Го — одна из древнейших настольных игр. Вплоть до недавнего времени считалось, что компьютер не способен играть на равных с профессиональным игроком из-за высокого уровня абстракции и невозможности перебора всех доступных вариантов развития событий — точно число допустимых комбинаций в игре на стандартном гобане больше, чем число атомов в наблюдаемой Вселенной.

В рамках фестиваля го, который пройдет с 23 по 27 мая в китайском городе Вужень (провинция Чжэцзян), планируется провести матч из трех игр AlphaGo против Кэ Цзе. Также организаторы фестиваля планируют использовать ИИ и в других форматах игр — в частности, профессиональным игрокам предложат сыграть друг против друга, но у каждого игрока в команде будет свой компьютерный напарник. Кроме того, предполагается провести матч «AlphaGo против команды из пяти сильнейших игроков Китая» [2] .

Наиболее активно проявила себя Google, совершив 11 сделок, купив 11 компаний. В 2013 году Google приобрела стартап DNNResearch из университета Торонто, занимающийся алгоритмами глубинного обучения и нейросетями. Благодаря этой сделке, Google смогла серьезно улучшить функцию поиска изображений. В 2014 году была приобретена британская компания DeepMind Technologies за 600 миллионов долларов и программа DeepMind под названием AlphaGo смогла обыграть человека — чемпиона мира в игру «Го». В этом году была совершены сделки по приобретению стартапа Moodstock, занимающегося визуальным поиcком и бот-платформы Api.ai.

Система компьютерного самообучения получила название Deep-Q-Network (DQN). В ней используются две различные стратегии обучения. Во-первых, это глубинная нейронная сеть — система восприятия, принцип работы которой напоминает зрение животных: она делает ходы и замечает, как меняются пиксели на экране. «Q» в названии означает Q-learning: математический аналог обучения с подкреплением (или поощрением), благодаря которому люди и животные осваивают новые навыки: каждое новое эффективное действие вознаграждается. В случае DQN наградой являются очки в игре: пробуя различные действия, система запоминает те комбинации, которые приносят максимум очков.

Стартап Google Deep Mind продемонстрировал новые возможности искусственного интеллекта. Его система Deep-Q-Network смогла превзойти человека в 49 классических аркадных играх 1980-х, не имея доступа к исходному коду игр и без изучения практики игроков-людей. Об алгоритме работы системы рассказывается в журнале Nature, а коротко о новой технологии сообщил Science News.

AlphaGo победила в последней игре против Кэ Цзе и ушла из го

AlphaGo использует методы, применяемые для распознавания образов, оценки позиции и выбора наиболее выгодных ходов для данной позиции — глубинное обучение с помощью свёрточных нейронных сетей для организации двух нейронных сетей: стратегической сети (англ. policy network), которая помогает сократить число рассматриваемых ходов в каждой позиции, и оценочной сети (англ. value network), она помогает оценить позицию, не просматривая игру до конца.

В октябре 2015 года AlphaGo выиграла у Фань Хуэя (Fan Hui), трёхкратного чемпиона Европы матч из пяти партий со счётом 5—0. Это первый в истории случай, когда компьютер выиграл в го у профессионала в равной игре. Об этом было публично объявлено в январе 2016 года после публикации статьи в Nature.

Эффективность системы была далеко не очевидна: искусственный интеллект раньше всегда проигрывал человеку в играх наподобие Breakout или Space Invaders, где для получения рекордного счета необходимо искать сложные стратегии. Однако в итоге DQN обыграла живых экспертов в 60 процентах игр: она набрала на 20-30 процентов больше очков в Space Invaders и Pong, а в Breakout и Video Pinball — в 200 раз больше. Следующим этапом, по словам Хассабиса, станет трансфер знаний: перенос навыков из одной игры в другую (например, во вторую игру с летающими шариками система сможет играть быстрее, чем в первую).

ЧИТАТЬ ТАКЖЕ:  3 что такое искусственный интеллект

Согласно заявлению DeepMind, такой подход позволил избавить искусственный интеллект от ограничений человеческого разума. При этом настольными играми применение самообучаемой нейронной сети, используемой для создания AlphaGo Zero, не ограничится. В DeepMind полагают, что этот подход может быть применен для решения более широкого круга комплексных задач, которые имеют сходные свойства с игрой типа Go, вроде задач планирования, или в ситуациях, в которых необходимо предпринять ряд действий в правильной последовательности (укладка белка или сокращение потребления энергии).

В третьей игре против AlphaGo Кэ Цзе играл белыми камнями. После почти трех с половиной часов игры китайский профессионал сдался, хотя у него оставалось еще более 32 минут на обдумывание ходов. Таким образом, программа выиграла три игры из трех. Представители DeepMind на пресс-конференции после игры заявили, что это был последний матч, на котором играл ИИ, поскольку в этот раз соревновательная программа продемонстрировала «наивысший уровень игры для AlphaGo». Стоит отметить, что, вероятно, речь идет о прекращении участия AlphaGo только в соревновательных матчах и такая формулировка, скорее всего, не означает, что программа совсем перестанет играть в го.

Исследователи дали DQN порезвиться с 49 классическими аркадными играми на платформе Atari 2600. Эти игры, по мнению Хассабиса, представляют собой золотую середину с точки зрения сложности игрового процесса. DQN были предоставлены крайне ограниченные ресурсы: две недели на каждую игру и вычислительные мощности одного-единственного персонального компьютера.

2016

Сотрудники DeepMind намерены провести матч AlphaGo против Кэ Цзе, сильнейшего в мире игрока в го по данным независимого рейтинга Go Ratings. В го не существует официального чемпионата мира, поэтому невозможно стать чемпионом мира по го, однако учитывая победы игроков в разных турнирах можно с высокой точностью определить фактического сильнейшего игрока, которым на текущий момент является Кэ Цзе.

Для оценки сил программы, создатели организовали турнир между AlphaGo и лучшими свободными и коммерческими программами для игры в го (Crazy Stone, Zen, Pachi, Fuego), которые использовали метод Монте-Карло, и GnuGo, которая была лучшей свободной программой до использования метода Монте-Карло. AlphaGo выиграла 494 матча из 495.

Почти 140 частных компаний, занимающихся созданием технологий в области искусственного интеллекта были приобретены за последние 6 лет, причем более 40 поглощений состоялось только в текущем году. Корпорации-гиганты, такие как Google, IBM, Yahoo, Intel, Apple и Salesforce, соревнуются в гонке по приобретению частных компаний, занимающихся ИИ. Южнокорейская Samsung, включилась в эту гонку в октябре, приобретя стартап Viv Labs, который занимается разработкой Siri-подобного ассистента, а GE совершила две крупных сделки по поглощению компаний в ноябре месяце.

Лондонскую фирму DeepMind, специализирующуюся в области искусственного интеллекта, в 2014 году приобрел Google. По данным СМИ сумма сделки составила около 400 миллионов фунтов стерлингов. После вхождения в состав американской корпорации один из основателей стартапа Демис Хассабис (Demis Hassabis) заставил компьютер самостоятельно обучаться опыту игры — и даже открывать эффективные ходы и стратегии, о которых не знали даже люди.

В мае 2017 года сильнейший игрок в го Кэ Цзе из Китая проиграл вторую партию программе AlphaGo. Таким образом, AlphaGo обеспечила себе победу в турнире из трех партий. Кэ Цзе, отметили эксперты, следившие за матчем, «идеально» начал партию, создавая сложные для соперника комбинации по всему игровому полю. Однако AlphaGo удалось упростить игру и добиться победы.

По мнению экспертов, система DQN имеет все шансы найти применение в рекламной стратегии Google. Пиксели аркадных игр являются аналогом многочисленных данных, которые поисковик собирает об отдельных пользователях, а очки — аналогом прибыли от рекламы. Обучение с подкреплением пригодится для улучшения качества объявлений: чем чаще на них кликают, тем больше очков получает система. Тот факт, что DQN обучается, наблюдая за происходящим на экране, а не обрабатывая исходный код, говорит о том, что Google она нужна для анализа изображений и видео.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь