Содержание статьи
Инопланетяне, кентавры и человеческие ошибки: как нейросети играют с людьми
Вот оно, обучение!
Бот для Марио (самый подробный отчет, много не озвучено читай текст с экрана)
https://youtu.be/CI3FRsSAa_U
Спойлер — не работает, на последнем уровне есть уникальный двойной прыжок которого нет на прошлых уровнях, и так как обучение происходит на реальной игре и поколение уже слишком далекие (12 миллионов) то нужно как минимум в 10 раз больше поколений провести чтоб этот прыжок «запомнился»(чтоб успешный прыжок оказал влияние на текущую конфигурацию нейросети) (и автор не захотел продолжать так как пол года уже этим занимался)
Много видео про ИИ/Нейросети/Машинное обучение на Ютубе сделаны чтоб «продаться спонсорам», где тоже все притянуто за уши и работает «только в этом конкретном случае» и сделав шаг в сторону все сломается.
Очень большой хайп раздули, и мыльный пузырь начал схлопываться так как на практике применимо очень мало из того что показано на презентациях докладах и демках.
Чтобы исправить эту несправедливость, группа энтузиастов в 2018 году создала аналог AlphaZero, во многом повторяющий принципы работы этой программы, изложенные в научных статьях. Разработанный ими бесплатный шахматный движок с открытым исходным кодом был назван Leela Chess Zero.
«Один из способов сделать это — применить наши наработки в задачах, в которых врачи-люди ставят диагнозы на основе медицинских снимков. Программа способна помочь выявить изображения, по которым прогнозируется высокая вероятность совершения врачебной ошибки».
Человеческое мышление осуществляет общее руководство ходом партии на высоком уровне абстракции, определяет рисунок и стратегию игры. А нейросети или другие компьютерные модели, в свою очередь, могут проводить сложные расчёты, выдавать подсказки и предотвращать присущие людям ошибки.
Как выяснилось, «человечность» во многом определяется тем, какие ошибки обычно совершает игрок. Шахматисты с низким уровнем игры допускают больше глупых просчётов определённого вида (так называемых «зевков»), чем их более продвинутые коллеги. Таким образом, задача обучения Maia свелась к тому, чтобы научить её предсказывать и совершать ошибки, характерные для людей с разным уровнем квалификации.
«Обыграть искусственный интеллект в го почти невозможно, поэтому сегодня произошло интересное событие. Пары человека и искусственного интеллекта, играющие за одну сторону — „цифровые кентавры“ — впервые выступили против искусственного интеллекта и обыграли его. Мы увидели, что человек с его интуицией и искусственный интеллект, машина с её невероятными мощностями вместе потенциально могут быть сильнее».
Чтобы проверить уровень игры AlphaZero, программисты DeepMind устроили турнир, заставив сражаться свою нейросеть против компьютерных программ, считавшихся до того лучшими в своём роде. Результаты соревнования показали уверенное превосходство AlphaZero над всеми конкурентами.
Ошибаться тоже надо уметь
Специалисты DeepMind взяли три копии AlphaZero, запустили их на разных компьютерах и заставили обучаться каждую из них одной из трёх выбранных игр. На освоение сёги нейросеть затратила 12 часов, а на шахматы ушло и того меньше — всего лишь 9 часов. Таким образом, на изучение трёх сложнейших игр программе потребовалось менее суток.
После триумфальной победы программы AlphaGo над величайшим игроком в го Ли Седолем её создатели из DeepMind продолжили совершенствовать своё творение. Они задались целью создать универсальную нейронную сеть, которая могла бы играть сразу в несколько настолок — это стало бы очередным шагом к созданию ИИ, подобного человеческому мозгу.
Самые популярные видео на ютубе про «нейросети и ИИ» очень часто «ложные» подделки и/или используют «спец условиями».
Как ты сам заметил — в Юнити «не Детерминированная физика» поэтом результат последовательности одних и техже вводов ВСЕГДА будет вести в уникалькому результату, что может оказать влияние на то что нейросеть сделает 100 поднятий с интервалом такимто и в 50 случаях нейросеть «разобьется» на половине пути из за «FLOAT физики».
Для тренировки нейросети использовался метод обучения с подкреплением (reinforcement learning, RL). Сеть обучалась полностью самостоятельно, проводя тысячи партий против самой себя (потребовалось более 700 тысяч игр) и получая «вознаграждения» за действия, приводящие к выигрышу. Таким образом AlphaZero училась на собственных ошибках, корректируя параметры нейронной сети, чтобы принимать верные решения в последующих играх.
Любители шахмат из России могли увидеть одно из таких соревнований в 2007 году. Тогда в выставочном зале ГУМа в Москве в «продвинутые шахматы» играли чемпион мира Вишванатан Ананд и экс-чемпион Владимир Крамник. Кстати, наблюдать за играми advanced chess намного интереснее, чем за матчами по обычным шахматам.
Таким образом, Maia можно дообучить на играх того же Магнуса Карлсена или кого-то из мастеров прошлого (например, Анатолия Карпова или Михаила Таля) и получить идеального спарринг-партнёра, имитирующего с высокой долей точности игру (и ошибки) нужного гроссмейстера. Мало кто откажется от возможности попрактиковаться в виртуальных баталиях против шахматных гениев прошлого и настоящего.
Кентавры вступают в игру
В итоге AlphaZero выработала необычные, но очень эффективные приёмы, которые отличаются от манеры игры и принятой стратегии людей. Она часто использует неочевидные ходы — например, жертвует слоном или перемещает ферзя в угол доски «без видимых причин». И всё это для того, чтобы получить позиционное преимущество.
В декабре 2017 года они опубликовали материал (препринт научной статьи), в котором рассказали об AlphaZero — дальнейшем развитии идей AlphaGo. В отличие от своей предшественницы, освоившей только игру в го, AlphaZero могла дополнительно прокачиваться в шахматах и сёги.
Бот для Трекмании https://youtu.be/iZIPowqm-fo — важное уточнение в Этом видео обучение идет на TMNF и ее можно «ускорить» в бесконечное количество раз (получать результат ввода без задержек и ожидания рендера кадра), также в Трекмании
Детерминированная физика тоесть результат такого «инпута» всегда будет одинаков (физический движок работает на INT и не использует FLOAT).
И на TMNF можно ускорить время «читами» (игре 10 лет там все для этого сделано, утилиты для TAS готовые есть их можно и для ИИ обучения использовать)
На старте программисты загрузили в AlphaZero только правила игры. В итоге программа училась с чистого листа (лат. tabula rasa), никогда не видела ни одной проведённой людьми игры и не получала никаких справочных сведений о том, как обычно гроссмейстеры начинают, ведут и заканчивают партии.
Компьютерные системы для совместной работы человека и искусственного интеллекта разработали школьники и студенты — победители хакатона «Игры разумов». На матч во Владивосток приехали восемь таких команд — разработчиков «кентавров» со всей России, которые привезли свои версии человеко-машинных интерфейсов для игры в го.
Первый шахматный матч, в котором игроки пользовались подсказками компьютеров, был проведён в 1998 году — между Веселином Топаловым и Гарри Каспаровым, которым помогали программы ChessBase 7.0 и Fritz 5. Этот матч способствовал появлению новой разновидности шахмат под названием advanced chess («продвинутые шахматы»), в которой игроки могут обращаться за помощью к ИИ.