Содержание статьи
ChatGPT, RT-1, PaLM-E и другие нейросети, которые приближают восстание машин
Как ChatGPT помогает роботам программировать себя
Поскольку в основе ChatGPT лежит языковая модель, он обладает недостатком, вытекающим из её природы, — не может видеть. В предыдущих примерах чат-бот давал указания роботам, оснащённым камерами. В человеческом понимании ChatGPT напоминает слепого мудреца, дающего письменные указания зрячим работникам.
Сильного ИИ в природе пока не существует и вообще есть обоснованные сомнения в возможности его реализации. Поэтому искусственный интеллект сейчас и в ближайшем будущем — это слабый ИИ, занимающийся отдельными проблемами и задачами. Решить их помогает набор технологий.
Человеку на это требуется много времени и усилий; кроме того, приходится изучать внутреннее устройство механизма, для которого создаётся код. ChatGPT позволяет значительно упростить процесс — теперь люди могут выдавать команды на естественном языке (английский, русский и так далее), а нейросеть сама преобразует их в соответствующий код.
— захват объектов и манипуляция ими будут доведены до уровня действий человека;
— мобильность роботов, преодоление ими препятствий также сравняются по возможностям с человеческими умениями;
— разговор с роботом будет неотличим от разговора с человеком;
— затраты и время на программирование роботов будут сокращаться, что сделает их самих дешевле, а внедрение автоматизации — шире.
Для разных типов действий учёные провели оценку 243 примеров, дополненных «галлюцинациями» ИИ. Метод ROSIE оказался способен значительно улучшить обобщение модели на новые задачи, а также её устойчивость к отвлекающим факторам. ROSIE превзошёл исходный вариант обучения RT-1 в некоторых особо сложных задачах сразу на 75%.
Чтобы обучить нейросеть, исследователям потребовалось собрать огромное количество тренировочных данных — более 130 тысяч аннотированных видеороликов. На них было запечатлено, как робот многократно выполнял 700 типовых задач в лаборатории, имитирующей обстановку на обычной кухне.
Трансформеры и визуальные «галлюцинации»
Самый продолжительный цикл включал в себя 16 последовательных шагов, спланированных и выполненных ИИ. С PaLM-SayCan роботы научились выбирать правильную последовательность действий в 84% случаев и корректно её выполнять в 74%. В Google также отметили, что роботы стали на 26% лучше планировать задачи, состоящие из восьми и более шагов.
По-другому эту технологию можно назвать автоматизацией процессов, когда они проходят без участия человека. Поскольку опять же мы говорим о слабом ИИ, заточенном под решение отдельных задач, технологии принятия решений являются едва ли не самыми понятными по своему назначению.
«Мы с удивлением обнаружили, что „Внутренний монолог“, получив информацию об изменении окружающей обстановки, рассуждает и действует вполне разумно, выходя далеко за рамки изначальных текстовых запросов… Вместо того чтобы бездумно выполнять инструкции человека, он пытается самостоятельно решить проблему, предлагая альтернативные цели, к которым можно следовать, когда предыдущая становится невыполнимой».
Учёные из Google Brain, Калифорнийского университета в Беркли, MIT и Альбертского университета предложили метод, позволяющий полностью избавиться от сбора реальных данных для обучения роботов. Действительно, почему бы не сгенерировать все тренировочные видеоролики с помощью ИИ?
В результате получается новая пара из текстовой инструкции и модифицированного видеоролика, которая используется для дальнейшего обучения RT-1 выполнению новых задач. Например, если на оригинальном видео робот протирал стол синей губкой, то ROSIE может изменить её цвет на красный или даже нарисовать на месте губки фейковое изображение тряпки.
К удивлению исследователей, результаты показали, что RT-1 оказался способен приобретать новые навыки, даже наблюдая за опытом других роботов. Например, после добавления KUKA-данных робот под управлением RT-1 почти вдвое повысил эффективность решения задачи по выбрасыванию мусора в ведро, которая раньше давалась ему с большим трудом.