Содержание статьи
Искусственный интеллект в робототехнике. Умные роботы для умных решений
Роботы учатся на фейковых видео и обретают внутренний голос
Авторы различают три вида внутренних разговоров, происходящих в рамках Inner Monologue: пассивное описание обстановки, активное описание обстановки и обнаружение успеха. Пассивное описание даёт ИИ выраженное словами представление, например, о результатах распознавания объектов. Робот как бы говорит сам себе: «Вот я вижу перед собой стол, на нём лежат яблоко, шоколадка и пакетик чипсов».
В результате получается новая пара из текстовой инструкции и модифицированного видеоролика, которая используется для дальнейшего обучения RT-1 выполнению новых задач. Например, если на оригинальном видео робот протирал стол синей губкой, то ROSIE может изменить её цвет на красный или даже нарисовать на месте губки фейковое изображение тряпки.
Когда он был готов, собранные данные «скормили» RT-1. Последующие тесты показали, что таким образом робот обучился верно выполнять 97% из более чем 700 задач. Это на 25% больше, чем у лучшего алгоритма, применявшегося ранее. За счёт возможности обобщения нейросеть RT-1 оказалась способна выполнять даже те действия, примеры которых отсутствовали в обучающих данных. Показатель эффективности на таких задачах достиг 76%.
Методика начала развиваться в 1960-х годах, с Лоуренсом Робертсом, который в 1963 году написал диссертацию о распознавании объектов на основе 3D-моделей. Современные достижения в машинном обучении и вычислительной технике способствовали эволюции этой технологии.
В реализации ROSIE задействованы три нейросети. Модель OWL-ViT осуществляет сегментацию изображения и выделение фрагментов, подлежащих изменению с помощью ИИ. Для генерации и обработки текстовых подсказок, определяющих, что и как следует «дорисовать», учёные применили языковую модель GPT-3. Для непосредственного создания фейковых изображений по текстовым описаниям использовалась генеративная модель Imagen.
Размер RT-1 скромный — всего 35 миллионов параметров. Она получает на вход изображение с камеры и описание элементарного действия на естественном языке (например, «поднять предмет»), в ответ на эти данные сеть выводит управляющие команды для механизмов робота (как электромоторы должны поворачивать шарниры в манипуляторе).
К удивлению исследователей, результаты показали, что RT-1 оказался способен приобретать новые навыки, даже наблюдая за опытом других роботов. Например, после добавления KUKA-данных робот под управлением RT-1 почти вдвое повысил эффективность решения задачи по выбрасыванию мусора в ведро, которая раньше давалась ему с большим трудом.
Истоки разработки стратегий восходят к теории автоматического управления, заложенной в 1950-х годах учёными Норбертом Винером и Джоном фон Нейманом. Винер, введя термин «кибернетика», заложил основу для создания первых программ по планированию действий роботов.
Промышленное производство
Поскольку в основе ChatGPT лежит языковая модель, он обладает недостатком, вытекающим из её природы, — не может видеть. В предыдущих примерах чат-бот давал указания роботам, оснащённым камерами. В человеческом понимании ChatGPT напоминает слепого мудреца, дающего письменные указания зрячим работникам.
Получив задание «Я пролил колу, можешь принести мне что-нибудь, чтобы убрать?», PaLM-SayCan спланировал и выполнил шаги: 1. Найти губку. 2. Взять губку. 3. Принести её. 4. Готово. Варианты, которые ИИ исследовал на каждом этапе, выделены цветом: оценка языка (синий), оценка доступности (красный) и их комбинация (зелёный)
Изображение: say-can.github.io (перевод Skillbox Media)
Инженеры придумали способ, обеспечивающий нейросети PaLM понимание контекста и окружающей робота обстановки. Дело в том, что языковая модель-всезнайка может (и обязательно будет) генерировать планы действий, которые механический помощник физически не сможет воплотить в жизнь. Например, посоветовать роботу использовать для уборки пылесос, которого нет в доме.
За последние годы такие компании, как Boston Dynamics и исследовательские институты, включая MIT и Стэнфорд, внесли ощутимый вклад в развитие технологий планирования, создавая передовые алгоритмы для выполнения сложных задач с минимальным вмешательством человека.
Хотя первые шаги в ML сделаны ещё в середине XX века, истинный прорыв произошёл в последние два десятилетия благодаря увеличению вычислительных мощностей и объёмов данных. Сегодня технологические гиганты, как Google, IBM и Microsoft, наступательно развивают эту технологию, внедряя эти методики во всевозможные отрасли.
«Мы, люди, учимся не только на своём личном опыте, но также подсматриваем что-то друг у друга. Мы часто делимся с окружающими тем, что узнали, и меняем свои модели поведения на основе новых данных. Хотя наши роботы не общаются друг с другом, это исследование показывает, что мы можем успешно комбинировать наборы данных от разных типов роботов и передавать знания между ними, подобно тому, как это делают люди между собой».