Как сделать робот с искусственным интеллектом

0
16

ChatGPT, RT-1, PaLM-E и другие нейросети, которые приближают восстание машин

Как ChatGPT помогает роботам программировать себя

В результате ChatGPT смог управлять перемещениями робота в режиме реального времени, а также поймать баскетбольный мяч. Хотя нейросеть GPT-3.5, находящаяся в ChatGPT, никогда не воспринимала ничего, кроме текстов, она каким-то образом смогла сформировать по рассказам, генерируемым YOLO, верные пространственные представления.

В одном из тестовых примеров исследователь попросил робота принести ему газировку. Когда машина обнаружила банку колы и попыталась схватить её, человек незаметно убрал напиток со стола. Робот в недоумении пообщался сам с собой и с человеком, задав уточняющие вопросы, оценил изменившуюся обстановку и скорректировал план действий. В результате механический помощник нашёл другую банку с напитком и подал её.

«Мы должны спросить себя: нужно ли автоматизировать все рабочие места? Должны ли мы развивать устройства с ИИ, которые в конечном итоге могут превзойти нас численностью, перехитрить и заменить? Стоит ли так рисковать нашей цивилизации? Подобные решения не должны делегироваться техническим лидерам, которых никто не избирал. Мощные системы ИИ следует разрабатывать только после того, как мы будем уверены, что их эффект будет положительным, а риски — управляемыми».

Несмотря на огромный объём тренировочного датасета, специалисты Google сочли, что RT-1 для самосовершенствования требуется намного больше информации. Поэтому, учёные решили добавить в набор данных ещё 209 тысяч примеров, собранных с робота другого типа — механического манипулятора KUKA.

Современные модели, подобные DALL-E 2 или Stable Diffusion, могут не только генерировать новые изображения с нуля, но и менять фрагменты уже существующих. Например, «дорисовывать» объекты, менять размер, тип или цвет предметов и так далее. Такие синтетические дополнения к изображениям учёные называют «галлюцинациями» ИИ.

Большие языковые модели, в том числе и PaLM, выглядят по-настоящему умными и могут описать процесс выполнения практически любой задачи. Но их знания носят чисто теоретический характер — языковые нейросети не привязаны к физическому телу и не могут ничего сделать с предметами реального мира. По крайней мере, раньше не могли.

ЧИТАТЬ ТАКЖЕ:  Как улучшить текстуры с помощью нейросети

Роботы учатся на фейковых видео и обретают внутренний голос

Новый метод, основанный на визуальных «галлюцинациях», получил имя ROSIE (от Scaling Robot Learning with Semantically Imagined Experience) в честь робота «Рози» из мультфильма «Джетсоны». Статья с его описанием была опубликована в феврале 2023 года.

Размер RT-1 скромный — всего 35 миллионов параметров. Она получает на вход изображение с камеры и описание элементарного действия на естественном языке (например, «поднять предмет»), в ответ на эти данные сеть выводит управляющие команды для механизмов робота (как электромоторы должны поворачивать шарниры в манипуляторе).

Отдаленно эта технология схожа с принятием решений, но мы выделили ее отдельным пунктом. Причина — потенциал широкого применения именно рекомендательных систем в сервисной робототехнике. Речь идет о предложении товаров и услуг, таргетированной рекламе, подборке кинофильмов и музыки. Применительно же к роботам технология может привести к распространению роботов-официантов или продавцов-консультантов.

Коммуникация с человеком невозможна без понимания его языка. Специалисты в области ИИ разбирают по частям отдельные морфемы, даже эмоциональный окрас слов в тексте, зашивая это в программу. Роботы нуждаются в таких технологиях, для них это как диалоговое окно с человеком, причем речь идет не просто о понимании, но и об ответной реакции и обучении новым понятиям.

«Мы с удивлением обнаружили, что „Внутренний монолог“, получив информацию об изменении окружающей обстановки, рассуждает и действует вполне разумно, выходя далеко за рамки изначальных текстовых запросов… Вместо того чтобы бездумно выполнять инструкции человека, он пытается самостоятельно решить проблему, предлагая альтернативные цели, к которым можно следовать, когда предыдущая становится невыполнимой».

Чтобы исправить подобный «недуг», исследователи из Microsoft расположили между камерой робота и ChatGPT дополнительную нейросеть YOLO , играющую роль поводыря. Она, вместе с другими датчиками, способна распознавать предметы, определять расстояние до них и переводить эту информацию в текст. Полученное таким образом описание внешнего мира подавалось в ИИ ChatGPT.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь