Как оценить искусственный интеллект

0
21

Списки8 неочевидных способов определить искусственный интеллект

Что позволяет оценить уровень искусственного интеллекта относительно человеческого?

Однако мощность и эффективность — не одно и то же. Эффективность (в общем смысле) — это способность делать что-то хорошо, успешно и с минимальными потерями. С появлением и распространением искусственного интеллекта (ИИ) встал вопрос о том, в чем измерять его «мощность» и эффективность.

По словам эксперта, в России на острие ИТ-технологий всегда был финансовый сектор, но если говорить про ИИ, то также «выстрелила» медицина, нефтегазовая отрасль, промышленность. В этих нишах очень много рутины, которую можно передать машине. На ИТ-конференциях гремят темы по применению технологий для анализа результатов МРТ-диагностики, радиограмм, компьютерных томограмм. В нефтегазовой отрасли свои задачи: анализ пород, добычи, соблюдений техники безопасности. В Госсекторе частые кейсы — это обработка обращений граждан, анализ пропускной способности дорог и многое другое.

Как и Ортиц, создатели визуального теста Тьюринга пытаются уменьшить роль языка в первоначальном тесте. Сотрудники Эксетерского университета в Англии Майкл Барклай и Энтони Галтон придумали тест, который проверяет визуальные способности машины, то есть может ли она «видеть», как человек. Тест можно посмотреть здесь.

Чат-боты, проходящие тест Тьюринга, умело обманывают судей и заставляют поверить, что они — люди. По словам Гектора Левеска, профессора информатики в Университете Торонто, такой тест лишь показывает, как легко обмануть человека, особенно в короткой текстовой переписке. Но из теста Тьюринга невозможно понять, есть ли у машины интеллект или хотя бы понимание языка.

«Порядка 15-20% компаний на рынке сами осознают потребность в применении умных технологий. Один из вариантов, когда организация уже использует многое из того, что предлагает сфера корпоративного ПО. Компания упирается в потолок цифрового развития, но продолжает стремиться к оптимизации. Тогда она переходит к следующему уровню, присматривается к искусственному интеллекту. А другая часть организаций наблюдает за конкурентами и партнерами и тоже начинает интересоваться новым инструментом. Плюс свою роль играет то, что мы постоянно рассказываем про наши продукты и решения, показываем их пользу»

Этот тест назван в честь Ады Лавлейс, математика из XIX века, которую считают первым в истории программистом. Он призван определить наличие интеллекта у машины через способность её к творчеству. Первоначально тест предложили в 2001 году: тогда машина должна была создать произведение искусства, которое разработчик машины принял бы за созданное человеком. Так как чётких критериев успеха нет, тест получается слишком неточным.

Выгоды очевидные и не очень

Умные технологии — оптическое распознавание символов, определение объектов, понимание естественного языка — уже несколько лет помогают обрабатывать корпоративный контент. Сейчас искусственный интеллект может еще больше — создавать тексты за сотрудников: генерировать служебные записки, ответы на входящую корреспонденцию, поручения, краткое содержание объемных документов. Возможности почти не ограничены, но многим пока непонятно, как считать пользу их применения.

Большие языковые модели (от англ. large language model, LLМ) — это нейронные сети, которые обучаются на миллиардах слов и фраз, чтобы захватить разнообразие и сложность человеческого языка. Эти модели могут выполнять такие задачи как перевод, генерация текста, кода, ответов на вопросы и многое другое.

В 2011 году Левеск опубликовал статью, в которой предложил новый тест, так называемую «схему Винограда», названную в честь учёного Терри Винограда. Проходя этот тест, машина отвечает на вопросы с двумя вариантами ответа. Звучит просто — и для людей эти вопросы действительно простые, — но они сформулированы так, что без естественного понимания языка машина испытывает трудности. Вот один из вопросов: «Трофей не влезал в коричневый чемодан, потому что он был слишком маленьким (большим). Что было слишком маленьким (большим)?». Если в вопросе используется слово «маленьким», то ответ — трофей, если «большим» — то чемодан. Эрнест Дэвис, коллега Левеска, работавший с ним над исследованием, опубликовал целую библиотеку вопросов, которые могут быть использованы в таком тесте. Чтобы ответить правильно, нужно обладать навыками, которые до сих пор недоступны компьютерам: например, уметь представлять пространство, отношения между людьми, размер объектов, даже нюансы политики — всё зависит от конкретных вопросов.

ЧИТАТЬ ТАКЖЕ:  Фотошоп с нейросетью какая версия

Нейросеть — это технология, которая используется для создания ИИ. Она представляет собой математическую модель, способную обучаться на данных. ИИ — более широкое понятие, включающее нейросети как один из инструментов для достижения задач, связанных с человеческим интеллектом.

В прошлом году профессор Марк Рейдел из Технологического института Джорджии обновил тест, чтобы сделать его менее субъективным. Теперь машина должна создать произведение в определённом жанре и в определённых творческих рамках, заданных человеком-судьёй. Проще говоря, это должно быть произведение искусства в конкретном стиле. Скажем, судья может попросить машину нарисовать маньеристскую картину в духе Пармиджанино или написать джазовое произведение в духе Майлза Дэвиса. В отличие от оригинального теста, машины работают в заданных рамках, и поэтому судьи могут оценивать результат более объективно.

Этот тест придумал Чарли Ортиц, менеджер по искусственному интеллекту в компании Nuance Communications. По словам Ортица, недостаток теста Тьюринга в том, что он проверяет в первую очередь языковые способности, опуская другие важные составляющие разума — восприятие и физические действия. Проще говоря, у компьютеров, проходящих тест Тьюринга, нет глаз или рук.

Известный пример — ChatGPT. Его последняя версия 4о обрабатывает не только текст, но и изображения, видео и аудио. Большие языковые модели стали основой для инновационных приложений в области ИИ и обработки человеческого языка. Так, например, компания Lingvanex предлагает инструменты машинного перевода, которые также основаны на искусственном интеллекте.

Испытание IKEA (также известное как строительное испытание), придуманное Ортицом, призвано обойти эти ограничения. Его могут пройти только роботы, способные построить физические структуры из, например, деталей мебели IKEA или даже кубиков LEGO. Робот, проходящий испытание IKEA, должен давать вербальные инструкции и описания структур, самостоятельно манипулировать деталями и физическими компонентами, следить за постройкой, отвечать на вопросы и описывать ход работы.

Испытание IKEA

Машине показывают картинку и спрашивают, например, где на ней находится чашка, — и дают несколько вариантов ответа. Все варианты ответов правильные (на столе, на подстилке, перед стулом, слева от лампы), но некоторые из них могут быть более человеческими, чем другие (скажем, из всего перечисленного человек скорее ответит «на столе»). Кажется, что это простое задание, но на самом деле способность описать, где находится объект по отношению к другим объектам — важнейший элемент человеческого разума. Здесь играют роль множество нюансов и субъективных суждений, от размера объектов до их роли в конкретной ситуации — в общем, контекст. Люди проделывают это интуитивно, а машины сталкиваются с проблемами.

Таким образом бизнес может подсчитать точность обработки документов, сэкономленные деньги на расходных материалах, штрафах и неустойках, обучении новых сотрудников, когда компания растет — искусственный интеллект помогает справиться с возросшими нагрузками прежним штатом.

Оказалось, что это достаточно сложная задача из-за неоднозначности определений самого ИИ. Искусственный интеллект — это способность компьютера обучаться, принимать решения и выполнять действия, свойственные человеческому интеллекту. Однако это определение не строгое.

Бенчмарк — это своего рода эталон или стандарт. Обычно он представляет собой набор данных, сформированный экспертами, и соответствующий набор ожидаемых результатов. Бенчмарк используется для оценки того, насколько хорошо модель выполняет задачу в сравнении с другими моделями или стандартами.

«ИИ не исключает человека из процесса, а забирает на себя рутинные операции, облегчает обработку контента. Когда говорят, что искусственный интеллект заменит людей, я говорю: «Нет, не получится. Вас заменит не машина, а ваш коллега, который умеет вместе с ней работать. Это более реалистичный сценарий».

Результаты разных исследований говорят, что от 35 до 50% людей применяют ChatGPT для поиска информации, хотя бот не ищет информацию. Бесплатная версия модели обучена на данных до 2021 года и «не знает» даже про iPhone 14 и политическую обстановку. Бот работает по принципу предсказания следующего слова, поэтому в некоторых случаях его тексты по достоверности будут ближе к галлюцинациям.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь