Содержание статьи
Как отличить искусственный интеллект от человека
В группах людей, взаимодействующих с ИИ, экспериментально установлено, что высокая грамматическая правильность и использование местоимений первого лица часто ошибочно приписывались тексту, созданному человеком. Ссылки на семейную жизнь и использование неформального разговорного языка также были ошибочно отнесены к тексту, созданному человеком.
В этой игре смысловых вопросов и ответов участвуют три игрока, в которых один игрок — это компьютер, другой игрок — человек-ответчик, а третий игрок — человек-дознаватель, который изолирован от двух других игроков. Во время теста человек разговаривает с компьютером и должен определить, кто ведёт беседу — машина или человек.
Дипфейки бывают разные, например с подменой лица (face swap) — когда лицо одного человека «накладывается» на лицо другого в видео; путем синтеза «поддельной речи» на основе голоса реального человека (synthetic speech) и (или) полностью сгенерированное видео с подменным лицом и с синтезированной речью.
Определить с помощью уже имеющегося сгенерированного текста, написан он конкретным ботом или же человеком, не составит особого труда: необходимо всего лишь загрузить в нейросеть огромное количество подобных сгенерированных текстов — и всё готово. Однако тогда никто не будет пользоваться данным конкретным ботом, его просто заменят другим искусственным интеллектом. Следовательно, ученым необходимо разработать такой механизм, который смог бы отличать всех ботов от всех людей. Для этого необходимо обратиться к структуре языка как такового, что подводит нас к исследованиям, посвященным тому, что такое любой естественный язык с точки зрения математики. Чтобы дать ответ на этот вопрос, необходимо несколько логических шагов.
Представьте себе, что вы просматриваете два профиля в социальных сетях, которые привлекают ваше внимание. Фотографии подлинные и привлекательные для вас, а описанные интересы соответствуют вашим собственным. Многие из нас, вероятно, сталкивались с чем-то подобным, что потом оказывалось дипфейком.
Переписать «Войну и мир» на манер Пушкина, написать с нуля диплом по истории Древней Месопотамии или открытку на 14 февраля — для чего только сегодня не используют текстовых ботов наподобие ChatGPT. Как же отличить текст, сгенерированный ботом, от работы живого человека и как подловить робота, рассказал в своей лекции «Поймай бота, или Крупномасштабная структура естественного интеллекта» в рамках лектория Российского общества «Знание» заместитель руководителя департамента анализа данных и искусственного интеллекта, профессор факультета компьютерных наук НИУ ВШЭ Василий Громов.
Основной способ общения ИИ с человеком — это текст и его голосовое озвучивание. Аналитики отмечают, что использование ИИ в написании текстов само по себе не является негативным. Последние данные показывают, что человек может точно идентифицировать авторов и продукт ИИ только примерно в 50% случаев. В этой статье расскажем о некоторых способах идентификации текста, написанного искусственным интеллектом.
2. Работая с представлением отдельных слов, можно заметить, что словарный запас ботов ничем не отличается от словарного запаса обычного человека. Однако, как только речь заходит о последовательности из двух-трех слов, оказывается, что генерируемая ботами последовательность существенно более прогнозируемая и намного беднее в плане языка, чем та, которую может создать даже самый скудно образованный человек (например, бот чаще склонен к повторению шаблонов). Разница между последовательностью n-грамм ботов и людей статистически значима даже для крупных ботов (ChatGPT), что и помогает их ловить.
3. Для дальнейшего исследования естественного языка с математической точки зрения необходимо вынести некие суждения, как эти слова расположены в пространстве. Существуют области векторного пространства (в особенности когда речь идет о последовательности слов), которые посещают только боты, а есть те, которые посещают только люди. Большая часть (90–95%) используется и теми и другими, но есть отдельные ботовские области — это еще один способ их подлавливать.
Если же кластеризовать (математическая операция, когда наборы похожих элементов можно объединить в одну группу — кластер) последовательность ботов, эти последовательности оказываются более жесткими, компактными и без всяких разночтений. Когда кластеризуют словесную последовательность людей разного пола и возраста, с разным образованием и бэкграундом, то получаются более размытые, нечеткие кластеры. Люди мыслят существенно менее четко, чем боты, — и это еще один способ их поимки.
При обучении ИИ на определенных данных, он осваивает основополагающие закономерности и структуры этих данных. Первая ловушка для ИИ — это объем проанализированных миллиардов веб-страниц и информации до сентября 2021 года (ChatGPT) и события, информация после сентября 2021 года (версия GPT-4). Если человек задаст ИИ открытый вопрос «ловушку» о событии, которое произошло в 2024 году, то при общении с нейросетью может получить странный ответ «по настоящее время моя база обновляется, поэтому к сожалению данных нет» или ИИ напишет известные ему более старые сведения с ошибками в фактах.
Кем и для чего создаются современные тексты, задался вопросом Василий Громов. Его поколение и поколение молодых людей, присутствующих на лекции, выросло на произведениях, написанных людьми для людей: авторы таких текстов вкладывали определенный смысл в свои работы, имели перед собой некую цель, будь то «Курочка Ряба», «Война и мир» или учебник математического анализа для первокурсников, отмечает профессор. Однако сейчас дети с самого раннего возраста окружены текстами, написанными непонятно кем, для кого и для чего. Василий Громов и его коллеги задались вопросом, вырастет ли этот ребенок таким же, каким выросли все мы.