Содержание статьи
Как распознать текст, написанный нейросетью? И можно ли это сделать с полной уверенностью
Улучшатся ли со временем детекторы?
Удастся ли создать устойчивые к атакам водяные знаки, пока не ясно. Можно предположить, что перефразирование позволит обмануть детекторы и в этом случае. Или же в запросе для языковой модели можно поставить такие строгие условия, что она не сможет оставить в тексте водяные знаки. Также не исключено, что принципы, по которым модель делает маркировки, можно раскусить. В этом случае злоумышленники могли бы написать собственные тексты так, чтобы они были неотличимы от созданных определенной языковой моделью. С помощью таких текстов можно испортить репутацию разработчиков языковой модели.
Основной способ общения ИИ с человеком — это текст и его голосовое озвучивание. Аналитики отмечают, что использование ИИ в написании текстов само по себе не является негативным. Последние данные показывают, что человек может точно идентифицировать авторов и продукт ИИ только примерно в 50% случаев. В этой статье расскажем о некоторых способах идентификации текста, написанного искусственным интеллектом.
Приложения и сервисы на основе искусственного интеллекта, например чат-бот ChatGPT, поразительно хорошо справляются с заданиями, где нужно что-нибудь написать. Пока эти технологии толком не регулируются — получающиеся тексты не обязательно помечать, поэтому бывает трудно понять, кто их автор. Чтобы разобраться, иногда достаточно просто вчитаться в написанное. Но даже специально разработанные программы, где тоже используется искусственный интеллект, не всегда отличают машину от человека
В этой игре смысловых вопросов и ответов участвуют три игрока, в которых один игрок — это компьютер, другой игрок — человек-ответчик, а третий игрок — человек-дознаватель, который изолирован от двух других игроков. Во время теста человек разговаривает с компьютером и должен определить, кто ведёт беседу — машина или человек.
Говоря про искусственный интеллект применительно к сгенерированным текстам, имеют в виду большие языковые модели. Если сильно упрощать, то модель анализирует написанное людьми и учится прогнозировать, какое слово должно следовать за предшествующими. Из слов складываются предложения, из предложений — абзацы и т.д. Как в точности у машины это получается, не знают даже разработчики , но подход вдохновлен передачей сигналов в нервной системе (поэтому вместо расплывчатого «искусственного интеллекта» используют и более конкретный термин «нейросети»).
При обучении ИИ на определенных данных, он осваивает основополагающие закономерности и структуры этих данных. Первая ловушка для ИИ — это объем проанализированных миллиардов веб-страниц и информации до сентября 2021 года (ChatGPT) и события, информация после сентября 2021 года (версия GPT-4). Если человек задаст ИИ открытый вопрос «ловушку» о событии, которое произошло в 2024 году, то при общении с нейросетью может получить странный ответ «по настоящее время моя база обновляется, поэтому к сожалению данных нет» или ИИ напишет известные ему более старые сведения с ошибками в фактах.
Испытание IKEA
Федеральный проект по развитию ИИ был утвержден в 2020 году, его активная реализация началась в 2021 году. Ранее он входил в национальную программу « Цифровая экономика » и был рассчитан до 2024 года, но было приянто решение о его включении в национальный проект по формированию экономики данных. Таким образом, он будет продлен до 2030 года.
Детекторы бывают нескольких типов. Зачастую они действуют по принципу «клин клином вышибают»: текст, построенный с помощью большой языковой модели, анализирует схожая модель, которую натренировали на текстах и людей, и машин. Проблема этого подхода заключается в том, что разработчикам нужно подстраивать модель-детектор под конкретные модели-генераторы. Но есть и такие детекторы, которые работают без тренировок, всего лишь оценивая вероятности. Правда, они считаются более уязвимыми для атак.
Весной 2023 в том же духе рассуждали исследователи из Мэрилендского университета. В подтверждение они привели результаты своих экспериментов. Вместо того чтобы сразу проверять детекторами машинный текст, ученые сначала воспользовались нейросетью, которая его перефразировала. Авторство текста, пересказанного другими словами, детекторы намного чаще приписывали человеку.
Так как модели подбирают наиболее вероятные варианты, зачастую у них получаются предложения примерно одной длины, со схожей структурой и ничем не примечательными словами. Из-за этого текст делается монотонным. Эксперты компании Scribbr, которая специализируется на академическом письме, выделяют эти и другие подозрительные признаки:
Выход из положения, который в последнее время обсуждают чаще всего, — так называемые водяные знаки вроде тех, что есть на банкнотах. Например, разработчики могли бы настраивать языковые модели так, чтобы в текстах чаще или реже обычного повторялись те или иные слова. Человек в этом случае, скорее всего, не заметит ничего необычного, а с помощью детектора можно точно сказать, машинный текст или нет.
Обращает на себя внимание также тенденция повторять одни и те же фразы в тексте «как по шаблону», смешение литературного стиля до максимально официального, «как смысловые метаморфозы». Суждения могут быть очень поверхностными, без личного опыта и примеров, «без глубины мысли».
Чат-боты, проходящие тест Тьюринга, умело обманывают судей и заставляют поверить, что они — люди. По словам Гектора Левеска, профессора информатики в Университете Торонто, такой тест лишь показывает, как легко обмануть человека, особенно в короткой текстовой переписке. Но из теста Тьюринга невозможно понять, есть ли у машины интеллект или хотя бы понимание языка.
Этот тест назван в честь Ады Лавлейс, математика из XIX века, которую считают первым в истории программистом. Он призван определить наличие интеллекта у машины через способность её к творчеству. Первоначально тест предложили в 2001 году: тогда машина должна была создать произведение искусства, которое разработчик машины принял бы за созданное человеком. Так как чётких критериев успеха нет, тест получается слишком неточным.
Что в итоге?
Дипфейки бывают разные, например с подменой лица (face swap) — когда лицо одного человека «накладывается» на лицо другого в видео; путем синтеза «поддельной речи» на основе голоса реального человека (synthetic speech) и (или) полностью сгенерированное видео с подменным лицом и с синтезированной речью.
Одна из новых идей, предложенная учеными — придать искусственному интеллекту узнаваемый акцент. Гипотеза построена на том, что человек в путешествии из точки А в точку Б идентифицирует людей по речи, интонации, особенностям произношения, постановке ударений в словах и т.д.
В конце 2022 года правительство Китая запретило использование сгенерированных искусственным интеллектом цифровых продуктов «глубокого синтеза» (текста, изображений, голоса) без специальных водяных знаков. Все, кто захотят их произвести с помощью алгоритмов ИИ, сначала должны получить разрешение от правительства, а затем привязать свои персональные данные к используемому аккаунту.
Машинные тексты, на первый взгляд неотличимые от написанных человеком, появились сравнительно недавно — у разработчиков детекторов для их выявления было мало времени. Но, возможно, надежные инструменты так никогда и не появятся. Подводя итоги тестирования, специалисты Scribbr писали, что само устройство детекторов не позволяет гарантировать 100-процентную точность и что всегда есть хотя бы небольшой риск принять текст человека за машинный, поэтому результаты проверок следует рассматривать только вместе с другими доказательствами.
Для выявления машинных текстов существуют специальные программы и сервисы. Одни бесплатны. Другие доступны за деньги. Третьи созданы в рамках исследований, поэтому не всеми из них удастся воспользоваться (а в остальных случаях, как правило, нужно уметь работать с хранилищами типа GitHub и хотя бы чуть-чуть владеть языками программирования, например Python).
Представьте себе, что вы просматриваете два профиля в социальных сетях, которые привлекают ваше внимание. Фотографии подлинные и привлекательные для вас, а описанные интересы соответствуют вашим собственным. Многие из нас, вероятно, сталкивались с чем-то подобным, что потом оказывалось дипфейком.
Этот тест придумал Чарли Ортиц, менеджер по искусственному интеллекту в компании Nuance Communications. По словам Ортица, недостаток теста Тьюринга в том, что он проверяет в первую очередь языковые способности, опуская другие важные составляющие разума — восприятие и физические действия. Проще говоря, у компьютеров, проходящих тест Тьюринга, нет глаз или рук.
По мнению американских исследователей, с текстами более совершенных языковых моделей детекторы станут практически бесполезными. Чем больше такие тексты похожи на человеческие, тем ближе точность детектора к 50%. Но с такой же точностью можно просто угадывать, кому принадлежат подозрительные слова (с этим выводом спорят другие ученые; интересно, что они с того же факультета Мэрилендского университета).