Содержание статьи
Как распознать текст, написанный нейросетью? И можно ли это сделать с полной уверенностью
Какие есть инструменты для обнаружения машинных текстов?
Весной 2023 в том же духе рассуждали исследователи из Мэрилендского университета. В подтверждение они привели результаты своих экспериментов. Вместо того чтобы сразу проверять детекторами машинный текст, ученые сначала воспользовались нейросетью, которая его перефразировала. Авторство текста, пересказанного другими словами, детекторы намного чаще приписывали человеку.
Говоря про искусственный интеллект применительно к сгенерированным текстам, имеют в виду большие языковые модели. Если сильно упрощать, то модель анализирует написанное людьми и учится прогнозировать, какое слово должно следовать за предшествующими. Из слов складываются предложения, из предложений — абзацы и т.д. Как в точности у машины это получается, не знают даже разработчики , но подход вдохновлен передачей сигналов в нервной системе (поэтому вместо расплывчатого «искусственного интеллекта» используют и более конкретный термин «нейросети»).
Что касается взаимодействия с самим анализатором текста, то этот процесс не станет чем-то трудным и будет понятен каждому пользователю. Единственное – незнающие английский язык могут использовать мою инструкцию ниже или же активировать встроенный в браузер переводчик страниц.
Для выявления машинных текстов существуют специальные программы и сервисы. Одни бесплатны. Другие доступны за деньги. Третьи созданы в рамках исследований, поэтому не всеми из них удастся воспользоваться (а в остальных случаях, как правило, нужно уметь работать с хранилищами типа GitHub и хотя бы чуть-чуть владеть языками программирования, например Python).
Так как модели подбирают наиболее вероятные варианты, зачастую у них получаются предложения примерно одной длины, со схожей структурой и ничем не примечательными словами. Из-за этого текст делается монотонным. Эксперты компании Scribbr, которая специализируется на академическом письме, выделяют эти и другие подозрительные признаки:
С появлением нейронных сетей для генерирования текстов логично было ожидать, что вместе с ними появятся и сервисы, играющие роль детекторов. Существует множество полезных инструментов, анализирующих содержимое и определяющее вероятность, с которой текст мог быть создан ИИ. Есть разные критерии оценки, и каждый инструмент использует свой подход для качественного анализа. Поэтому отличным вариантом будет один и тот же фрагмент прогнать через несколько сайтов, чтобы получить объективный результат.
GPTZero
Первый на очереди сайт с названием AI Text Classifier, который как раз был создан OpenAI – разработчиком ChatGPT, поэтому инструмент первоочередно нужно использовать тем юзерам, кто хочет проверить, не был ли текст сгенерирован данным ИИ. Пока можно сказать, что сайт идеально определяет фрагменты текста на английском языке, а вот с распознанием других, особенно если информация компилируется из сборок открытых источников, пока не все так гладко. Впрочем, принцип действия AI Text Classifier и все дополнительные нюансы сразу описаны на главной странице, поэтому предлагаю сначала прочитать документацию, а затем переходить к работе с детектором.
В июне 2023 года в компании Scribbr протестировали десять популярных сервисов для распознавания машинных текстов. Лучше всех с заданиями справился Winston AI: его точность составила 84%. Среди бесплатных сервисов лучший результат — у детектора Sapling (68%). Проверяли тексты на английском языке. С русским детекторы могут работать хуже. С другой стороны, популярные модели, которые генерируют тексты, тоже лучше всего справляются с английским, а не русским.
По мнению американских исследователей, с текстами более совершенных языковых моделей детекторы станут практически бесполезными. Чем больше такие тексты похожи на человеческие, тем ближе точность детектора к 50%. Но с такой же точностью можно просто угадывать, кому принадлежат подозрительные слова (с этим выводом спорят другие ученые; интересно, что они с того же факультета Мэрилендского университета).
Выше я уже писал о том, что проверял два одинаковых текста, но на разных языках. Это же я сделал через Content at Scale и оказалось, что данный сайт чуть ли не единственный, который сейчас полностью корректно работает с русским языком. Было проверено еще несколько фрагментов текстов разных тематик и все они распознаны как написанные при помощи нейронных сетей. Поэтому я точно могу рекомендовать к использованию Content at Scale.
Детекторы бывают нескольких типов. Зачастую они действуют по принципу «клин клином вышибают»: текст, построенный с помощью большой языковой модели, анализирует схожая модель, которую натренировали на текстах и людей, и машин. Проблема этого подхода заключается в том, что разработчикам нужно подстраивать модель-детектор под конкретные модели-генераторы. Но есть и такие детекторы, которые работают без тренировок, всего лишь оценивая вероятности. Правда, они считаются более уязвимыми для атак.
Сайт Text.ru позиционируется как биржа копирайтинга и имеет свой антиплагиат. С недавнего времени разработчики предлагают юзерам на платной основе доступ к рерайтеру текста на базе ИИ и детектору, который распознает такой написанный ботом текст. Это главный минус сайта, поскольку бесплатно нельзя проверить и несколько сотен символов, чтобы протестировать работу инструмента.
Впрочем, если говорить о предназначении инструмента, то встроенным НейроПомощником нужно в первую очередь пользоваться тем, кто профессионально работает с текстами и всегда проверяет уникальность и другие параметры через Text.ru. Теперь у таких пользователей появилась возможность проверить и наличие рерайта через ИИ. Это актуально как для дипломных работ (правда, придется купить много нейросимволов или оформить безлимитный план), так и для небольших информационных статей.
Вопросов о больших языковых моделях пока больше, чем ответов. Как это часто бывает, оптимисты говорят о возможностях, пессимисты — об угрозах. Проблема не только в том, что будущее невозможно предсказать. В исследования и разработки вовлечен бизнес, поэтому даже не вполне ясно, что происходит в этой области прямо сейчас. Если что-то и понятно, так это то, что не стоит чересчур полагаться на имеющиеся инструменты.