Содержание статьи
Как распознать текст, написанный нейросетью? И можно ли это сделать с полной уверенностью
Что в итоге?
Удастся ли создать устойчивые к атакам водяные знаки, пока не ясно. Можно предположить, что перефразирование позволит обмануть детекторы и в этом случае. Или же в запросе для языковой модели можно поставить такие строгие условия, что она не сможет оставить в тексте водяные знаки. Также не исключено, что принципы, по которым модель делает маркировки, можно раскусить. В этом случае злоумышленники могли бы написать собственные тексты так, чтобы они были неотличимы от созданных определенной языковой моделью. С помощью таких текстов можно испортить репутацию разработчиков языковой модели.
Также в Scribbr пропустили машинные тексты через фильтры для поиска плагиата. В некоторых случаях это сработало: фрагменты, написанные моделью, были помечены. Видимо, дело в том, что иногда модели используют в ответах чужие тексты или очень похожие формулировки, не указывая источник. Детекторы выявляют машинные тексты значительно лучше, но, возможно, со временем их встроят в инструменты для поиска заимствований, как это уже сделано в российском «Антиплагиате».
Кроме того, нейросети не знакомы с правильным оформлением документов и допускают ошибки в форматировании, самостоятельно добавляя слова и столбцы таблицы, которых не было в оригинале. Это значит, что перевод ИИ нельзя назвать качественным, и, конечно же, профессиональные бюро переводов не станут пренебрегать доверием клиентов и использовать в работе нейросети.
Нейросети развиваются с бешеной скоростью, и применять их можно во многих областях. Перевод не стал исключением. Искусственный интеллект постепенно опережает машинные переводчики, все активнее и активнее совершенствуя свои навыки и расширяя функционал. Даже профессиональные переводчики прибегают к помощи искусственного интеллекта.
В июне 2023 года в компании Scribbr протестировали десять популярных сервисов для распознавания машинных текстов. Лучше всех с заданиями справился Winston AI: его точность составила 84%. Среди бесплатных сервисов лучший результат — у детектора Sapling (68%). Проверяли тексты на английском языке. С русским детекторы могут работать хуже. С другой стороны, популярные модели, которые генерируют тексты, тоже лучше всего справляются с английским, а не русским.
К тому же, в бюро переводов чаще всего обращаются с просьбой перевода документов. А результат одного исследования показал, что эта задача ИИ дается сложнее всего, так как в документах почти всегда присутствует терминология и специальная лексика, перевод которой строго ограничивается контекстом. Например, для проведения исследования был взят школьный аттестат, при переводе которого ошибок избежать не удалось:
По мнению американских исследователей, с текстами более совершенных языковых моделей детекторы станут практически бесполезными. Чем больше такие тексты похожи на человеческие, тем ближе точность детектора к 50%. Но с такой же точностью можно просто угадывать, кому принадлежат подозрительные слова (с этим выводом спорят другие ученые; интересно, что они с того же факультета Мэрилендского университета).
Детекторы бывают нескольких типов. Зачастую они действуют по принципу «клин клином вышибают»: текст, построенный с помощью большой языковой модели, анализирует схожая модель, которую натренировали на текстах и людей, и машин. Проблема этого подхода заключается в том, что разработчикам нужно подстраивать модель-детектор под конкретные модели-генераторы. Но есть и такие детекторы, которые работают без тренировок, всего лишь оценивая вероятности. Правда, они считаются более уязвимыми для атак.
Как определить машинный текст на глаз?
Приложения и сервисы на основе искусственного интеллекта, например чат-бот ChatGPT, поразительно хорошо справляются с заданиями, где нужно что-нибудь написать. Пока эти технологии толком не регулируются — получающиеся тексты не обязательно помечать, поэтому бывает трудно понять, кто их автор. Чтобы разобраться, иногда достаточно просто вчитаться в написанное. Но даже специально разработанные программы, где тоже используется искусственный интеллект, не всегда отличают машину от человека
Говоря про искусственный интеллект применительно к сгенерированным текстам, имеют в виду большие языковые модели. Если сильно упрощать, то модель анализирует написанное людьми и учится прогнозировать, какое слово должно следовать за предшествующими. Из слов складываются предложения, из предложений — абзацы и т.д. Как в точности у машины это получается, не знают даже разработчики , но подход вдохновлен передачей сигналов в нервной системе (поэтому вместо расплывчатого «искусственного интеллекта» используют и более конкретный термин «нейросети»).
Для выявления машинных текстов существуют специальные программы и сервисы. Одни бесплатны. Другие доступны за деньги. Третьи созданы в рамках исследований, поэтому не всеми из них удастся воспользоваться (а в остальных случаях, как правило, нужно уметь работать с хранилищами типа GitHub и хотя бы чуть-чуть владеть языками программирования, например Python).
Машинные тексты, на первый взгляд неотличимые от написанных человеком, появились сравнительно недавно — у разработчиков детекторов для их выявления было мало времени. Но, возможно, надежные инструменты так никогда и не появятся. Подводя итоги тестирования, специалисты Scribbr писали, что само устройство детекторов не позволяет гарантировать 100-процентную точность и что всегда есть хотя бы небольшой риск принять текст человека за машинный, поэтому результаты проверок следует рассматривать только вместе с другими доказательствами.
Вопросов о больших языковых моделях пока больше, чем ответов. Как это часто бывает, оптимисты говорят о возможностях, пессимисты — об угрозах. Проблема не только в том, что будущее невозможно предсказать. В исследования и разработки вовлечен бизнес, поэтому даже не вполне ясно, что происходит в этой области прямо сейчас. Если что-то и понятно, так это то, что не стоит чересчур полагаться на имеющиеся инструменты.
Но самостоятельно выдать идеальный перевод, не требующий редактуры, нейросети пока не научились, хотя с каждым днем они становятся к этому все ближе. А может ли обычный человек отличить перевод, выполненный ИИ от перевода профессионального специалиста? Это становится серьезной проблемой, так как теперь при обращении в бюро переводов клиент не знает наверняка, кто выполнил перевод, и вполне возможно, что переводчик с этим текстом даже не работал, поручив все нейросети. Разберемся подробнее, можно ли отличить «искусственный» перевод от перевода, выполненного человеком, и как это сделать.