Как нейросеть видит слово

0
13

Правда ли, что «Антиплагиат» распознает сгенерированные нейросетью тексты

Как мы проверяли тексты в «Антиплагиате»

В «Антиплагиате» обратили внимание на тред Жадана и признали, что проверку сервиса можно обойти. В пресс-службе считают, что Жадану помогло редактирование текста: «Любое вмешательство человека в сгенерированный ИИ текст, конечно же , „очеловечивает“ его, позволяя обойти алгоритм распознавания». Для обхода «Антиплагиата» понадобилось значительное время на работу с чат-ботом , посчитали разработчики системы.

Функция выявления ИИ-текстов доступна только в платной версии. Одна проверка стоит 472 ₽ — если покупать сразу несколько, будет дешевле. Детектор обучен и протестирован на большом наборе данных, поэтому риск ложного срабатывания минимален, уверяют в «Антиплагиате».

Владимир рассказывает: «Дальнейший процесс зависит от того, какую задачу мы хотим решить: если нейросеть анализирует предложение и должна выдать предложение, то языковая модель обновляет контекст новыми сгенерированными словами и снова предсказывает слово».

Что у нас вышло. Шесть сгенерированных текстов мы отправили на платную проверку «Антиплагиата». Оригинальность у всех текстов оказалась достаточно высокая: более 85%. В среднем в российских вузах от выпускных квалификационных работ требуется уникальность на уровне 80—90% , а для рефератов и курсовых работ — и того меньше.

«Мы разбиваем слова на популярные части, например „велотренажёр“ → „вело“, „трен“, „ажёр“», — рассказывает Владимир Морозов. Такой формат удобен тем, что токены получаются более осмысленными, чем если бы текст делился на буквы, но занимают меньше памяти в сравнении со словарями, которые состоят из слов.

Принципы работы языковой модели зависят от её типа. До того как разработчики стали использовать нейросети, в ходу были более простые статистические алгоритмы. Языковые модели на их основе называют классическими. Простейшая модель такого рода, например, выдаёт одно и то же слово вне зависимости от того, что получает на входе. Более сложные учитывают вероятности. Например, могут подсчитать, что после «привет» люди часто пишут «как дела», а после «хлеб» — «белый». В качестве предсказания модель может предложить самое частотное слово или слово, которое встречается с определённой вероятностью. Логика работы зависит от того, какая стратегия предсказания заложена в модель.

В целом, правила формулирования промта (запроса) для Ideogram точно такие же, как и для Stable Diffusion и MidJourney — о них мы рассказывали в отдельной статье. Но так как тут мы имеем дело с надписями, стоит отметить еще одну важную вещь: при вводе запроса текст надписи, которую вы хотите увидеть на картинке, лучше всего вводить внутри кавычек — так нейросеть лучше поймет, какой текст должен быть на рисунке.

Все эти дефекты работ нейросети, на самом деле, обусловлены одной и той же проблемой: процессом обучения модели. Дело в том, что, обучая нейросеть, специалисты дают ей определенные изображения и созданный человеком текст, который описывает то, что на этом изображении находится. Обучаясь, нейросеть обычно анализирует изображение в целом — очень редко специалисты описывают отдельные части картины, так как это очень трудозатратно и сложно.

Выводы

Как объясняет разработчик машинного обучения Владимир Морозов, на входе модель получает текст. Например, если пользователь набирает слова на клавиатуре, первой их прочитает именно языковая модель. За распознавание высказывания отвечает энкодер. Чтобы понять смысл, модель делит входной текст на мелкие кусочки, такие как слова или фразы.

Владимир рассказывает: «Дальнейший процесс зависит от того, какую задачу мы хотим решить: если нейросеть анализирует предложение и должна выдать предложение, то языковая модель обновляет контекст новыми сгенерированными словами и снова предсказывает слово».

Как языковые модели видят тексты

Модель видит текст как единицы языка: слова, буквы, цифры или знаки препинания — их по-другому называют токенами. Из чего будут состоять токены, зависит от того, как программист, который работает с моделью, поделил текст. Можно анализировать выражения на уровне букв, слов или частей слова.

ЧИТАТЬ ТАКЖЕ:  Для чего нужен искусственный интеллект в образовании

В компании отметили, что сами разработали алгоритм «на основе многолетних исследований» по обработке естественного языка. «Несмотря на все успехи ChatGPT или Jasper, их тексты все еще отличаются от написанных человеком», — заявил исполнительный директор компании Юрий Чехович.

Более современные модели на основе нейросетей ориентируются на большее количество параметров. В отличие от, например, n-граммных, которые смотрят на фиксированное число слов, они могут смотреть на весь текст целиком. Кроме того, они способны учитывать стиль текста, день недели и даже сезонность — это как раз контекст.

Затем модель создаёт следующий фрагмент текста, который она считает наиболее верным в контексте. Именно эту фразу пользователь увидит у себя на клавиатуре смартфона в строке подсказок. Процесс повторяется множество раз, чтобы сгенерировать полный текст или ответ на вопрос, если нейросеть встроена не в клавиатуру, а чат-помощник.

За последние полтора года (примерно тогда в свет вышла первая версия MidJourney) нейросети для генерации изображений прошли огромный путь улучшений и стали создавать качественные работы. Тем не менее, все еще встречаются «изъяны» — неправильное количество пальцев на руках (или ногах), косые лица, неразборчивые надписи.

«Мы разбиваем слова на популярные части, например „велотренажёр“ → „вело“, „трен“, „ажёр“», — рассказывает Владимир Морозов. Такой формат удобен тем, что токены получаются более осмысленными, чем если бы текст делился на буквы, но занимают меньше памяти в сравнении со словарями, которые состоят из слов.

Результаты моего тестирования

В обучающей выборке алгоритма могли быть изображения с такими надписями, но никто не говорил ему, что единственно правильный вариант написания этой фразы именно «I love you», поэтому нейросеть просто смешивает все буквы, как смешивает моделей в Баленсиага и фото Папы Римского.

Для каждой модели один текст мы сгенерировали на русском языке, а второй — на английском. Англоязычные тексты потом перевели через нейросетевой переводчик DeepL без дополнительной редактуры. Так мы сразу проверили популярный совет пользоваться связкой «англоязычный ChatGPT — переводчик» для обхода «Антиплагиата».

Тогда мы попробовали перегенерировать выделенные «Антиплагиатом» части с нуля, уточнить детали и написать текст так, как его бы написал студент российского вуза на четвертом курсе. Это немного увеличило оригинальность, но текст снова пометили как подозрительный. «Антиплагиат» все еще «ругался» на введение и заключение.

Затем модель создаёт следующий фрагмент текста, который она считает наиболее верным в контексте. Именно эту фразу пользователь увидит у себя на клавиатуре смартфона в строке подсказок. Процесс повторяется множество раз, чтобы сгенерировать полный текст или ответ на вопрос, если нейросеть встроена не в клавиатуру, а чат-помощник.

Принципы работы языковой модели зависят от её типа. До того как разработчики стали использовать нейросети, в ходу были более простые статистические алгоритмы. Языковые модели на их основе называют классическими. Простейшая модель такого рода, например, выдаёт одно и то же слово вне зависимости от того, что получает на входе. Более сложные учитывают вероятности. Например, могут подсчитать, что после «привет» люди часто пишут «как дела», а после «хлеб» — «белый». В качестве предсказания модель может предложить самое частотное слово или слово, которое встречается с определённой вероятностью. Логика работы зависит от того, какая стратегия предсказания заложена в модель.

По задумке, сервис должен заметить, что части текста написали в одной из версий ChatGPT, и пометить работу как подозрительную. Новая проверка появилась накануне сессий, выпускных экзаменов и сдачи дипломов в вузах. А в России, несмотря на ограничения, ChatGPT уже достаточно активно применяют в учебном процессе.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь