Содержание статьи
10 бесплатных нейросетей для генерации текстов на русском языке
Какие из этих ограничений могут уйти в будущем?
Закон Мура, согласно которому производительность процессоров удваивается каждые 24 месяца, выполняется до сих пор, отмечает Михаил Ким. Интерес к специализированным типам вычислителей для обучения нейросетей растёт, растут и объёмы инвестиций в этой сфере: только недавно капитализация Nvidia, основного производителя таких вычислитей, достигла одного триллиона долларов. Поэтому постепенно будет уменьшаться и цена обучения больших языковых моделей.
Здорово, что бот пытался визуализировать картинку вплоть до деталей: например, что детектив во время стрельбы прячется за ящиками. Описание детектива — не придерешься. Бот продумал все: от внешнего вида до типа мышления и привычек. Герой не курит, но всегда держит в кабинете пачку сигарет. Образ тоже шаблонный, но менее карикатурный: про доброе сердце ни слова.
Но с точки зрения искушенного читателя или опытного филолога такого рода текст — по крайней мере, на том уровне генерации, который мы видим сейчас, — очень скучный. Будет ли способен человек принять его за художественный в полном смысле этого слова — большой вопрос. То есть, если мы имеем довольно непритязательные критерии и считаем, что любая история — это художественный рассказ, то ничего страшного, поясняет Борис Орехов. Но если мы считаем, что художественное произведение должно быть неожиданным, должно удивлять своей формой и нетипичными поворотами сюжета, то этого читатель не дождётся. Чем лучше нейросети имитируют человеческую речь, тем хуже они как писатели — в смысле удивления, в смысле новостей, которые нам сообщает текст.
Другими словами, в таблице записаны вероятности встречи каждого слова словаря при заданных контекстах, где контекстами являются префиксы сдвинутого фрагмента. Поскольку мы знаем весь фрагмент целиком, мы для каждого контекста знаем наиболее вероятное продолжение: понимаем, что для контекста [начало] продолжением является Король, для [начало] Король — оказался, [начало] Король оказался — голым и [начало] Король оказался голым — [конец]. Поэтому мы можем сравнить соответствующие ячейки таблицы, которую выдала модель, со 100% (максимальной вероятностью) и на основе отклонения от правильного ответа лучше настроить модель. Обучение модели заключается в повторении этой процедуры со всеми фрагментами текстов из обучающих данных.
По словам Бориса Орехова, специфика обучения нейросетей зависит от того, какие именно художественные тексты мы хотим получить на выходе и какие у нас требования к художественным текстам. Один из самых понятных вариантов — принять, что мы ожидаем прозаический художественный текст, повествующий о каких-то событиях, то есть конвенциональный, обычный рассказ или повесть.
Скорость генерации: ⚡️⚡️⚡️⚡️
Качество генерации: 🤩🤩🤩🤩
Лимиты: на бесплатном плане с моделью GPT-3.5 лимитов нет
Платные функции: от 20 $ ( 2000 ₽) за доступ к более продвинутой GPT-4, оплатить российской картой нельзя
Сюжет детектива оказался больше похож на фрагмент из готового рассказа. Но это, на мой взгляд, здорово: художественность повествования задает настроение. В маленьком тексте есть драматургия. Мы узнаем про внутренние переживания преступника и инспектора. Нетипичен и несчастливый финал: несчастье кроется в извечных психологических стенаниях главного героя.
Идея рассылки «Как можно провести майские праздники». Текст больше похож на публикацию для соцсетей: есть упоминание «Инстаграма»*, призыв поделиться своими мыслями. Понравилось ностальгическое предложение построить замок из покрывал. Смутило, что сразу два пункта посвящены готовке, но одна из идей рабочая — про фестиваль блюд кухонь разных стран.
Что получается и не получается у нейросетей обоих типов в стилизации под творчество конкретных авторов?
Результаты, которые выходят у моделей, дообученных на определённом корпусе, например, Набокова или жанра школьных сочинений, действительно похожи на обучающую выборку, отвечает Борис Орехов. Сгенерированный текст воспроизводит какие-то особенности стиля Набокова. Какие именно — это вопрос, который нуждается в отдельном исследовании.
Модели, предназначенные для имитации, решают намного более узкую задачу. Поэтому их, во-первых, не обучают на столь большом количестве текстов. Однако часто перед обучением на корпусе автора модель предобучают на корпусе обычных текстов, написанных на языке произведений. И, во-вторых, не обучают выполнению инструкций. Последнее немаловажное отличие — размер модели. Универсальные модели обычно на порядки больше моделей для стилизации, поскольку способность качественно решать широкий спектр задач появляется только у моделей определённого размера.
В чём разница между генерацией прозы и поэзии? Зависит от точки зрения читателя или инженера, который организовывает этот процесс. Для читателя, конечно, поэзия и проза — это абсолютно разные вещи, потому что они по-разному устроены. Читатель привык в течение XX века, что поэзия — это особенный речевой жанр, в котором возможно всё. В том числе и совершенно непредставимые нелепости: несвязность, нелогичность, возможна и даже одобряется непоследовательность. И несмотря на то, что проза XX века тоже может быть такой, она не создала себе подобной репутации. От прозы читатель в гораздо меньшей степени ждёт, что она будут нелогична и несвязна, и гораздо меньше подготовлен к этому. Поэтому поэтические тексты, некачественные с точки зрения грамматичности, которые порождает нейросеть, мы склонны ей прощать. Читатели так поступают благодаря общей репутации поэзии. В прозе, как выяснилось, это в меньшей степени ожидается читателем.
В рамках мысленного эксперимента можно представить, что у нас есть корпус, непредставимо большой, где обо всём, что только можно, написано, много и достаточно для статистических обобщений, то тогда мы возвращаемся к проблемам контекста. При генерации текста, в первую очередь художественного, нейросеть в какой-то момент всё равно будет забывать, о чём она писала. Да, это случится не через абзац, как это было пять лет назад, и не через две страницы, как это было три года назад, но это случится рано или поздно. Писатель тоже, конечно, иногда забывает о чём он писал, но он потом перечитывает написанное, и всё-таки приводит себя в чувство. Говорят, есть история про Достоевского, который забыл, что было в первой части «Идиота», и ему пришлось перечитать, прежде чем писать вторую. Нейросети пока не перечитывают, и это проблема, которая не решается корпусом и не решается статистическими механизмами, которые заложены в обучении.
Борис Орехов добавляет, что существуют проблемы моделей, которые нельзя решить просто расширением корпуса. В любом очень большом, но всё-таки ограниченном корусе всегда есть специфические темы, которые обозреваются реже, чем другие. Например, в корпусе, собранном из интернета, будет очень много текстов, посвящённых экономике и финансам: про это много пишут, много учебных и других материалов в сети. Современная нейросеть может на них обучиться и будет неплохо понимать, о чём идёт речь. А если вы спросите у нейросети про то, о чём мало написано даже в очень большом корпусе, например, про конкретный этический аспект философии Кьеркегора? Здесь, конечно, в силу того, что нейросети обязательно ориентируются на некоторые статистически значимые показатели, она будет путаться, и, естественно, будет работать плохо.
Вступление к статье про продажу виниловых пластинок. Вводная про винил стандартная. Я попросила добавить деталей и зацепилась за идею о характерном треске и осязаемой эстетике. Конечно, современные проигрыватели и пластинки играют без треска, но это славная деталь для более лирического вступления.
Чтобы разобраться в том, как работают нейросети-писатели, мы обратились к двум специалистам. Борис Орехов — кандидат филологических наук, цифровой филолог, компьютерный лингвист и исследователь, который занимается генерацией и изучением художественных текстов. Чтобы узнать больше об его экспериментах, можно, например, почитать рубрику «Нейростихи» в «Системном Блоке», сборник башкирской нейропоэзии или нейропрозу Набокова. Михаил Ким — куратор и автор рубрик «Глоссарий» и «Как это работает» в «Системном Блоке», исследователь в области глубинного обучения, занимающийся нейросетевыми технологиями в IT-индустрии. У нас можно прочитать, например, материал Михаила о языковых моделях и найти составленный им большой каталог нейросетей. Обоим экспертам мы задали одинаковые вопросы.
Тогда, если мы считаем, что всегда важно, какой смысл вкладывается в текст, получается, что те смыслы, порождаемые читателем, — второстепенны. А если мы считаем, что читатель первичен, и что сказал или хотел сказать автор — это не так важно, то вступаем на почву постмодернистского релятивизма. При этом трудно логически доказать, что позиция автора вообще с какой-то точки зрения важна. Это недоказуемое утверждение, и это болезненно, потому что на этом принятии первичности автора базируется в нашей науке довольно много, и в литературоведении в том числе: вся история про биографии писателей, про датировку рукописей, про их атрибуцию упирается в эту идею. А если считать, что это неважно, тогда внезапно пропадает и необходимость вообще думать об авторе. Если мы полностью отделяем тексты Пушкина от самой личности Пушкина, тогда пропадает значимость половины литературоведческих работ, которые имеют в виду, вот этот текст написан Пушкиным в южной ссылке, а этот написан в Михайловском и так далее. Это болезненная тема. Отсюда выходит, что должно быть важно, этот текст сочинил компьютер или нет. И если компьютер — тогда непонятно, зачем его вообще читать, потому что не порождается никакого сообщения. А если считать, что первичен читатель, и читатель решает, интересно ему читать или нет, тогда можно обращаться и к компьютерному тексту.