Содержание статьи
Как дообучить языковую модель писать в стиле Достоевского
Зачем нужен fine-tuning в сфере обработки естественного языка
Во-вторых, fine-tuning — это весело! Языковую модель можно обучить генерировать тексты в самых разных стилях: от комментариев из Одноклассников до прозы Набокова. Все, что нам нужно — данные. Для fine-tuning достаточно нескольких мегабайтов текстов, что примерно эквивалентно 10-15 произведениям.
ПРИМЕЧАНИЕ: стоимость запросов будет зависеть от объема контекста и объема ответа от нейросети (стоимость токенов для нейросети ChatGPT указана в @yes_ai_bot, для получения данных отправьте боту команду /prices). За сам факт использования gLoRA дополнительная оплата не взымается, тарификация производится только за объем токенов, отправленных и полученных от нейросети ChatGPT.
🇷🇺 Описание gLoRA 1263: Основная тема этой модели сосредоточена на предоставлении рекомендаций и советов по написанию эффективных подсказок для платформы Midjourney с использованием нейронных сетей и технологии ChatGPT. В нем рассматриваются такие темы, как создание запросов для нейронных сетей, улучшение подсказок и руководства для начинающих по написанию увлекательного контента для Midjourney.
🇬🇧 Description of gLoRA 1263: The main theme in this model is focused on providing guidance and tips for writing effective prompts for the platform Midjourney, utilizing neural networks and chatGPT technology. It covers topics such as crafting queries for neural networks, improving prompts, and beginner’s guides to writing engaging content for Midjourney.
Сначала нам нужно установить библиотеку transformers. Библиотека Transformers — это набор инструментов и функций для работы с моделями с архитектурой transformer. Простыми словами, эта библиотека помогает пользователям работать с нейросетями без необходимости писать много кода или иметь глубокие знания в области машинного обучения.
В этом гайде мы разобрались, как дообучить языковую модель на своей обучающей выборке. Мы стремились создать универсальный код, который позволит вам продолжать экспериментировать с различными данными: наряду с Достоевским и литературными произведениями, вы также можете опробовать различные социальные данные, такие как комментарии и отзывы. Более того, мы использовали самую маленькую версию ruGPT3: если у вас есть графический процессор, вы можете запустить наш процесс файн-тюнинга на нем и сравнить качество генерации версиями Small и Medium.
Если ранее вы или кто-то другой создал модель gLoRA, но вам кажется, что ее знаний не хватает для решения поставленных задач, то вы можете доучить ее с помощью любого из ранее представленных в этой статье методов: через поисковые запросы, через карту сайта или по перечисленным URL.
Генерация
ПОЛЕЗНЫЙ СОВЕТ: если вы хотите обучить собственную модель gLoRA на текстах, которые собраны в виде документов, но их нет в сети интернет, то загрузите эти тексты на любой сайт, позволяющий создавать статьи, например, teletype.in или telegra.ph. Когда все документы будут загружены, обучите gLoRA с помощью команды:
—glora-urls link1 link2 link3
. где «link1 link2 link3» — это список ссылок на созданные вами текстовые документы, перечислить можно не более 50 ссылок.
Дообучение любых нейросетей требует вычислительные мощности, то есть GPU (видеокарты). Видеокарты позволяют эффективно распараллеливать вычисления, необходимые для обучения моделей. Чтобы выполнить наш гайд мог каждый, мы будем работать в Google Colab. Главное его преимущество — возможность бесплатно работать с видеокартой, которая подходит для работы с небольшими моделями.
Мы возьмем готовый корпус, состоящий из 34 произведений Достоевского. В него входит все Великое Пятикнижие кроме «Подростка», маленькие повести и рассказы. Этого объема (16.43 Мб) хватит, чтобы дообучить нейросеть переносить стиль. Поскольку мы работаем с нейронной сетью, никакой типичной предобработки не нужно: пунктуация и стоп-слова в нашем случае — важные для запоминания нейросетью элементы языка.
Обучение нейросети ChatGPT позволяет обойти ограничения оригинальной базы знаний, так как на текущий момент ChatGPT в официальной сборке может отвечать только на те вопросы, ответы на которые ему заранее известны. Теперь вы самостоятельно можете обучить ИИ отвечать на любые вопросы, «скормив» ему любые текстовые материалы.
Наша задача — генерация в стиле Достоевского на русском языке. Для этого нам, конечно, нужна русскоязычная модель. Нам повезло — команда Сбера выложила модель ruGPT3. Эта языковая модель основана на архитектуре GPT-2: как она работает и чем хороша, мы рассказывали ранее. Существует четыре версии ruGPT3, которые различаются по размерам. Мы будемиспользовать самую маленькую модель, чтобы вместить ее в память Google Colab.
Fine-Tuning — это способ улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок. Тонкая настройка помогает модели лучше работать над конкретной задачей, не обучая ее с самого начала. О том, как именно происходит дообучение, можно почитать в нашем блоге о трансферном обучении.
🚩 Обучение gLoRA по одному URL стоит 🔅1 монету в @yes_ai_bot, соответственно, если вы укажете 35 ссылок, то обучение будет стоить 35 монет, оплата взимается однократно. Мы не снимаем монеты за ссылки, которые не удалось открыть в процессе обучения.
Если в модели gLoRA, которая была вами обучена, не обнаружен ответ на отправленный боту вопрос, то бот Yes Ai сообщит, что на данный момент ответ еще не известен нейросети. Однако, вы будете иметь возможность дообучить модель gLoRA с помощью отправки дополнительных материалов — такой подход хорошо подойдет, например, для формирования базы знаний о вашей компании.