Что такое эмбеддинги и как они помогают искусственному интеллекту понять мир людей

0
21

Что творит искусственный разум? Генеративный ИИ (GenAI) лишь первый штрих в большой архитектуре Large Language Model. И возможно, ошибочный…

Что творит искусственный разум? Генеративный ИИ (GenAI) лишь первый штрих в большой архитектуре Large Language Model. И возможно, ошибочный…

Необходимость оперировать с такими гигантскими объёмами данных привела к появлению разнообразных вариантов, увеличивающих производительность и результативность работы сети: свёрточные, рекуррентные, генеративно-состязательные нейросети (они дали мощный импульс генерации изображений) и многие другие, включая модели-трансформеры, которые положены в основу математики больших моделей. Аббревиатура GPT подразумевает Generative Pre-trained Transformer и означает наличие специфического механизма «внимания» (attention): он даёт возможность обнаруживать и фиксировать связи и иерархические отношения между словами одного предложения.

Встраивания – это числовые представления объектов реального мира, которые используются в системах машинного обучения и искусственного интеллекта для анализа сложных областей знаний квазичеловеческим способом. Например, вычислительные алгоритмы понимают, что разность между числами 2 и 3 составляет 1, и воспринимают это как более тесную связь между числами 2 и 3 по сравнению с парой чисел 2 и 100. В реальных примерах использования анализируются более сложные взаимосвязи. Например, «птичье гнездо» и «львиное логово» воспринимаются как однотипные пары понятий, а «день» и «ночь» – как противоположные понятия. Встраивания преобразуют объекты реального мира в сложные математические представления, в которых отражаются свойства и взаимосвязи между этими объектами. Весь процесс автоматизирован: системы искусственного интеллекта самостоятельно создают встраивания в процессе обучения и используют их по мере необходимости для выполнения новых задач.

Как отмечают аналитики «Яков и Партнёры» в своём исследовании «Искусственный интеллект в России — 2023: тренды и перспективы», на текущий момент самая маленькая GPT-модель от OpenAI, доступная разработчикам, содержит 350 млн параметров и обучена на 40 Гб текстовых данных (Ada). Она способна выполнять базовые задачи понимания естественного языка и генерации данных — классификацию, анализ настроения (sentiment analysis), суммаризацию текста и простой диалог.

Денис Душенев, пентестер из компании Compliance Control, рассказывает в своей статье «ChatGPT: ещё один инструмент пентестера» на ресурсе anti-malware.ru, что модель СhatGPT вполне может помочь специалисту в написании разнообразных скриптов: «Если вы хотите решить свою проблему через поиск в интернете или задав вопрос на профильном форуме, попробуйте сперва узнать решение у ChatGPT. Есть хорошие шансы того, что чат-бот позволит сэкономить ваше время».

Встраивания повышают качество данных при обучении больших языковых моделей (LLM). Например, специалисты по работе с данными используют встраивания для очистки обучающих данных от нарушений, плохо влияющих на обучение модели. Инженеры машинного обучения также могут изменять назначение уже обученных моделей, добавляя новые встраивания для трансферного обучения и добавляя новые наборы данных для доработки базовой модели. Благодаря встраиваниям инженеры могут точно настроить модель для работы с пользовательскими наборами данных из реального мира.

То есть, чтобы их можно было складывать, умножать на скаляры, находить между ними расстояния и при этом каждое такое действие с числовыми векторами имело смысл как некоторое действие над словами. Все публикации и лекции об эмбеддингах сегодня сопровождает известная картинка, поясняющая сказанное.

Что такое векторы во встраиваниях?

Понятно, что истории такого рода — это сложные целевые APT-атаки с использованием сгенерированных фейковых изображений, голоса, видео. Однако от темпов роста сегодняшних функциональных возможностей создания аудио/видеодипфейков буквально захватывает дух! И не только у обывателей. Александр Егоркин высказался весьма категорично: «Я не вижу пока нормального способа защиты от этого. От биометрии, с моей точки зрения, нужно отказываться. Она ни как система идентификации, ни как система аутентификации сейчас не годится. Атака превосходит оборону на порядок». Может быть, страну, только-только занявшуюся реальной борьбой с мошенничествами социальной инженерии, накроет новая волна киберпреступности, вооружённой технологиями дипфейков? Возможно, это чрезмерный алармизм, но индустрию электронных методов удостоверения личности точно ждут большие изменения.

Термин «эмбеддинг» (от англ. embedding – вложение) — стал часто встречаться в описаниях систем искусственного интеллекта только в последние несколько лет, а впервые появился в работах специалистов по обработке текстов на естественных языках. Естественный язык – это привычный способ общения людей. Например, язык машин – это двоичный код, в который компилируются все другие языки программирования. Однако в нашем случае речь идет именно об обработке естественного языка человека.

Логичный вариант применения LLM — контактные центры. Система мониторинга качества обслуживания SferaGPT компании «Авантелеком» умеет оценивать телефонные разговоры и давать рекомендации с помощью генеративной нейронной сети. А компания 3iTech завершает работу над продуктом 3i LLM, который, в частности, поможет улучшить работу по контролю качества работы корпоративных контактных центров. «Заказчики давно хотят понимать естественную речь не по жёстким сценариям, как это делалось всегда, а без всяких сценариев»,— замечает Алексей Любимов, генеральный директор 3iTech. Компания реализует платформенный подход к использованию LLM: это позволит легко создавать разнообразных ассистентов, которые будут владеть актуальной корпоративной информацией.

Результаты применения эмбеддингов BERT впечатляют. Кроме уже привычных оценок тональности текста — позитивных и негативных высказываний, компьютер стал определять наличие сарказма в тексте высказывания, обнаруживать ложь и страх. Это, кстати, уже используется электронными ассистентами. Определение эмоций человека позволяет добиться лучшей коммуникации с машиной. Да и сам человек начинает относиться к программе с большим доверием, в какой-то степени, как к человеку. Вот какие глубокие особенности человеческой психологии удается превратить в алгебраические соотношения эмбеддингов.

Превращение больших объёмов текстов в данные нейросети — ещё одно большое направление научных исследований. Например, важный элемент LLM — технологии эмбеддинга, предназначенные для обработки естественного языка (Natural Language Processing, NLP). Их задача — преобразование некоторой языковой конструкции в числовой вектор, с которым далее работает нейросеть. В простейшем случае для того, чтобы перевести слово в цифровую форму, можно просто сопоставить ему номер в некотором словаре. Владимир Крылов, д. т. н., консультант Artezio в своей статье «Что такое эмбеддинги и как они помогают искусственному интеллекту понять мир людей» («Наука и жизнь», апрель 2019 г., https://www.nkj.ru/open/36052/) приводит пример. Если взять для этих целей толковый словарь Д. Н. Ушакова, то длина такого вектора составит 85 289 элементов — столько слов содержит данный словарь. Тогда любому предложению на русском языке нужно будет поставить в соответствие кортеж таких 85 289-мерных векторов и перевести лингвистические отношения между словами в формат математических операций над числовыми векторами. Это очень упрощённая постановка задачи, но она показывает её масштаб и обусловливает огромный пласт научно-исследовательских работ. В их числе — методы, которые сегодня олицетворяют мейнстрим математических методов передовых больших нейросетей с глубоким обучением:

ЧИТАТЬ ТАКЖЕ:  Как реализовать нейросеть

В революционной работе Томаша Миколова, исследователя Google, и его коллег в 2013 году было предложено использовать гипотезу локальности: «слова, которые встречаются в одинаковых окружениях, имеют близкие значения». Близость в данном случае – это стоящие рядом сочетающиеся слова. Например, для нас привычно словосочетание «заводной будильник». А сказать “заводной океан” мы не можем — эти слова не сочетаются. Для получения таких свойств нужно строить эмбеддинги слов в высокоразмерном (но не зависящем от числа слов) векторном пространстве. Чтобы каждому слову теперь соответствовал набор из двух-пяти сотен чисел, и эти наборы удовлетворяли свойствам математического векторного пространства.

Сегодня всё больше и больше людей занимаются разработкой эмбеддингов. В принципе, уже можно говорить о том, что достаточно универсальный подход может базироваться на идее, что ИИ должен «мыслить» словами, в языковой форме. Другая идея опирается на предположение, что состояния мира могут преобразовываться в эмбеддинги, минуя словесное описание, например изображения или аудиозаписи можно сразу преобразовывать в многомерные вектора.

Фактически это дальнейшее расширение теории функциональных систем, над которой работал его великий дед П. К. Анохин. Он был уверен: «Каждый поведенческий акт, приносящий какой-то результат, большой или малый, неизбежно формируется по принципу функциональной системы». Объединение функциональных систем на основе современного математического подхода гиперсети позволяет представить разум человека в виде многоуровневой структуры. А сознание — это трафик в ней, отмечает Константин Анохин (рис. 1).

Обучение больших языковых моделей

Благодаря данному показателю можно снизить весомость наиболее широко используемых слов (предлогов, союзов, общих терминов и понятий). Для каждого термина в рамках определённого корпуса текстов предусматривается лишь одно единственное значение частоты слова. Показатель обратной частоты будет выше, если определённое слово с большой частотой используется в конкретном тексте, но редко — в других документах. Используя эмбеддинги в виде таких векторов, удалось впервые осуществить автоматический семантический анализ текстов, определяя имеющиеся в корпусе текстов темы и классифицировать тексты по основным темам.

Посмотрите в упомянутый Толковый словарь Ушакова – вы не найдете там такого популярного слова как «компьютер». Существенно снизить вероятность такой проблемы можно не используя специальный словарь, а нумеруя слова в произвольном обширном наборе текстов, например, в Википедии, Большой российской энциклопедии. Для этих целей сегодня создаются специальные наборы, называемые корпусами текстов.

Первое число в векторе соответствует определенному жанру. Модель машинного обучения обнаружит, что «Конференция» и «Байки из склепа» относятся к одному жанру. Кроме того, модель найдет определенное сходство между «Загрузкой» и «Байками из склепа» по третьему числу, которое отражает формат программы, номера сезонов и эпизодов. По мере увеличения количества переменных можно скорректировать модель, чтобы сжать еще больше информации в векторном пространстве меньшего размера.

Ещё один вариант применения LLM — умный помощник в интеллектуальной деятельности человека. Правда, о написании реальных дипломных работ всерьёз говорить всё-таки не приходится. Как рассказывает Мария Ушанкова, руководитель направления «Программная инженерия» государственного университета «Дубна», с прошлого года действует сервис «Антиплагиат», проверяющий проверку текстов на присутствие частей, сгенерированных нейросетями. Однако и без этой помощи преподаватель легко находит результаты «труда» нейросети, говорит эксперт: «Пока что нейросетям сложно даётся конкретика. Налить воды в текст — это пожалуйста. Но написать что-то осмысленное по конкретной теме, да ещё с подробностями им пока удаётся плохо».

Понятно, что поиск весов связей нейронов становится весьма сложной математической задачей в реальных ситуациях, где гораздо выше и размерность входных данных, и количество скрытых слоёв, где формируются признаки исследуемой ситуации. Сегодняшние LLM имеют десятки и сотни миллиардов параметров и уже берут «высоты» свыше триллиона параметров. Например, бета-версия GPT-3 (разработка лаборатории OpenAI), которая вышла в июне 2020 г., имела 175 млрд параметров, 96 слоёв нейронной сети и была обучена на 570 Гб текстовой информации (библиотеки Common Crawl, «Википедия», датасеты с книгами, тексты с сайтов WebText). Размер обученной модели составлял около 700 Гб, а максимальный размер запроса при этом — 2048 токенов (по сути, морфологических языковых единиц). Через полгода компания Google представила языковую модель на 1 трлн параметров. Китайская модель WuDao 2.0 использует 1,75 трлн параметров, а GPT-4 — 1,76 трлн (по экспертным оценкам).

Перед искусственным интеллектом (ИИ) открыта масса задач не только понимать особенности высказанного человеком и выбирать заранее декларированные возможные решения на их основе, но и строить сами решения. Достижение таких целей в системах искусственного интеллекта осуществляется использованием архитектур с многими нейронными сетями, генетических алгоритмов, деревьев выбора и других. Все они как правило работают эффективно, если данные для них представлены в виде числовых векторов. Это означает, что все данные для искусственного интеллекта следует представлять эмбеддингами.

Существует несколько успешно применяемых алгоритмов такого анализа: латентный семантический анализ, латентное размещение Дирихле и тематические модели Biterm для коротких текстов. Использование таких моделей, например, позволило сортировать гигантские потоки электронных писем по тематике и направлять их согласно предписанным правилам. На этом этапе внутри NLP начал формироваться мощный поток технологий, которые получили общую формулировку, как «понимание естественного языка».

Современные системы распознавания речи и текста открывают для людей новые возможности, значительно упрощая общение человека и машины. Мы можем отдавать голосовые команды автопилоту, спросить в чате у бота, какая завтра будет погода или получить рекомендации, как улучшить текст для книги. Все это стало возможным благодаря уникальным разработкам ученых и привычным словам, которые искусственный интеллект научился понимать с помощью эмбеддингов.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь