Какие задачи решают дискриминативные нейросети

0
29

Не генеративным ИИ единым

Генеративные Модели

Естественным развитием SSL стало самопредсказуемое обучение (self-predictive learning, SPL), иначе называемое аутоассоциативным самообучением (autoassociative self-supervised learning). Это примерно то, о чём говорил когда-то основоположник палеонтологии и изобретатель сравнительно-анатомического метода Жорж Кювье (Georges Cuvier): «Дайте мне одну кость, и я восстановлю по ней животное». Метод SLP позволяет натренировать модель МО так, что по предложенным ей фрагментам некоего объекта она с достаточной степенью достоверности смоделирует недостающие его части — и, соответственно, весь объект целиком. SLP находит самое широкое применение в разнообразных генеративных моделях — в частности, тех, что используют для дорисовки изображений (outpainting) за пределы исходно занимаемого теми холста. Вариационные автокодировщики (variational autoencoders, VAE), которые ответственны за «трансляцию» изображения, сформированного в латентном пространстве современными генеративными моделями для преобразования текста в картинки, в постижимый человеком графический формат, также относятся к категории SLP. Равно как и авторегрессивные модели (autoregressive models), «предсказатели будущего на основе прошлого», — именно они лежат в основе таких широко известных сегодня больших языковых моделей, как GPT, LLaMa и Claude.

Известны также полусамообучаемые (semi-supervised) модели, опирающиеся в ходе тренировки частью и на размеченные, и на не размеченные людьми данные. Их часто применяют там, где полагаться целиком и полностью на самообучение неразумно: например, в современных системах распознавания речи. Размеченный людьми массив — аудиозаписи, транскрибированные вручную, — для таких систем составляет десятки, максимум сотни часов; на его основе модель тренируется переводить голос в текст с понятными ограничениями — по словарному запасу, по манере произношения соответствующих дикторов и т. п. Затем к этому массиву добавляется другой, уже неаннотированный, более обширный — в сотни и даже тысячи часов, и обучение продолжается уже в самостоятельном режиме. В результате получается система, способная довольно уверенно транскрибировать речь самых разных людей на самые различные темы — и с приемлемо низким уровнем неизбежных, увы, ошибок.

Байесовские сети являются типом вероятностной графической модели. Они представляют собой условные зависимости между переменными, представленные направленным ациклическим графом. В байесовской сети каждое ребро графа представляет собой условную зависимость, а каждый узел соответствует уникальной переменной. Условная независимость уникальных взаимосвязей на графике может использоваться для определения совместного распределения переменных и вычисления совместной вероятности. Другими словами, байесовская сеть захватывает подмножество независимых отношений в конкретном совместном распределении вероятностей.

Какое же из направлений МО наиболее предпочтительно для создания в будущем «настоящего» (в смысле — сильного) ИИ? Эксперты называют в числе наиболее многообещающих методов и RL, и SLP, но основной упор делают на объяснимые модели машинного обучения — такие, «образ мыслей» которых не будет оставаться загадкой для создающих, тренирующих и эксплуатирующих их биологических специалистов. Кроме того, придётся справиться с целым рядом вызовов — включая нехватку данных для обучения новых сверхкрупных языковых моделей, контаминацию этих самых данных «вторичными» (т. е. теми, что сгенерировали уже действующие генеративные ИИ), а также возможные архитектурные затруднения: неиллюзорен риск того, что виртуальная реализация «сильных» моделей МО в памяти фон неймановских компьютеров окажется делом избыточно затратным — и потребует оперативного перехода к нейроморфным аппаратным системам специализированных архитектур. Так или иначе, это направление развития высоких технологий явно продолжит оставаться приоритетным в обозримой перспективе — а значит, имеет смысл ожидать сравнительно скорых результатов и новых достижений в области машинного обучения.

Поскольку в нынешнем своём состоянии ИИ к эксплицитным рассуждениям в любом случае не способен, сила его генеративных моделей (точнее, конечно, было бы говорить о генеративном машинном обучении, но термин GenAI уже устоялся) — как раз в имплицитном характере реализации ими всех тех замечательных способностей, которыми так искренне восхищается широкая общественность вот уже почти два года. А именно: к созданию статичных и движущихся картинок, к сочинению музыки, к поддержанию содержательной (с точки зрения человека, то бишь информационно и эмоционально насыщенной) беседы на естественном языке и т. п. Отметим, что до недавнего времени сравнительно живым разработчикам всё равно приходилось прилагать немалые усилия для разметки (сопровождения исчерпывающим текстовым описанием) исходных массивов данных — тех, к примеру, изображений, на которых модель обучалась преобразовывать слова-подсказки в визуальные образы. Однако сегодня уже по сути состоялся переход от классического «обучения с учителем» (supervised learning), когда человеку необходимо было собственноручно индексировать скармливаемые модели массивы тренировочных данных, к самообучению (self-supervised learning) — использующему имплицитную генерацию меток для неструктурированных данных. Именно благодаря самообучению наиболее продвинутые генеративные модели, начиная с GPT 3.5 (ставшей основой для нашумевшего осенью 2022-го ChatGPT), распахнули перед человечеством недоступные прежде горизонты — что, собственно, и подтверждается немалым ажиотажем, не утихшим до сих пор.

Сходство SSL с обучением без учителя очевидно — в обоих случаях для тренировки модели используют неразмеченные данные, так что поиск внутренних закономерностей и связей реализуется имплицитно, без привлечения заданных извне (и тем более верифицируемых оператором) классификаций. Но не менее явственны и различия: прежде всего, SSL обладает предсказательной силой, пусть и отягощённой возможностью галлюцинаций. Скажем, одно из широко распространённых применений обученных без учителя МО-моделей — это выдача рекомендаций клиентам онлайн-магазинов в духе «С этом товаром часто покупают…» — поскольку такая система способна быстро выявить в большом массиве данных о совершённых покупках значимые корреляции между парами разнородных на первый взгляд товарных позиций. Применение же SSL-модели даёт возможность интерактивного машинного взаимодействия с каждым конкретным клиентом: если по всей выборке вместе с товаром А значимо часто покупают товар Б, но именно данный пользователь и раз, и другой проигнорировал выданную ему системой подсказку, гораздо разумнее не продолжать ломиться в открытую дверь, раздражая вдобавок клиента назойливостью, а предложить в пару к А какую-нибудь иную товарную позицию, с более низким показателем корреляции, — возможно, этот вариант сработает?

Алгоритм можно определить как раз и навсегда заданный (в частности, программным кодом) конкретный способ решения довольно строго определённой прикладной задачи. Неимоверная популярность искусственного интеллекта в наши дни обусловлена в немалой степени как раз тем, что тот способен решать весьма нечётко очерченные проблемы — вроде «идентифицируй в толпе, которую снимает камера наружного наблюдения с не самой совершенной оптикой, человека по сделанному в студии портретному фото», «нарисуй забавного котика» или «поясни, что не так с этим фрагментом кода на Python». Вместе с тем сами принципы построения ИИ-систем как раз подчиняются весьма чётко прописанным закономерностям, известным как способы (иногда также называемые алгоритмами) машинного обучения (МО). В наши дни у всех на слуху генеративный искусственный интеллект — способ организации МО, реализованный в таких популярных моделях и сервисах, как ChatGPT, Midjourney, Kling и т. п. Почему же так вышло, что все прочие алгоритмы машинного обучения оказались с точки зрения широкой публики в тени генеративного — и изменится ли эта ситуация в ближайшем будущем?

Поддерживающие векторные машины работают, рисуя границу решения между точками данных, находя границу решения, которая лучше всего разделяет различные классы в наборе данных. Алгоритм SVM рисует либо линии, либо гиперплоскости, разделяющие точки, для двумерных и трехмерных пространств соответственно. SVM пытается найти линию/гиперплоскость, которая лучше всего разделяет классы, пытаясь максимизировать запас или расстояние между линией/гиперплоскостью и ближайшими точками. Модели SVM также можно использовать для наборов данных, которые не являются линейно разделимыми, используя «трюк ядра» для определения нелинейных границ решений.

ЧИТАТЬ ТАКЖЕ:  Как попросить нейросеть нарисовать картинку

⇡#Сама, сама, сама

Одним из наиболее часто используемых типов байесовских сетей является наивная байесовская модель. Наивная байесовская модель решает задачу расчета вероятности для наборов данных со многими параметрами/переменными, рассматривая все признаки как независимые друг от друга.

Собственно, неохватная величина ресурсов (условных человеко-часов), которые требовалось затрачивать на разметку тренировочных массивов данных вручную, и сдерживала долгое время развитие генеративных моделей. С тренировкой дискриминативных, применяемых для классификации разнородных сущностей (кошка — собака, мотоцикл — автомобиль и т. п.), всё несколько проще: здесь ведущему обучение оператору достаточно отмечать сделанный системой МО выбор как корректный или некорректный, способствуя тем самым через обратную связь перекалибровке весов на входах модельных перцептронов. Генеративный же ИИ способен сам создавать — точнее, порождать, отталкиваясь от имплицитно «ухваченных» образов, — достаточно сложные сущности. Синтетический голос, например, по тембру почти (пока — почти) неотличимый от принадлежащего тому или иному человеку. Или визуальный образ того же самого человека, статичный либо движущийся. Или текст, написанный в заданной манере и на заданную тему. Понятное дело, выдача моделей GenAI не обходится без галлюцинаций — такова уж природа имплицитного «знания». Но выгоды от использования систем МО, построенных на самообучении, настолько значительны, что сознательное принятие вероятности их галлюцинирования во многих случаях представляется вполне разумной платой.

Одна из ключевых особенностей искусственного интеллекта — его «неалгоритмичность»: чрезвычайная сложность интерпретации «принимаемых» им решений, обусловленная высокой сложностью искусственных нейросетевых структур. Однако сами эти структуры строятся по вполне логически обоснованным принципам. И популярными генеративными моделями круг этих принципов вовсе не ограничен

Строго говоря, машинное обучение можно рассматривать как подраздел искусственного интеллекта в широком смысле — включающего, к примеру, и такую далёкую пока что от практической реализации сферу, как «сильный» ИИ, способный самостоятельно формулировать для себя задачи и отыскивать пути их решения. Подход же МО не предполагает со стороны вычислительной системы какой бы то ни было аналитики, не говоря уже об осознанности (что бы под той ни подразумевалось в приложении к компьютерной эмуляции нейросети) производимых над данными действий. Машинное обучение — не более чем автоматизированное извлечение закономерностей из большого массива данных по определённым правилам. Сами же эти правила, в свою очередь, определяются целями, которые ставили перед собой разработчики данной конкретной модели МО, подготавливая для её обучения тренировочный массив данных.

Таким образом, SSL схожи и с моделями, обученными с учителем, поскольку точно так же апеллируют к неким фундаментальным для тренировочной выборки данных закономерностям (англоязычный термин — ground truth), только не заданным живым оператором, а выбранным из входного неразмеченного массива данных имплицитно. Автооптимизация самообучаемой модели через обратное распространение ошибки производится в соответствии с теми же принципами градиентного спуска в многомерном пространстве, что и для моделей, обучающихся с учителем. Это делает возможным применение SSL для решения проблем классификации и регрессии — причём, поскольку поиск закономерностей в тренировочном массиве самообучаемая модель ведёт имплицитно, «ухваченные» ею категории могут либо вовсе не соответствовать тем, которыми оперировали бы размечающие тот же массив люди, либо заметно от них отличаться. В этом, собственно, одна из важнейших причин непостижимости «логики» SSL в целом и генеративного ИИ в частности: формально какие-то закономерности система в исходных данных нащупывает и в своих дальнейших действиях ими руководствуется, но вот средств как-то выразить их в доступной человеческому восприятию форме у неё нет. По крайней мере, в базовом варианте реализации SSL; прикручивание к ней «объясняющих модулей» — отдельное и чрезвычайно увлекательное направление развития МО.

Пример задачи из области машинного зрения, для которой обучение с учителем выходит запредельно ресурсоёмким, — сегментация по образцам (instance segmentation), в ходе которой определяется, какие в точности пикселы изображения относятся к данному конкретному образцу объекта. Скажем, на кадре с видеокамеры высокого разрешения, где человек стоит на фоне автомобиля или другого человека, для многих прикладных приложений необходимо чётко определять не просто сами грубые контуры этих объектов (эта задача, object detection, как раз неплохо решается более простыми моделями), но то, какому из них принадлежит каждая конкретная точка в составе картинки. Можно представить себе объём трудозатрат на ручную попиксельную разметку даже одного кадра в Full HD, — а ведь для формирования у модели, обучаемой с учителем, достоверно эффективных закономерностей потребуется не одна сотня, если не сотня тысяч таких кадров. SSL же подобные задачи решают куда эффективнее — как раз из-за отсутствия необходимости в привлечении живых операторов.

Эта несложная по описанию процедура на деле чревата немалым числом проблем — таких, в частности, как недоадаптация и переадаптация (underfitting и overfitting соответственно). В нашем примере почерк формировавшего обучающий массив человека может оказаться столь вычурным, что, обучившись великолепно отождествлять написанные им цифры, система будет испытывать немалые затруднения с распознаванием иных примеров. Но в целом дискриминативное обучение с учителем — это надёжная классика МО: к примеру, давным-давно применяемые антиспам-фильтры для электронной почты строятся на основе именно таких моделей, проходящих к тому же — в идеале — непрерывное дообучение всякий раз, когда очередной пользователь нажимает в интерфейсе своего почтового клиента на значок «Это спам». Помимо отнесения предъявленной сущности к чётко определённым категориям («крокодил — аллигатор», «тройка — семёрка — туз»), что обычно и характеризуется как классификация (classification), обученная с учителем дискриминативная модель может выдавать и величины из непрерывного ряда — скажем, оценивать плотность людского потока (чел./мин) на входе станции метрополитена в зависимости от времени суток, даты, погодных условий и т. п.; тогда речь идёт о решении задачи регрессии (regression). Для построения моделей МО, специализирующихся на классификации и регрессии, применяют соответствующие алгоритмы, и они находят самое широкое применение в самых разнообразных практических приложениях — в системах компьютерного зрения, например.

Логистическая регрессия — это алгоритм, использующий логит-функцию (логарифм шансов) для определения вероятности того, что ввод находится в одном из двух состояний. Сигмовидная функция используется для «сжатия» вероятности до 0 или 1, истинной или ложной. Предполагается, что вероятности выше 0.50 относятся к классу 1, а вероятности 0.49 или ниже считаются равными 0. По этой причине логистическая регрессия обычно используется в задачах бинарной классификации. Однако логистическую регрессию можно применять к проблемам с несколькими классами, используя подход «один против всех», создавая модель бинарной классификации для каждого класса и определяя вероятность того, что пример является целевым классом или другим классом в наборе данных.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь