Что такое модели искусственного интеллекта

0
20

Что такое модели искусственного интеллекта

В чем уникальность базовых моделей?

У компании Cohere есть две большие языковые модели: одна – генеративная модель, по возможностям аналогичная GPT-3, а другая – репрезентативная модель, предназначенная для понимания языков. Хотя Cohere имеет всего 52 миллиарда параметров, она во многих отношениях превосходит GPT-3.

К — ближайших соседей: Алгоритм k -ближайших соседей используется для классификации точек данных на основе классификации их k ближайших соседей (где k — некоторое целое число). Например, если у нас k = 5, то для каждой новой точки данных мы дадим ей ту же классификацию, что и большинству (или множеству) ее ближайших соседей в наборе данных.

Базовые модели, даже если они прошли предварительное обучение, могут продолжать учиться на основе введенных данных или подсказок во время логических выводов. Это означает, что вы можете получить исчерпывающие результаты с помощью тщательно подобранных подсказок. Задачи, которые могут выполнять базовые модели, включают обработку языка, визуальное восприятие, генерацию кода и взаимодействие, ориентированное на человека.

Модель генеративного предварительно обученного трансформера (GPT) была разработана компанией OpenAI в 2018 году. В нем используется 12-уровневый декодер-трансформер с механизмом самоконтроля. Обучение было проведено на основе набора данных BookCorpus, содержащего более 11 000 бесплатных романов. Примечательной особенностью GPT-1 является возможность обучения с нуля.

Hugging Face – это платформа, которая предлагает инструменты с открытым исходным кодом для создания и развертывания моделей машинного обучения. Она выступает в роли центра сообщества, где разработчики могут делиться моделями и наборами данных и изучать их. Членство для физических лиц бесплатное, хотя при оформлении платной подписки предлагается более высокий уровень доступа. У вас есть публичный доступ к почти 200 000 моделей и 30 000 наборов данных.

Алгоритм дерева решений, например, создает модель, состоящую из дерева утверждений «если-то», каждое из которых основано на определенных значениях. Между тем, алгоритмы глубоких нейронных сетей создают модель, состоящую из структуры графа, которая содержит множество различных векторов или весов с определенными значениями.

Базовые модели (FM), обученные на огромных наборах данных, представляют собой крупные нейронные сети с глубоким обучением, которые изменили подход специалистов по работе с данными к машинному обучению (ML). Вместо того чтобы разрабатывать искусственный интеллект с нуля, специалисты по работе с данными используют базовую модель в качестве отправной точки для разработки моделей машинного обучения, позволяющих быстрее и экономичнее осваивать новые сферы применения. Термин «базовая модель» был придуман исследователями для описания моделей ML, обученных на широком спектре обобщенных и немаркированных данных и способных выполнять широкий спектр общих задач, таких как понимание языка, генерирование текста и изображений и общение на естественном языке.

В базовых моделях используется самоконтролируемое обучение для создания этикеток на основе входных данных. Это означает, что никто не проинструктировал или не обучил модель с помощью маркированных наборов данных для обучения. Эта функция отличает LLM от предыдущих архитектур машинного обучения, в которых используется обучение с наблюдением или без наблюдения.

ЧИТАТЬ ТАКЖЕ:  Как создать презентацию с помощью нейросети

Как работают базовые модели?

Базовые модели демонстрируют отличные результаты в сфере машинного зрения, особенно в том, что касается идентификации изображений и физических объектов. Эти возможности могут найти применение в таких приложениях, как автономное вождение транспортных средств и робототехника. Другой возможностью является генерация изображений на основе введенного текста, а также редактирование фотографий и видео.

Stable Diffusion – это модель преобразования текста в изображение, которая позволяет создавать реалистичные изображения высокой четкости. Она была выпущена в 2022 году и имеет модель диффузии, в которой используются технологии создания и удаления шума, позволяющие научиться создавать изображения.

Алгоритмы искусственного интеллекта и машинного обучения в своей основе являются математическими объектами, но их также можно описать с помощью псевдокода , т. е. неформального языка высокого уровня, который чем-то напоминает компьютерный код. На практике, конечно, модели ИИ могут быть реализованы с помощью любого из ряда современных языков программирования. Сегодня различные библиотеки с открытым исходным кодом (такие как scikit-learn, TensorFlow и Pytorch) делают алгоритмы ИИ доступными через свой стандартный интерфейс прикладного программирования (API).

Базовые модели Amazon Titan предварительно обучены работе с большими наборами данных, что делает их мощными моделями общего назначения. Их можно использовать как есть или настраивать в частном порядке с учетом специфических для компании данных для выполнения конкретной задачи без аннотирования больших объемов данных. Первоначально Titan будет предлагать две модели. Первая – это генеративная программа LLM для таких задач, как обобщение, генерация текста, классификация, открытые вопросы и ответы и извлечение информации. Вторая – это LLM для эмбеддингов, которая переводит входные текстовые данные, включая слова, фразы и большие блоки текста, в числовые представления (известные как эмбеддинги), содержащие семантическое значение текста. Хотя эта LLM не генерирует текст, она полезна для таких задач, как персонализация и поиск, поскольку при сравнении эмбеддингов модель дает более релевантные и контекстные ответы, чем сопоставление слов. Чтобы и впредь поддерживать передовые практики ответственного использования искусственного интеллекта, базовые модели Titan предназначены для обнаружения и удаления вредоносного контента в данных, отклонения неприемлемого контента при вводе данных пользователем и фильтрации выходных данных моделей, содержащих неприемлемый контент, такой как ненавистнические высказывания, ненормативная лексика и насилие.

Уникальной особенностью базовых моделей является их адаптируемость. Эти модели могут выполнять широкий спектр разрозненных задач с высокой степенью точности на основе подсказок по вводу. Некоторые задачи включают обработку естественного языка (NLP), ответы на вопросы и классификацию изображений. Размер и универсальный характер FM отличают их от традиционных моделей машинного обучения, которые обычно выполняют определенные задачи, такие как анализ текста на предмет настроений, классификация изображений и прогнозирование тенденций.

Базовые модели могут существенно изменить жизненный цикл машинного обучения. Хотя разработка базовой модели с нуля в настоящее время обходится в миллионы долларов, ее можно затем долго использовать. Специалистам по работе с данными быстрее и дешевле использовать предварительно обученные базовые модели для разработки новых приложений ML, а не обучать уникальные модели ML с нуля.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь