Содержание статьи
Эпоха, батч, итерация — в чем различия
Расширение данных и передача обучения
Поиск качественных данных для различных вариантов использования в разных отраслях и областях не всегда проходит гладко. В таких чувствительных секторах, как здравоохранение или финансы, качественные данные едва ли доступны. В таких случаях аугментация данных, включающая использование синтезированных данных, становится единственным способом продвижения вперед в моделях обучения.
Когда данных недостаточно, мы можем обратиться к генераторам синтетических данных. Синтетические данные удобны с точки зрения трансферного обучения, поскольку модель можно сначала обучить на синтетических данных, а затем на реальном наборе данных. Например, беспилотное транспортное средство на основе ИИ можно сначала научить распознавать и анализировать объекты в компьютерное зрение видеоигры.
Использование маркированных данных не является обязательным в неконтролируемом обучении, что снижает потребность в огромных объемах данных относительно. При этом объем данных все равно будет высоким для моделей, чтобы обнаруживать закономерности, идентифицировать врожденные структуры и коррелировать их.
Методы глубокого обучения помогают разрабатывать качественные модели, если в систему предоставляется больше данных. Принято считать, что 5000 размеченных изображений на категорию должно быть достаточно для создания алгоритма глубокого обучения, который может работать наравне с людьми. Для разработки исключительно сложных моделей требуется как минимум 10 миллионов помеченных элементов.
У градиентного спуска есть параметр, называемый скоростью обучения. На левой верхней картинке видно, что в самом начале шаги больше, то есть скорость обучения выше, а по мере приближения точек к краю кривой скорость обучения становится меньше благодаря уменьшению размера шагов. Кроме того, значение функции потерь (Cost function) уменьшается, или просто говорят, что потери уменьшаются. Часто люди называют функцию потерь Loss-функцией или просто «Лосс». Важно, что если Cost/Loss функция уменьшается, то это хорошо.
Кривые обучения используются для демонстрации эффективности алгоритма машинного обучения в зависимости от количества данных. Имея навык моделирования по оси Y и набор обучающих данных по оси X, можно понять, как размер данных влияет на результат проекта.
Градиентный спуск
Алгоритм итеративный, процедура проводится несколько раз, чтобы добиться оптимального результата. При правильной реализации алгоритма, на каждом шаге результат получается лучше. Таким образом, итеративный характер градиентного спуска помогает плохо обученной модели оптимально подстроиться под данные.
Хотя золотого правила не существует, и обычно делается грубое обобщение, чтобы предвидеть потребности в обучающих данных, всегда лучше иметь большие наборы данных, чем страдать от ограничений. Ограничение данных, от которого страдает ваша модель, будет ограничением вашего проекта.
Нет однозначного ответа на вопрос, какое количество обучающие данные для машинного обучения необходим. Вместо того, чтобы работать с приблизительными цифрами, мы считаем, что множество методов могут дать вам точное представление о размере данных, которые вам могут потребоваться. Но перед этим давайте разберемся, почему обучающие данные имеют решающее значение для успеха вашего проекта ИИ.
Вам может показаться очевидным, что проекту нужны большие объемы данных, но иногда даже крупные компании, имеющие доступ к структурированным данным, не могут их получить. Обучение на ограниченных или узких объемах данных может остановить модели машинного обучения полностью реализовать свой потенциал и увеличить риск предоставления неверных прогнозов.
Работающая модель ИИ построена на надежных, надежных и динамических наборах данных. Без богатого и подробного Данные обучения ИИ под рукой, безусловно, невозможно создать ценное и успешное решение ИИ. Мы знаем, что сложность проекта диктует и определяет требуемое качество данных. Но мы не совсем уверены, сколько обучающих данных нам нужно для построения пользовательской модели.
Открытые наборы данных обычно считаются «хорошим источником» бесплатных данных. Хотя это может быть правдой, в большинстве случаев открытые наборы данных — это не то, что нужно проекту. Есть много мест, откуда можно получить данные, например, правительственные источники, порталы открытых данных ЕС, обозреватели общедоступных данных Google и т. д. Однако использование открытых наборов данных для сложных проектов имеет много недостатков.