ТОП-30 ресурсов с данными для машинного обучения
WikiQA
Большинство предыдущих работ по выбору предложений для ответа сосредоточено на наборе данных, созданном на основе данных TREC-QA, который включает вопросы, созданные редакторами, и предложения-кандидаты для ответа, отобранные по совпадению содержательных слов в вопросе.
В случае, если каждый объект коллекции имеет одинаковый фиксированный набор признаков в числовом выражении, то последние допустимо рассматривать как Векторы в многомерном пространстве. Определенное количество таких записей можно рассматривать как Матрицу m х n, в которой есть m строк, для каждого объекта по одной, и n столбцов, для каждого признака по одному.
Набор данных Yelp – это множество предприятий, отзывов и пользовательских данных, которые можно применить в Pet-проекте и научной работе. Также можно использовать Yelp для обучения студентов во время работы с базами данных, при изучении NLP и в качестве образца производственных данных. Датасет доступен в виде файлов JSON и является «классикой» в обработке естественного языка.
Датасеты общего назначения можно использовать в простых Pet-проектах. Для анализа (EDA) или прогнозирования на их основе не нужны углубленные знания Data Science. Например, вы можете использовать простые техники машинного обучения, не углубляясь в Deep Learning.
В этом материале мы постарались рассказать о возможностях использования различных датасетов для реализации проектов в самых разных областях Data Science: политики, экономики, жилья, медицины, компьютерного зрения. Мы привели примеры, с помощью которых можно решить как разовые задачи с использованием ограниченного количества данных, так и задачи, которые требуют постоянного притока новой «даты».
Обработанная и структурированная информация, представленная в табличном виде, называется Dataset. В такой таблице объектами называются строки, а признаками – столбцы. Совокупность этой информации называется размеченными данными, которые являются основой для машинного обучения .
DeepLesion
Приведенные выше датасеты были найдены в результате мониторинга большого количества ресурсов. Поиск этих данных – процесс трудоемкий и требует времени. Он подходит, когда данные нужны вам разово. Однако, в случае, когда данные нужны постоянно, рекомендуется использовать агрегаторы. Наиболее известными из них являются open-data от GitHub, Dataset Search от Google и Microsoft Azure.
Еще один репозиторий с сотнями наборов данных предлагает Калифорнийский университет. Данные в UCI классифицируется по типу задач машинного обучения. Можно найти данные для одномерных и многомерных временных рядов, классификации, регрессии или рекомендательных систем. Некоторые наборы данных в UCI уже очищены и готовы к использованию.
Набор данных CIFAR-10 состоит из 60 000 цветных изображений 32×32 в 10 классах, по 6000 изображений в каждом классе. Он содержит 50 000 обучающих и 10 000 тестовых изображений. Изображения разделены на пять обучающих и одну тестовую партию по 10 000 изображений. Тестовая партия включает в себя 1000 случайно выбранных изображений из каждого класса. Обучающие партии содержат остальные изображения в случайном порядке. Однако, некоторые из обучающих партий могут содержать больше изображений из одного класса, чем из другого. Между собой обучающие партии включают 5000 изображений из каждого класса.
По данным Google, их Dataset Search проиндексировал около 25 миллионов наборов данных. Компания считает, что поиск данных поможет создать экосистему обмена, в которой правительства и частные компании смогут обмениваться данными, используя передовые методы хранения и публикации. Большинство открытых датасетов используют schema.org, который является стандартом. Это означает, что любой желающий может свободно загружать и использовать эти наборы данных для исследований, бизнес-аналитики, или обучения ML-модели.
Формат представленной информации может быть разнообразным. Например, если есть необходимость добавить в приложение голосовой поиск, то достаточно предоставить нейронной сети данные, в которых имеется живая речь. Для облегчения распознавания запросов искусственным интеллектом нужно использовать как можно больше примеров. Под примером понимается фрагмент записи речи в аудио-формате, отмеченные в ней части и их перевод.
Решение этой же задачи усложнится в несколько раз в том случае, если потребуется определить не только вид животного, но и его породу. Тогда кроме определения классификации по виду, необходимо произвести подразделение их по породам, что влечет за собой огромное количество размеченных изображений.
Это новый масштабный набор данных, который содержит разнообразные стерео видеопоследовательности, записанные в уличных сценах из 50 городов. В них содержатся высококачественные аннотации на уровне пикселей (pixel-level) для 5000 кадров, в дополнение к набору из 20 000 слабо аннотированных кадров. Таким образом, CityScapes предлагает значительно большой набор данных, чем аналогичные ресурсы.
Google Dataset Search – это версия поисковой системы Google, которую можно использовать для поиска наборов данных со всего мира в таких областях, как машинное обучение, социальные науки, государственные данные, геонауки, биология, науки о жизни, сельское хозяйство.