Датасет для обучения чат-бота
Russian Open Speech To Text
Коллекция образцов речи, полученных из различных аудиоисточников. Набор данных содержит короткие аудиоклипы на русском языке. Все файлы были преобразованы в opus, за исключением тех, которые служат для проверки. Основная цель набора данных – обучение моделей преобразования речи в текст.
В сфере Deep Learning данные, в большинстве случаев, выражены не табличной датой, а изображениями, видео или текстом. В настоящее время, во многих научных работах используют запатентованные наборы данных, которые не принято публиковать для широкой публики. Это становится проблемой, если вы хотите учиться и практиковать свои навыки. Ниже мы привели самые интересные датасеты, которые можно использовать в сфере глубокого обучения. Они доступны каждому, а для их использования не требуется никаких дополнительных условий.
Если вы когда-нибудь проходили курсы или хакатоны, связанные с наукой о данных, вы наверняка сталкивались с Kaggle . Это сообщество специалистов по Data Science. Изначально оно было соревновательной платформой, однако со временем на Kaggle появились другие разделы, в том числе возможность делиться данными.
Например, если вы хотите создать нейросеть для оценки тональности текста (позитивный, негативный, нейтральный), датасетом будет список предложений с ответами — правильными оценками тональности. Сеть пытается определить тональность текста по признакам, которые придают ему негативную или позитивную окраску, — словам, фразам, структуре предложения. Веса признаков в итоговой оценке тональности текста определяются во время обучения нейронной сети.
Существует ZHVI верхнего уровня (стоимость домов в диапазоне от 65-го до 95-го процентиля для данного региона) и ZHVI нижнего уровня (стоимость домов в диапазоне от 5-го до 35-го процентиля для данного региона). Zillow также публикует ZHVI для всех типов домов и апартаментов, учитывая стоимость, количество спален и метраж.
Данные включают в себя информацию о различных типах поражений, таких как: узелки в легких, опухоли печени, увеличенные лимфатические узлы и т.д. Используя DeepLesion, мы обучаем универсальный детектор поражений, который может находить все их типы поражений с помощью единой унифицированной системы.
Сообщения SMS-спама были вручную извлечены с веб-сайта Grumbletext. Это британский форум, на котором пользователи мобильных телефонов публично заявляют о спамовых SMS-сообщениях. Идентификация текста спам-сообщений в претензиях – сложная и трудоемкая задача. Она включает тщательное сканирование сотен веб-страниц.
Для сбора записей пользователи краудсорсинговой платформы наговаривали предлагаемый им текст, а другие пользователи слушали аудио и пытались его транскрибировать. Выбор тематик записей не был случайным: акцент — на темах, полезных для виртуальных ассистентов Салют, например заказ продуктов, музыка, фильмы.
Автопилоты
Этот набор данных состоит из нескольких миллионов отзывов покупателей Amazon и их оценок. Датасет используется для возможности обучения fastText, анализируя настроения покупателей. Идея состоит в том, что несмотря на огромный объем данных – это реальная бизнес-задача. Модель обучается за считанные минуты. Именно это отличает Amazon Reviews от аналогов.
Этот портал позволяет загружать данные из различных государственных учреждений США – от бюджетов организаций до документов школ. Спектр тем настолько широк, что делает этот ресурс идеальным для применения в разных сферах вашей деятельности, связанной с датой.
Набор данных Yelp – это множество предприятий, отзывов и пользовательских данных, которые можно применить в Pet-проекте и научной работе. Также можно использовать Yelp для обучения студентов во время работы с базами данных, при изучении NLP и в качестве образца производственных данных. Датасет доступен в виде файлов JSON и является «классикой» в обработке естественного языка.
Большинство предыдущих работ по выбору предложений для ответа сосредоточено на наборе данных, созданном на основе данных TREC-QA, который включает вопросы, созданные редакторами, и предложения-кандидаты для ответа, отобранные по совпадению содержательных слов в вопросе.
Данные содержат аннотированные вручную трехмерные ограничительные рамки для каждого объекта, которые описывают его положение, ориентацию и размеры. Набор данных состоит из 15 000 аннотированных видеоклипов, дополненных более чем 4 млн аннотированных изображений в следующих категориях: велосипеды, книги, бутылки, камеры, коробки с крупами, стулья, чашки, ноутбуки и обувь.
При обучении нейронная сеть на основе входных данных предсказывает выходные данные, которые сравниваются с правильными ответами. Расхождение между выходными данными и правильным ответом используется для улучшения параметров нейросети (изменения весов параметров).
Для обеспечения географического разнообразия набор данных собран в 10 странах на 5 континентах. Вместе с «датой» ресурс предлагает решение для обнаружения 3D-объектов четырех категорий: обуви, стульев, кружек и камер. Модели, приведенные в качестве примера, обучены с использованием данных Objectron и выпущены в MediaPipe .
Датасеты общего назначения можно использовать в простых Pet-проектах. Для анализа (EDA) или прогнозирования на их основе не нужны углубленные знания Data Science. Например, вы можете использовать простые техники машинного обучения, не углубляясь в Deep Learning.