Список наборов данных для исследования машинного обучения

редактировать

Эти наборы данных используются для исследования машинного обучения и были цитированы в рецензируемых академических журналов. Наборы данных являются неотъемлемой частью машинного обучения. Значительный прогресс в этой области может быть достигнут за счет достижений в обучении алгоритмов (таких как глубокое обучение ), компьютерного оборудования и что менее интуитивно понятно, доступность высококачественных обучающих наборов данных. Высококачественные помеченные наборы обучающих данных для алгоритмов машинного обучения контролируемых и полу-контролируемых обычно сложно и дорого выполнять из-за большого количества времени, необходимого для разметки данных. Хотя их не нужно маркировать, высококачественные наборы данных для неконтролируемого обучения также могут быть сложными и дорогостоящими в производстве.

Содержание
  • 1 Данные изображения
    • 1.1 Распознавание лиц
    • 1.2 Распознавание действий
    • 1.3 Обнаружение и распознавание объектов
    • 1.4 Распознавание рукописного ввода и символов
    • 1.5 Аэрофотоснимки
    • 1.6 Другие изображения
  • 2 Текстовые данные
    • 2.1 Обзоры
    • 2.2 Новостные статьи
    • 2.3 Сообщения
    • 2.4 Твиттер и твиты
    • 2.5 Диалоги
    • 2.6 Другой текст
  • 3 Звуковые данные
    • 3.1 Речь
    • 3.2 Музыка
    • 3.3 Другие звуки
  • 4 Сигнальные данные
    • 4.1 Электрические
    • 4.2 Отслеживание движения
    • 4.3 Другие сигналы
  • 5 Физические данные
    • 5.1 Физика высоких энергий
    • 5.2 Системы
    • 5.3 Астрономия
    • 5.4 Науки о Земле
    • 5.5 Другое физическое состояние
  • 6 Биологические данные
    • 6.1 Человек
    • 6.2 Животное
    • 6.3 Растение
    • 6.4 Микроб
    • 6.5 Обнаружение лекарств
  • 7 Данные об аномалиях
  • 8 Данные для ответа на вопрос
  • 9 Многомерные данные
    • 9.1 Финансы
    • 9.2 Погода
    • 9.3 Перепись
    • 9.4 Transit
    • 9.5 Интернет
    • 9.6 Игры
    • 9.7 Другие многомерные
  • 10 Курируемые репозитории наборов данных
  • 11 См. Также
  • 12 Ссылки
Данные изображения

Наборы данных, состоящие в основном изображений или видео для таких задач, как обнаружение объектов, распознавание лиц и классификация по нескольким меткам.

Распознавание лиц

в компьютере Vision изображения широко использовались для разработки систем распознавания лиц, распознавания лиц и многих других проектов, в которых используются изображения лиц.

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Aff-Wild298 видео с 200 людей, ~ 1 250 000 вручную аннотированных изображений: аннотированные с точки зрения размерного аффекта (валентность-возбуждение); в дикой природе; база цветов; различное разрешение (среднее = 640x360)обнаруженные лица, лицевые ориентиры и аннотации валентного возбуждения~ 1 250 000 изображений с ручными аннотациямивидео (визуальные + аудиомодальности)распознавание аффекта (оценка валентности-возбуждения)2017CVPR

IJCV

D.Kollias et al.
Aff-Wild2558 видеороликов 458 человек, ~ 2 800 000 изображений с комментариями вручную: аннотированные с зрения точки i) категориального аффекта (7 основных выражений: нейтральный, счастье, грусть, удивление, страх, отвращение), гнев); б) размерный аффект (валентное возбуждение); iii) боевые единицы (1,2,4,6,12,15,20,25 ед.); в дикой природе; база цветов; различное разрешение (среднее = 1030x630)обнаруженные лица, обнаруженные и выровненные лица и аннотации~ 2 800 000 изображений с ручными аннотациямивидео (визуальные + аудио модальности)распознавание аффекта (оценка валентного возбуждения, классификация тип экспрессии, обнаружение единиц действия)2019BMVC

FG

D.Kollias et al.
FERET (технология распознавания лиц) 11338 изображений 1199 человек в разных положениях и в разное время.Нет.11 338ИзображенияКлассификация, распознавание лиц2003Министерство обороны США
Аудиовизуальная база данных эмоциональной речи Ryerson и Песня (RAVDESS)7 356 видео- и аудиозаписей 24 профессиональных актеров. 8 эмоций двух уровней интенсивности каждая.Файлы, помеченные выражением. Оценки перцепционной валидации предоставлены 319 оценщиками.7,356Видео, звуковые файлыКлассификация, распознавание лиц, распознавание голосов2018S.R. Ливингстон и Ф.А. Руссо
SCFaceЦветные изображения лиц под разными углами.Местоположение черт лица извлечено. Приведены координаты объектов.4,160Изображения, текстКлассификация, распознавание2011M. Grgic et al.
Йельская база данных лицЛица 15 человек в 11 различных выражениях.Ярлыки выражений.165ИзображенияРаспознавание лиц1997J. Ян и др.
Cohn-Kanade AU-Coded Expression DatabaseБольшая база данных изображений с метками для выражений.Отслеживание определенных черт лица.500+ последовательностейИзображения, текстАнализ выражения лица2000T. Kanade et al.
База данных выражений лица JAFFE213 изображений 7 выражений лица (6 основных выражений лица + 1 нейтральное), созданных 10 японскими моделями-женщинами.Изображения обрезаются до лицевой области. Включает данные семантических оценок по ярлыкам эмоций.213Изображения, текстПознание выражения лица1998Lyons, Kamachi, Gyoba
FaceScrubИзображения общественных деятелей удалены из результатов поиска.Имя и аннотация м / ж.107818Изображения, текстРаспознавание лиц2014H. Ng et al.
База данных лиц BioIDИзображения лиц с отмеченным положением глаз.Установка положения глаз вручную.1521Изображения, текстРаспознавание лиц2001BioID
Набор данных сегментации кожиЦвет, выбранный случайным образом значения из изображений лиц.B, G, R, значения извлечены.245,057ТекстСегментация, классификация2012R. Бхатт.
БосфорБаза данных трехмерных изображений лиц.Размечено 34 единицы действий и 6 выражений; Обозначены 24 лицевых ориентира.4652

Изображения, текст

Распознавание лиц, классификация2008Савран и др.
UOY 3D-Faceнейтральное лицо, 5 выражений: гнев, счастье, печаль, закрыты, брови глаза подняты.маркировка.5250

Изображения, текст

Распознавание лиц, классификация2004Йоркский университет
База данных лиц CASIA 3DВыражения: гнев, улыбка, смех, удивление, закрытые глаза.Нет.4624

Изображения, текст

Распознавание лиц, классификация2007Институт автоматики Китайской академии наук
CASIA NIRВыражения: Гнев Отвращение Страх Счастье Печаль СюрпризНет.480Захват видео в видимом спектре и ближнем инфракрасном диапазоне с аннотациями со скоростью 25 кадров в секундуРаспознавание лиц, классификация2011Чжао, Г. и другие.
BU-3DFEнейтральное лицо и 6 выражений: гнев, счастье, печаль, удивление, отвращение, страх (4 уровня). 3D изображения извлечены.Нет.2500Изображения, текстРаспознавание выражения лица, классификация2006Университет Бингемтона
Большой вызов распознавания лиц Набор данныхДо 22 образцов для каждого предмета. Выражения: гнев, счастье, печаль, удивление, отвращение, отечность. 3D-данные.Нет.4007Изображения, текстРаспознавание лиц, классификация2004Национальный институт стандартов и технологий
GavabdbДо 61 образца для каждой темы. Выражения лица нейтральное, улыбка, фронтальный акцентированный смех, фронтальный случайный жест. 3D изображения.Нет.549Изображения, текстРаспознавание лиц, классификация2008Университет короля Хуана Карлоса
3D-RMAДо 100 субъектов, выражения в основном нейтральные. Также несколько поз.Нет.9971Изображения, текстРаспознавание лиц, классификация2004Королевская военная академия (Бельгия)
SoF112 человек (66 мужчин и 46 женщин) носят очки при различных условиях освещения.Набор синтетических фильтров (размытие, окклюзия, шум и постеризация) с разным уровнем сложности.42,592 (2,662 исходных изображений × 16 синтетических изображений)Изображения, файл MatКлассификация по полу, распознавание лиц, распознавание лиц, оценка возраста и обнаружение очков2017Афифи М. и др.
IMDB-WIKIIMDB и Википедия изображения лиц с метками пола и возраста.Нет523,051ИзображенияГендерная классификация, обнаружение лиц, распознавание лиц, оценка возраста2015R. Rothe, R. Timofte, LV Gool

Распознавание действий

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных о взаимодействии с людьми на телевиденииВидео из 20 различных телешоу для прогнозирования социальных действий: рукопожатие, дай пять, объятия, поцелуй и ничего.Нет.6766 видеоклиповвидеоклиповПредсказание действий2013Patron-Perez, A. et al.
Мультимодальная база данных действий человека Беркли (MHAD)Записи одного человека, выполняющего 12 действийПредварительная обработка MoCap660 примеров действий8 PhaseSpace Motion Capture, 2 стерео камеры, 4 четырехкамерные камеры, 6 акселерометров, 4 микрофонаКлассификация действий2013Ofli, F. et al.
THUMOS DatasetБольшой набор видеоданных для действий.Действия классифицированы и обозначены.45 млн кадров видеоВидео, изображения, текстКлассификация, обнаружение действий2013Ю. Цзян и др.
MEXAction2Набор видеоданных для локализации и обнаружения действийДействия, классифицированные и помеченные.1000ВидеоОбнаружение действия2014Stoian et al.

Обнаружение и распознавание объектов

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСозданные (обновленные)СсылкаСоздатель
Визуальный геномИзображения и их описание108000изображений, текстПодписи к изображениям2016Р. Кришна и др.
Набор данных трехмерных объектов Беркли849 изображений, снятых в 75 различных сценах. Отмечено около 50 различных классов объектов.Ограничивающие рамки и маркировка объекта.849изображения с ярлыками, текстРаспознавание объектов2014А. Janoch et al.
Berkeley Segmentation Data Set and Benchmarks 500 (BSDS500)500 естественных изображений, явно разделенных на непересекающиеся подмножества тестирования и тестирования + код тестирования. На основе BSDS300.Каждое изображение сегментировано в среднем по пяти объектам различным.500Сегментированные изображенияОбнаружение контуров и иерархическая сегментация изображений2011Калифорнийский университет, Беркли
Общие объекты Microsoft в контексте ( COCO)сложные повседневные сцены обычных предметов в их естественном контексте.Подсветка, маркировка и классификация объектов по 91 типу объектов.2,500,000Помеченные изображения, текстРаспознавание объектов2015Т. Lin et al.
База данных SUNОчень большая база данных по распознаванию сцен и объектов.Места и объекты помечены. Объекты сегментированы.131067Изображения, текстРаспознавание объектов, распознавание сцены2014J. Xiao et al.
ImageNet База данных изображений помеченных объектов, используемая в ImageNet Large Scale Visual Recognition Challenge Помеченные объекты, ограничивающие рамки, описательные слова, функции SIFT14,197,122Изображения, текстРаспознавание объектов, распознавание сцен2009 (2014)J. Deng et al.
Открытые изображенияБольшой набор изображений, имеющих лицензию CC BY 2.0, с метками уровня изображения и ограничивающими рамками, охватывающими тысячи классов.Метки уровня изображения, ограничивающие рамки9 178 275Изображения, текстКлассификация, распознавание объектов2017
TV Набор данных обнаружения новостного каналаТелевизионные рекламные ролики и выпуск новостей.Аудио и видео функции, извлеченные из неподвижных изображений.129,685ТекстКластеризация, классификация2015Стр. Guha et al.
Набор данных Statlog (сегментирование изображений)Экземпляры были отобраны случайным образом из базы данных из 7 наружных изображений и вручную сегментированы для создания для каждого пикселя.Многие характеристики рассчитаны.2310ТекстКлассификация1990Массачусетский университет
Калтех 101 Изображения предметов.Детальные контуры объекта отмечены.9146ИзображенияКлассификация, распознавание объектов.2003Ф. Ли и др.
Caltech-256Большой набор изображений для классификации объектов.Изображения категоризированы и отсортированы вручную.30,607Изображения, текстКлассификация, обнаружение объектов2007G. Гриффин и др.
Набор данных SIFT10MОсобенности SIFT набора данных Caltech-256.Расширенное извлечение функций SIFT.11 164 866ТекстКлассификация, обнаружение объекта2016X. Fu et al.
LabelMeАннотированные изображения сцен.Объекты выделены.187240Изображения, текстКлассификация, обнаружение объектов2005Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института
Набор данных Городские пейзажиСтерео видеопоследовательности, записанные в уличных сценах, с аннотациями на уровне пикселей. Также включены метаданные.Сегментация и маркировка на уровне пикселей25000Изображения, текстКлассификация, обнаружение объектов2016Daimler AG и др.
PASCAL VOC DatasetБольшое количество изображений для задач классификации.Маркировка, включая ограничивающую рамку500 000Изображения, текстКлассификация, обнаружение объекта2010M. Everingham et al.
CIFAR-10 Набор данныхМножество небольших изображений 10 классов объектов с низким разрешением.Классы помечены, обучающая выборка разбита.60,000ИзображенийКлассификация2009A. Крижевский и др.
Набор данных CIFAR-100Как CIFAR-10, выше, но дано 100 объектов.Классы помечены, обучающая выборка разбита.60,000ИзображенийКлассификация2009A. Крижевский и др.
Набор данных CINIC-10Объединенный вкладыш CIFAR-10 и Imagenet с 10 классами и 3 разделениями. Больше, чем CIFAR-10.Классы помечены, обучение, проверка, разбиты наборы тестов созд.270,000ИзображенийКлассификация2018Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки
Fashion-MNISTБаза данных модных товаров, подобная MNISTКлассы помечены, созданная разбиения обучающего набора.60 000изображенийКлассификация2017Zalando SE
notMNISTНекоторые общедоступные шрифты и извлеченные глифы из них, чтобы сделать набор данных похожим на MNIST. Всего существует 10 классов, буквы A - J взяты из разных шрифтов.Классы помечены, обучающая выборка разбита.500 000изображенийКлассификация2011Ярослав Булатов
Немецкий набор данных по тестированию обнаружения дорожных знаковИзображения из автомобили дорожных знаков на немецких дорогах. Эти знаки соответствуют требованиям и поэтому такие же, как в других странах.Знаки, помеченные вручную900ИзображенияКлассификация2013S Houben et al.
Набор данных KITTI Vision BenchmarkАвтономные транспортные средства, проезжающие по городу среднего размера, изображения различных областей с помощью камер и лазерных сканеров.Многие тесты взяты из данных.>100 ГБ данныхИзображения, текстКлассификация, обнаружение объектов2012A Geiger et al.
Набор данных Линней 5Изображения 5 классов объектов.Классы помечены, обучающая выборка разбита.8000ИзображенияКлассификация2017Чаладзе и Калатозишвили
FieldSAFEМультимодальный набор данных для обнаружения препятствия в сельском хозяйстве, включая стереокамеру, тепловизионную камеру, веб-камеру, камеру 360 градусов, лидар, радар и точную локализацию.Классы с географической маркировкой.>400 ГБ данныхИзображения и трехмерные облака точекКлассификация, обнаружение объектов, локализация объектов2017М. Kragh et al.
11K рук11 076 изображений рук (1600 x 1200 пикселей) 190 субъектов разного возраста от 18 до 75 лет для распознавания пола и биометрической идентификации.Нет11 076 изображений рукИзображения и файлы этикеток (.mat,.txt и.csv)Распознавание пола и биометрическая идентификация2017M Afifi
CORe50Специальная модель для непрерывного / непрерывного обучения и распознавания объектов, представляет собой сборник из более чем 500 видеороликов (30 кадров в секунду) с 50 домашними объектами, принадлежащими 10 различных категорий.Классы помечены, обучающие наборы разбиты, созданные на основе трехстороннего многозадачного теста.164 866 изображений RBG-Dфайлы ярлыков изображений (.png или.pkl)

и (.pkl,.txt,.tsv)

Классификация, Распознавание объектов2017В. Ломонако и Д. Мальтони
OpenLORIS-ObjectНабор данных пожизненного / непрерывного роботизированного зрения (OpenLORIS-Object), собранный реальными роботами, установленными с несколькими датчиками высокого разрешения, включает коллекцию из 121 экземпляра объекта (1-я версия набора данных, 40 категорий предметов первой необходимости до 20 сцен). В наборе данных тщательно учтены 4 фактора среды в разных сценах, включая освещение, загорание, размер пикселя объекта и беспорядок, и явно определены уровни сложности каждого фактора.Обозначенные классы, разделение наборов для обучения / проверки / тестирования, созданных с помощью сценариев тестирования.1 106 424 изображения RBG-Dфайлы ярлыков изображений (.png и.pkl)

и (.pkl)

Классификация, распознавание объектов на протяжении всей жизни, Robotic Vision2019В. Она и др.
Набор видеоданных в терагерцовом и тепловом диапазонахЭтот набор мультиспектральных данных включает в себя терагерцовое, тепловое, визуальное, ближнее инфракрасное и трехмерное видео объектов, скрытых под одеждой людей.Предоставляются таблицы поиска 3D, которые позволяют проецировать изображения на облака точек 3D.Более 20 видео. Продолжительность каждого видео составляет около 85 секунд (около 345 кадров).AP2JЭксперименты с обнаружением скрытых объектов2019Алексей А. Морозов и Ольга С. Сушкова

Рукописный ввод и распознавание символов

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных искусственных символовИскусственно созданные данные, описывающие структуру из 10 заглавных букв английского алфавита.Координаты нарисованных линий в виде целых чисел. Различные другие функции.6000ТекстРаспознавание рукописного текста, классификация1992H. Guvenir et al.
Letter DatasetПечатные буквы в верхнем регистре.17 функций извлечены из всех изображений.20,000ТекстOCR, классификация1991D. Slate et al.
CASIA-HWDBАвтономная рукописная база данных китайских иероглифов. 3755 классов в наборе символов GB 2312.Изображения в оттенках серого с фоновыми пикселями, обозначенными как 255.1,172,907Изображения, текстРаспознавание рукописного ввода, классификация2009CASIA
CASIA-OLHWDBОнлайн-база данных рукописных китайских иероглифов, собранная с помощью ручки Anoto на бумаге. 3755 классов в наборе символов GB 2312.Обеспечивает последовательность координат штрихов.1,174,364Изображения, текстРаспознавание рукописного ввода, классификация2009CASIA
Набор данных траекторий символовс пометкой образцы траекторий кончика пера для людей, пишущих простые символы.Трехмерная матрица траектории скорости кончика пера для каждого образца2858ТекстРаспознавание рукописного ввода, классификация2008Б. Williams
Chars74K DatasetРаспознавание символов в естественных изображениях символов, используемых как в английском, так и в каннада 74,107Распознавание символов, распознавание рукописного ввода, OCR, классификация2009Т. de Campos
Набор данных символов пера UJIОтдельные рукописные символыУказаны координаты положения пера при написании символов.11,640ТекстРаспознавание почерка, классификация2009F. Прат и др.
Gisette DatasetПримеры почерка из часто путающих 4 и 9 символов.Функции, извлеченные из изображений, разделенные на обучающие / тестовые, изображения рукописного ввода с нормализованным размером.13 500Изображения, текстРаспознавание рукописного ввода, классификация2003Yann LeCun et al.
Набор данных Omniglot1623 разных рукописных символа из 50 разных алфавитов.Маркированы вручную.38,300Изображения, текст, штрихиКлассификация, однократное обучение2015Американская ассоциация содействия развитию науки
База данных MNIST База данных рукописных цифр.Маркированы вручную.60000Изображения, текстКлассификация1998Национальный институт стандартов и технологий
Оптическое распознавание рукописных цифр, набор данныхНормализованные растровые изображения рукописных данных.Размер нормализован и сопоставлен с растровыми изображениями.5620Изображения, текстРаспознавание рукописного ввода, классификация1998E. Алпайдин и др.
Распознавание рукописных цифр с помощью пераРукописные цифры на электронном перьевом планшете.Извлеченные векторы признаков с равномерным распределением.10,992Изображения, текстРаспознавание рукописного ввода, классификация1998E. Алпайдин и др.
Semeion Handwritten Digit DatasetРукописные цифры от 80 человек.Все рукописные цифры нормализованы по размеру и сопоставлены с той же сеткой.1593Изображения, текстРаспознавание рукописного ввода, классификация2008T. Srl
HASYv2Рукописные математические символыВсе символы выровнены по центру и имеют размер 32px x 32px.168233Изображения, текстКлассификация2017Martin Thoma
Шумный рукописный набор данных BanglaВключает рукописные Набор числовых данных (10 классов) и базовый набор данных символов (50 классов), каждый набор данных имеет три типа шума: белый гауссовский, размытие движения и пониженный контраст.Все изображения выровнены по центру и имеют размер 32x32.Набор числовых данных:

23330,

Набор символьных данных:

76000

Изображения,

текст

Распознавание рукописного ввода,

классификация

2017М. Карки и др.

Аэроснимки

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СправочникСоздатель
Набор данных сегментации аэрофотоснимков80 аэрофотоснимков высокого разрешения с пространственным разрешением от 0,3 до 1,0.Изображения сегментированы вручную.80ИзображенияВоздушная классификация, обнаружение объектов2013J. Юань и др.
KIT AIS Data SetНесколько помеченных наборов обучающих и оценочных данных аэрофотоснимков толпы.Изображения, помеченные вручную, показывают пути людей через толпу.~ 150Изображения с тропамиОтслеживание людей, воздушное отслеживание2012M. Butenuth et al.
Набор данных УилтаДанные дистанционного зондирования больных деревьев и другого растительного покрова.Извлечены различные функции.4899ИзображенияКлассификация, обнаружение воздушных объектов2014B. Johnson
Набор данных MASATIМорские сцены оптических аэрофотоснимков в видимом спектре. Он содержит цветные изображения в динамической морской среде, каждое изображение может содержать одну или несколько целей в разных погодных условиях и условиях освещения.Ограничивающие рамки и маркировка объекта.7389ИзображенияКлассификация, обнаружение воздушных объектов2018A.-J. Gallego et al.
Набор данных для картирования типов лесовСпутниковые снимки лесов в Японии.Полосы длин волн изображения извлечены.326ТекстКлассификация2015B. Johnson
Набор данных исследования накладных изображений Аннотированные накладные изображения. Изображения с несколькими объектами.Более 30 аннотаций и более 60 статистических данных, описывающих цель в контексте изображения.1000Изображения, текстКлассификация2009F. Tanner et al.
SpaceNetSpaceNet - это совокупность коммерческих спутниковых изображений и маркированных тренировочных данных.Файлы GeoTiff и GeoJSON, содержащие контуры зданий.>17533ИзображенияКлассификация, идентификация объектов2017DigitalGlobe, Inc.
Набор данных объединенного землепользования UCЭти изображения были вручную извлечены из больших изображений из коллекции изображений городских территорий USGS National Map для различных городских районов США.Это набор данных изображений землепользования 21 класса, предназначенный для исследовательских целей. Для каждого класса есть 100 изображений.2100Чипы изображения 256x256, 30 см (1 фут) GSDКлассификация земного покрова2010Йи Ян и Шон Ньюсам
SAT-4 Airborne DatasetИзображения были извлечены из набора данных Национальной программы сельскохозяйственных изображений (NAIP).SAT-4 имеет четыре широких класса земного покрова, включая бесплодные земли, деревья, луга и класс, который состоит из всех классов земного покрова, кроме трех вышеупомянутых.500000ИзображенийКлассификация2015S. Basu et al.
Набор данных с воздуха SAT-6Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP).SAT-6 имеет шесть широких классов земного покрова, включая бесплодные земли, деревья, луга, дороги, здания и водоемы.405,000ИзображенийКлассификация2015S. Basu et al.

Другие изображения

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Квантовое моделирование графена по теории функционала плотностиПомеченные изображения исходных данных для моделирования графенаИсходные данные (в формате HDF5) и выходные метки из квантового моделирования теории функционала плотностиТест 60744 и 501473 и обучающие файлыПомеченные изображенияРегрессия2019К. Mills I. Tamblyn
Квантовое моделирование электрона в двумерной потенциальной ямеПомеченные изображения исходных данных для моделирования 2d квантовой механикиИсходные данные (в формате HDF5) и выходные метки из квантового моделирования1,3 миллиона изображенийПомеченные изображенияРегрессия2017K. Миллс, М.А. Спаннер и И. Тэмблин
MPII Cooking Activities DatasetВидео и изображения различных кулинарных мероприятий.Пути и направления действий, метки, детализированная маркировка движения, класс активности, извлечение и маркировка неподвижных изображений.881,755 кадровВидео, изображения, текст с пометкойКлассификация2012M. Rohrbach et al.
Набор данных FAMOS5000 уникальных микроструктур, все образцы были получены 3 раза с помощью двух разных камер.Исходные файлы PNG, отсортированные по камерам, а затем по захватам. Файлы данных MATLAB с одной матрицей 16384 × 5000 на камеру за одно получение.30,000Изображения и файлы.matАутентификация2012S. Волошиновский и др.
PharmaPack Dataset1000 уникальных классов с 54 изображениями на класс.Маркировка классов, многие локальные дескрипторы, такие как SIFT и aKaZE, и локальные агенты функций, такие как Fisher Vector (FV).54,000Изображения и файлы.matКлассификация с мелким зерном2017O. Таран, С. Резаифар и др.
Stanford Dogs DatasetИзображения 120 пород собак со всего мира.Предоставлены разделение на обучение / тест и аннотации ImageNet.20,580Изображения, текстКлассификация с мелким зерном2011A. Khosla et al.
StanfordExtra DatasetКлючевые точки 2D и сегментации для Stanford Dogs Dataset.Предусмотрены ключевые точки 2D и сегментация.12,035Помеченные изображения3D-реконструкция / оценка позы2020B. Biggs et al.
Набор данных о домашних животных Oxford-IIIT37 категорий домашних животных, примерно по 200 изображений каждой.Маркированная порода, плотно ограниченная рамка, сегментация переднего и заднего плана.~ 7,400Изображения, текстКлассификация, обнаружение объектов2012O. Parkhi et al.
Набор данных функций изображений CorelБаза данных изображений с извлеченными элементами.Многие функции, включая гистограмму цветов, текстуру совместного появления и цветовые моменты,68,040ТекстКлассификация, обнаружение объектов1999М. Ортега-Бинденбергер и др.
Характеристики онлайн-видео и набор данных времени перекодирования.Время перекодирования для различных видео и свойств видео.Характеристики видео даны.168,286ТекстРегрессия2015T. Deneke et al.
Набор данных Microsoft Sequential Image Narrative Dataset (SIND)Набор данных для последовательного преобразования видения в языкДля каждой фотографии даются описательные подписи и повествование, а фотографии расположены в последовательности81743Изображения, текстВизуальное повествование2016Microsoft Research
Набор данных Caltech-UCSD Birds-200-2011Большой набор изображений птиц.Part locations for birds, bounding boxes, 312 binary attributes given11,788Images, textClassification2011C. Wah et al.
YouTube-8MLarge and diverse labeled video datasetYouTube video IDs and associated labels from a diverse vocabulary of 4800 visual entities8 millionVideo, textVideo classification2016S. Abu-El-Haija et al.
YFCC100MLarge and diverse labeled image and video datasetFlickr Videos and Images and associated description, titles, tags, and other metadata (such as EXIF and geotags)100 millionVideo, Image, TextVideo and Image classification2016B. Thomee et al.
Discrete LIRIS-ACCEDEShort videos annotated for valence and arousal.Valence and arousal labels.9800VideoVideo emotion elicitation detection2015Y. Baveye et al.
Continuous LIRIS-ACCEDELong videos annotated for valence and arousal while also collecting Galvanic Skin Response.Ярлыки валентности и возбуждения.30ВидеоОбнаружение видеоэмоций2015Y. Baveye et al.
MediaEval LIRIS-ACCEDEРасширение Discrete LIRIS-ACCEDE, включая аннотации уровней насилия в фильмах.Ярлыки насилия, валентности и возбуждения.10900ВидеоОбнаружение видеоэмоций2015Y. Baveye et al.
Спортивная поза ЛидсаСочлененные аннотации позы человека в 2000 изображениях естественных видов спорта с Flickr.Грубый урожай вокруг одного человека, представляющего интерес, с 14 совместными метками2000Изображения плюс метки файлов.matОценка позы человека2010С. Джонсон и М. Эверингем
Расширенная тренировка позы в спортивной позе в ЛидсеСформулированные аннотации позы человека в 10 000 изображений естественного спорта с Flickr.14 совместных меток с помощью краудсорсинга10000Изображения плюс метки файлов.matОценка позы человека2011S. Джонсон и М. Эверингем
Набор данных MCQ6 различных реальных экзаменов на основе множественного выбора (735 листов ответов и 33 540 блоков ответов) для оценки методов и систем компьютерного зрения, разработанных для систем оценки тестов с множественным выбором.Нет735 листов для ответов и 33 540 полей для ответовИзображения и ярлыки файлов.matРазработка систем оценки тестов с множественным выбором2017Афифи М. и др.
Видео наблюденияНастоящие видео наблюдения охватывают длительный период наблюдения (7 дней по 24 часа каждое).Нет19 видеозаписей наблюдения (7 дней по 24 часа каждая).ВидеоСжатие данных2016Тадж-Эддин, И.А.Т. Ф. и др.
ЛИЛА BCИнформационная библиотека Александрии: биология и сохранение. Помеченные изображения, поддерживающие исследования машинного обучения в области экологии и науки об окружающей среде.Нет~ 10M изображенийИзображенияКлассификация2019Рабочая группа LILA
Можем ли мы увидеть фотосинтез ?32 видео для восьми живых и восьми мертвых листьев, записанных при постоянном и переменном освещении.Нет32 видеоВидеоОпределение жизнеспособности растений2017Тадж-Эддин, И.А. Т. Ф. и др.
Текстовые данные

Наборы данных, состоящие в основном из текста, для таких задач, как обработка естественного языка, анализ тональности, перевод и кластерный анализ.

Обзоры

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздана (обновлено)СсылкаСоздатель
Отзывы AmazonОтзывы о продуктах в США от Amazon.com.Нет.~ 82MТекстКлассификация, анализ тональности2015McAuley et al.
Набор данных обзора OpinRankОбзоры автомобилей и отелей с сайтов Edmunds.com и TripAdvisor соответственно.Нет.42,230 / ~ 259,000 соответственноТекстАнализ тональности, кластеризация2011K. Ganesan et al.
MovieLens22 000 000 оценок и 580 000 тегов, примененных к 33 000 фильмам 240 000 пользователей.Нет.~ 22MТекстРегрессия, кластеризация, классификация2016GroupLens Research
Yahoo! Музыкальные рейтинги музыкантов-исполнителейБолее 10 миллионов оценок исполнителей пользователями Yahoo.Не опис.~ 10MТекстКластеризация, регрессия2004Yahoo!
Набор данных оценки автомобилейАвтомобиль свойства и их общая приемлемость.Дано шести категориальных признаков.1728ТекстКлассификация1997М. Bohanec
Набор данных предпочтений YouTube Comedy SlamДанные о голосовании пользователей для пар видео, показываемых на YouTube. Пользователи голосовали за более смешные видео.Указаны метаданные видео.1,138,562ТекстКлассификация2012Google
Набор данных отзывов пользователей SkytraxОтзывы пользователей авиакомпаний, аэропорты, места и залы ожидания Skytrax.Рейтинги точны и другие аспекты опыта работы в аэропорту.41396ТекстКлассификация, регрессия2015Q. Нгуен
Ассистент учителя оценивает набор данныхАссистент учителя рассматривает.Даны характеристики каждого экземпляра, такие как класс, размер класса и преподаватель.151ТекстКлассификация1997W. Loh et al.

Новостные статьи

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных NYSKские новостные английские статьи по делу, касающемуся обвинений в сексуальном посягательстве на бывшего МВФ <директор Доминик Стросс-Кан.Отфильтровано и представлено в формате XML.10,421XML, текстАнализ тональности, извлечение темы2013Dermouche, M. et al.
The Reuters Corpus Volume 1Большой корпус Reuters новостей на английском языке.Детализированная категоризация и коды тем.810,000ТекстКлассификация, кластеризация, обобщение 2002Reuters
The Reuters Corpus Volume 2Большой корпус новостей Reuters на нескольких языках.Детализированная категоризация и коды тем.487,000ТекстКлассификация, кластеризация, обобщение2005Reuters
Коллекция текстовых исследований Thomson ReutersБольшой корпус новостей.Подробности не развитие.1,800,370ТекстКлассификация, кластеризация, резюмирование2009T. Rose et al.
Saudi Newspapers Corpus31 030 статей в арабских газетах.Метаданные извлечены.31,030JSONСуммирование, кластеризация2015М. Альхагри
RE3D (Набор данных оценки извлечения взаимосвязей и сущностей)Сущности и отношения помечены данные из различных новостных и правительственных источников. Объявлено DstlОтфильтровано, категоризация с использованием типов BaleenнеизвестноJSONРаспознавание классификации, сущности и отношений2017Dstl
Examiner Каталог спам-приманокClickbait, спам, краудсорсинговые заголовки с 2010 по 2015 гг.Дата публикации и заголовки3,089,781CSVКластеризация, события, настроения2016R. Кулкарни
ABC Australia News CorpusВесь корпус новостей ABC Australia с 2003 по 2019 гг.Дата публикации и заголовки1,186,018CSVКластеризация, события, настроения2020R. Kulkarni
Worldwide News - совокупность 20K каналов Однонедельный снимок всех онлайн-заголовков на 20+ языкахВремя публикации, URL-адрес и заголовки1,398,431CSVКластеризация, события, определение языка2018R. Kulkarni
Reuters Заголовок новостной лентыСобытия с отметками времени, опубликованные в новостной ленте за 11 летВремя публикации, текст заголовка16,121,310CSVНЛП, Компьютерная лингвистика, События2018R. Кулкарни
The Irish Times Корпус новостей Ирландии24 года новостей Ирландии с 1996 по 2019 гг.Время публикации, категория заголовков и текст1,484,340CSVНЛП, Компьютерная лингвистика, События2020R. Kulkarni
Набор данных заголовков новостей для обнаружения сарказмаВысококачественный набор данных с саркастическими и несаркастическими заголовками новостей.Чистый нормализованный текст26,709JSONНЛП, классификация, лингвистика2018Ришаб Мишра

Сообщения

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СправочникСоздатель
Набор данных электронной почты EnronЭлектронные письма от сотрудников Enron, организованные в папки.Вложения удалены, неверные адреса электронной почты преобразованы в [email#160;protected] или [email#160;protected] ~ 500,000ТекстСетевой анализ, анализ тональности2004 (2015)Климт, Б. и Я. Янг
Ling-Spam DatasetКорпус, предостав как законные, так и спам электронные письма.Четыре версии корпуса с указанием того, был ли включен лемматизатор или стоп-лист.2,412 Ham 481 SpamТекстКлассификация2000Androutsopoulos, J. et al.
Набор данных о сборе SMS-спамаСобранные SMS-спам-сообщения.Нет.5,574ТекстКлассификация2011T. Алмейда и др.
Набор данных двадцати групп новостейСообщения из 20 различных групп новостей.Нет.20,000ТекстОбработка естественного языка1999T. Mitchell et al.
Набор данных спамбазыСпам-сообщения.Извлечено много текстовых функций.4,601ТекстОбнаружение спама, классификация1999M. Hopkins et al.

Twitter и твиты

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по По умолчаниюСоздан (обновлен)СсылкаСоздатель
MovieTweetingsНабор данных рейтинга фильмов на основе общедоступных и хорошо структурированных твитов~ 710 000ТекстКлассификация, регрессия2018S. Dooms
Twitter100kПары изображений и твитов100,000Текст и изображенияМежмедийное извлечение2017Y. Ху и др.
Sentiment140Данные твита за 2009 год, включая исходный текст, отметку времени, пользователя и тональность.Классифицировано с помощью дистанционного наблюдения из-за наличия смайлика в твите.1,578,627Твиты, запятые, значения, разделенные запятойАнализ тональности2009A. Go et al.
Набор данных Twitter ASUСетевые данные Twitter, а не реальные твиты. Показывает связи между большим количеством пользователей.Нет.11316811 пользователей, 85 331 846 подключенийТекстКластеризация, анализ графиков2009R. Зафарани и др.
Социальные круги SNAP: база данных TwitterДанные большой сети Twitter.Особенности узла, круги и сети эго.1,768,149ТекстКластеризация, анализ графиков2012Дж. McAuley et al.
Набор данных Twitter для анализа настроений на арабском языкеТвиты на арабском языке.Образцы, помеченные вручную как положительные или отрицательные.2000ТекстКлассификация2014N. Абдулла
Жужжание в наборе социальных сетейДанные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах.Данные представлены в виде окон, чтобы пользователь мог попытаться предсказать события, приведенные к появлению шума в социальных сетях.140,000ТекстРегрессия, классификация2013F. Кавала и др.
Парафраз и семантическое сходство в Twitter (PIT)Этот набор данных фокусируется на том, имеют ли твиты (почти одинаковое значение / информацию или нет). Отмечено вручную.разметка, теги частей речи и именованных сущностей18,762ТекстРегрессия, классификация2015Xu et al..
Тестовый набор данных Geoparse TwitterЭтот набор данных содержит твиты во время различных новостных событий в разных странах. Упоминания местоположений, помеченные вручную.аннотации местоположения добавлены в метаданные JSON6,386Твиты, JSONКлассификация, извлечение информации2014S.E. Миддлтон и др.

Диалоги

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
NPS Chat CorpusСообщения из онлайн-чатов по возрасту.Конфиденциальность рук замаскирована, помечена для части речи и диалога.~ 500,000XMLНЛП, программирование, лингвистика2007Форсайт, Э., Лин, Дж., И Мартелл, С...
Twitter Triple Corpusтроек ABA, извлеченных из Twitter.4232ТекстНЛП2016Координация, А. и др.
UseNet CorpusСообщения на форуме UseNet.Анонимные электронные письма и URL-адреса. Пропущенные документы длиной <500 words or>500000 слов или <90% English.7 миллиардовТекст2011Шауль, К., Уэстбери К.
NUS SMS CorpusSMS-сообщения, собранные между двумя пользователями, с анализом времени.~ 10,000XMLNLP2011KAN, M
Корпус всех комментариев RedditВсе комментарии Reddit (как 2015 г.).~ 1,7 миллиардаJSONNLP, исследование2015Stuck_In_the_Matrix
Ubuntu Dialogue CorpusДиалоги, извлеченные из чата Ubuntu стрим по IRC.CSVDialogue Systems Research2015Lowe, R. et al.

Другой текст

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных Web of ScienceИерархические наборы данных для классификации текстаНет.46,985ТекстКлассификация,

Категоризация

2017К. Kowsari et al.
Отчеты о судебных делахФедеральный суд Австралии дела с 2006 по 2009 год.Нет.4,000ТекстОбобщение,

анализ цитирования

2012F. Galgani et al.
Blogger Authorship CorpusЗаписи в блогах 19 320 человек с blogger.com.Блогер в указанном пол, возраст, отрасль и знак зодиака.681 288ТекстАнализ тональности, обобщение, классификация2006J. Schler et al.
Социальная структура сетей FacebookБольшой набор данных социальной структуры Facebook.Нет.100 колледжей охваченыТекстСетевой анализ, кластеризация2012A. Трауд и др.
Набор данных для машинного понимания текстаИстории и связанные вопросы для понимания текста.Нет.660ТекстОбработка естественного языка, машинное понимание2013М. Ричардсон и др.
Проект Penn TreebankЕстественный текст с аннотациями для лингвистической структуры.Текст разбирается на семантические деревья.~ 1 млн словТекстОбработка естественного языка, обобщение1995M. Маркус и др.
Набор данных DEXTERданная задача состоит в том, чтобы определить на основе приведенных характеристик, какие статьи к корпоративным потребляемым группам.Извлеченные характеристики включают основы слов. Включены функции дистрактора.2600ТекстКлассификация2008Reuters
N-граммы Google КнигиN-граммы из очень большой корпус книгНет.2,2 ТБ текстаТекстКлассификация, кластеризация, регрессия2011Google
Personae CorpusСобрано для экспериментов по установлению авторства и прогнозирования личности. Состоит из 145 эссе на голландском языке.В дополнение к обычным текстам даются синтаксически аннотированные тексты.145ТекстКлассификация, регрессия2008K. Luyckx et al.
Набор данных CNAE-9Задача категоризации для произвольных текстовых описаний бразильских компаний.Частота слова была извлечена.1080ТекстКлассификация2012P. Ciarelli et al.
Набор данных предложений с меткой настроения3000 предложений с меткой настроения.Тональность предложения каждого была помечена вручную как положительная или отрицательная.3000ТекстКлассификация, анализ тональности2015D. Котзиас
Набор данных BlogFeedbackНабор данных для прогнозирования количества комментариев, получит сообщение в зависимости от его характеристик.Извлечены многие особенности каждого сообщения.60,021ТекстРегрессия2014K. Buza
Корпус Stanford Natural Language Inference (SNLI)Подписи к изображениям, сопоставленные с недавно построенными предложениями, образуют следствие, противоречие или нейтральные пары.Метки классов перехода, синтаксический анализ синтаксическим анализатором Stanford PCFG570,000ТекстВывод на естественном языке / распознавание текстового следования2015С. Bowman et al.
DSL Corpus Collection (DSLCC)Многоязычный сборник коротких отрывков журналистских текстов на схожих языках и диалектах.Нет294 000 фразТекстРазличие между похожими языками2017Tan, Liling et al.
Городской словарь Набор данныхКорпус слов, голосов и определенийАнонимные имена пользователей2,580,925CSVНЛП, Машинное понимание2016 МайАнонимные
T-RExВикипедия аннотации, согласованные с Викиданными сущностямиСогласование Викиданных троек с выдержками из Википедии11M выровненных троекJSON и NIF [1] NLP, Relation Extraction2018H. Elsahar et al.
Общая оценка понимания языка (GLUE)Тест для девяти задачРазличные~ 1 млн предложений и пар предложенийNLU2018Ван и др.
Atticus Open Contract Dataset (AOK)Набор данных юридических контрактов с обширными экспертными аннотациями~ 3000 ярлыковCSV и PDFОбработка естественного языка, QnA2020Проект Аттикус
Звуковые данные

Наборы звуков и звуковых характеристик.

Речь

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СправкаСоздатель
Вызов речи с нулевым ресурсом 2015Спонтанная речь (английский), чтение речи ( Сицонга).raw wavанглийский: 5 часов, 12 говорящих; Сицонга: 2:30; 24 динамиказвукНеконтролируемое обнаружение речевых характеристик / подсловных единиц / словарных единиц2015Versteegh et al.
Набор речевых данных ПаркинсонаМножественные записи людей с болезнью Паркинсона и без нее.Голосовые характеристики извлечены, оценивается врачом с использованием болезни единой шкалы оценки болезни Паркинсона 1040ТекстКлассификация, регрессия2013Б. E. Sakar et al.
Разговорные арабские цифрыРазговорные арабские цифры от 44 мужчин и 44 женщин.Временной ряд коэффициентов мелкочастотного кепстра.8,800ТекстКлассификация2010М. Bedda et al.
ISOLET DatasetНазвания букв.Характеристики, извлеченные из звуков.7797ТекстКлассификация1994R. Cole et al.
Набор данных японских гласныхДевять говорящих-мужчин произнесли две японские гласные.К нему применен 12-градусный линейный прогнозный анализ для дискретного временного ряда с 12 коэффициентами кепстра.640ТекстКлассификация1999М. Кудо и др.
Набор данных телемониторинга ПаркинсонаМножественные записи людей с болезнью Паркинсона и без нее.Звуковые особенности извлечены.5875ТекстКлассификация2009A. Tsanas et al.
ТИМИТ Записи 630 носителей восьми основных диалектов английского языка, каждый из которых читает десять предложений с богатым фонетическим звучанием.Речь транскрибируется лексически и фонематически.6300ТекстРаспознавание речи, классификация.1986Дж. Гарофоло и др.
Корпус арабской речи Речевой корпус с одним говорящим, Современный стандартный арабский (MSA) с фонетическими и орфографическими расшифровками, выровненными по уровню фонемыРечь орфографически и фонетически транскрибируется с следы стресса.~ 1900Текст, WAVСинтез речи, распознавание речи, выравнивание корпуса, логопедия, образование.2016Н. Halabi
Common Voice Общедоступная база данных краудсорсинговых данных по широкому спектру диалектов.Проверка другими пользователямиАнглийский язык: 1118 часовMP3 с соответствующими текстовыми файламиРаспознавание речииюнь 2017 г. (декабрь 2019 г.))Mozilla

Музыка

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматПо умолчанию ЗадачаСоздано (обновлено)СсылкаСоздатель
Географическое происхождение набора музыкальных данныхАудио особенности музыкальных образцов из разных мест.Аудио функции, извлеченные с помощью программного обеспечения MARSYAS.1,059ТекстГеографическая классификация, кластеризация2014F. Чжоу и др.
Million Song DatasetАудио особенности из миллиона различных песен.Аудио функции извлечены.1MТекстКлассификация, кластеризация2011T. Bertin-Mahieux et al.
MUSDB18Многодорожечные записи популярной музыкиRaw audio150MP4, WAVРазделение источников2017З. Rafii et al.
Бесплатный музыкальный архив Аудио под Creative Commons из 100 тыс. Песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданных, пользовательских данных, текста произвольной формы.Необработанный звук и аудио особенности.106574Текст, MP3Классификация, рекомендация2017M. Дефферрард и др.
Набор данных хоровой гармонии БахаХоральные аккорды Баха.Аудио функции извлечены.5665ТекстКлассификация2014D. Radicioni et al.

Другие звуки

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаCreator
UrbanSoundПомеченные звукозаписи звуков, например звуков кондиционеров, автомобильных гудков и игр детей.Сортировка по папкам по классам событий, а также по метаданным в файле JSON и аннотациям в файле CSV.1,059Звук

(WAV )

Классификация2014Дж. Саламон и др.
AudioSet10-секундные звуковые фрагменты из видеороликов YouTube и онтология из более чем 500 лейблов.128-d PCA'd VGG-ish функции каждые 1 секунду.2,084,320Текст (CSV) и файлы записи TensorFlowКлассификация2017Дж. Геммеке и др., Google
Проблема обнаружения звука птицАудио из станции мониторинга окружающей среды, плюс записи краудсорсинга17000+Классификация2016 (2018)Университет Королевы Марии и Общество обработки сигналов IEEE
WSJ0 Hipster Ambient MixturesЗвук из WSJ0, смешанный с шумом, записанный в области залива Сан-Франциско Шумовые клипы, соответствующие клипам WSJ028000Звук (WAV )Разделение источников звука2019Wichern, G., et al., Whisper and MERL
Clotho4981 аудиосэмпл продолжит ельностью от 15 до 30 секунд, каждый звукобразец, имеющий пять разных заголовков длиной от восьми до 20 слов.24 905Звук (WAV ) и текст (CSV )Автоматические субтитры2020К. Дроссос, С. Липпинг, и Т. Виртанен
Данные сигналов

Наборы данных, содержащие информацию об электрических сигналах, требующую некоторой обработки сигналов для дальнейшего анализа.

Электрические

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СправочникСоздатель
Набор данных Witty WormНабор данных с подробным описанием распространения червя Witty и зараженных компьютеров.Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую ​​как заголовки IP и UDP.55 909 IP-адресовТекстКлассификация2004Центр прикладного анализа данных в Интернете
Набор данных для оценки артериального давле ния без манжетыОчищенные жизненно важные сигналы от пациентов-людей, которые можно использовать для оценки кровяного давления d давление.Показатели жизненно важных функций 125 Гц очищены.12,000ТекстКлассификация, регрессия2015M. Kachuee et al.
Набор данных дрейфа матрицы датчика газаИзмерения от 16 химических датчиков, используемых при моделировании для компенсации дрейфа.Предоставляется большое количество функций.13,910ТекстКлассификация2012A. Vergara
Servo DatasetДанные, охватывающие нелинейные отношения, наблюдаемые в цепи сервоусилителя.Приведены уровни различных компонентов в зависимости от других компонентов.167ТекстРегрессия1993K. Ullrich
UJIIndoorLoc-Mag DatasetВнутренняя база данных локализации для тестирования внутренних систем позиционирования. Данные основаны на магнитном поле.Даны разделение на обучение и тестирование.40,000ТекстКлассификация, регрессия, кластеризация2015D. Rambla et al.
Набор данных диагностики бездатчикового приводаЭлектрические сигналы от двигателей с неисправными компонентами.Статистические характеристики извлечены.58,508ТекстКлассификация2015М. Bator

Отслеживание движения

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздан (обновлен)СсылкаСоздатель
Носимые компьютеры: классификация поз и движений тела (PUC-Rio)Люди, выполняющие пять стандартных действия при ношении трекеров движения.Нет.165 632ТекстКлассификация2013Папский католический университет Рио-де-Жанейро
Набор данных сегментации фазы жестовОсобенности извлеченных из видео людей, выполняющих различные жесты.Извлеченные признаки предназначены для изучения сегментации фазы жеста.9900ТекстКлассификация, кластеризация2014R. Madeo et a
Набор данных Vicon Physical Action Set10 обычных и 10 агрессивных физических действий, которые измеряют активность человека, отслеживаемую 3D-трекером.Многие параметры записываются 3D-трекером.3000ТекстКлассификация2011T. Theodoridis
Набор данных о ежедневных и спортивных мероприятияхДанные датчиков двигателя для 19 ежедневных и спортивных занятий.Дано много датчиков, без предварительной обработки сигналов.9120ТекстКлассификация2013B. Баршан и др.
Распознавание деятельности человека с использованием набора данных смартфоновДанные гироскопа и акселерометра от людей, носящих смартфоны и выполняющих обычные действия.Выполняемые действия помечаются, все сигналы предварительно обрабатываются на наличие шума.10,299ТекстКлассификация2012J. Reyes-Ortiz et al.
Знаки на австралийском языке жестовЗнаки на австралийском языке жестов, снятые перчатками для отслеживания движения.Нет.2565ТекстКлассификация2002М. Кадус
Упражнения по поднятию тяжестей, контролируемые с помощью инерциальных измерительных устройствПять вариантов упражнения на сгибание бицепса, контролируемые с помощью IMU.Некоторая статистика рассчитана на основе необработанных данных.39,242ТекстКлассификация2013W. Угулино и др.
sEMG для базовых движений руки Набор данныхДве базы данных поверхностных электромиографических сигналов 6 движений рук.Нет.3000ТекстКлассификация2014C. Sapsanis et al.
Набор данных распознавания активности REALDISPОценить методы, связанные с эффектами смещения сенсора при распознавании активности носимых устройств.Нет.1419ТекстКлассификация2014O. Banos et al.
Набор данных распознавания неоднородной активностиДанные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия.Нет.43,930,257ТекстКлассификация, кластеризация2015A. Stisen et al.
Прогнозирование перемещений пользователей внутри помещений на основе данных RSSВременные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе.Нет.13,197ТекстКлассификация2016D. Bacciu
Набор данных мониторинга физической активности PAMAP218 различных видов физической активности, выполняемых 9 субъектами, носящими 3 IMU.Нет.3,850,505ТекстКлассификация2012A. Reiss
ВОЗМОЖНОСТЬ Набор данных для распознавания активностиРаспознавание человеческой активности с помощью носимых, объектных и внешних датчиков - это набор данных, разработанный для тестирования алгоритмов распознавания человеческой активности.Нет.2551ТекстКлассификация2012D. Roggen et al.
Набор данных распознавания активности в реальном миреРаспознавание деятельности человека с носимых устройств. Различает семь положений устройства на теле и содержит шесть различных типов датчиков.Нет.3,150,000 (на датчик)ТекстКлассификация2016T. Sztyler et al.
Набор данных позы инсульта для реабилитации в ТоронтоТрехмерные оценки позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с использованием робота для реабилитации после инсульта.Нет.10 здоровых людей и 9 выживших после инсульта (3500-6000 кадров на человека)CSVКлассификация2017E. Долатабади и др.
Corpus of Social Touch (CoST)7805 жестов захватывает 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежный, нормальный и грубый, на сетке датчика давления, обернутой вокруг руки манекена.Выполненные сенсорные жесты сегментированы и помечены.7805 захватывает жестыCSVКлассификация2016M. Юнг и др.

Другие сигналы

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздан (обновлен)СсылкаСоздатель
Набор данных о винахХимический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов.Для каждого вина дано 13 свойств178ТекстКлассификация, регрессия1991M. Forina et al.
Набор данных электростанции с комбинированным цикломДанные с различных датчиков на электростанции, работающей в течение 6 лет.Нет9568ТекстРегрессия2014P. Tufekci et al.
Физические данные

Наборы данных из физических систем.

Физика высоких энергий

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных HIGGSМоделирование столкновений ускорителей частиц методом Монте-Карло.Дано 28 признаков каждого столкновения.11MТекстКлассификация2014D. Whiteson
HEPMASS DatasetМоделирование столкновений ускорителей частиц методом Монте-Карло. Цель - отделить сигнал от шума.Дано 28 признаков каждого столкновения.10,500,000ТекстКлассификация2016D. Whiteson

Systems

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздан (обновлен)СправочникСоздатель
Набор данных гидродинамики яхтыХарактеристики яхты на основе размеров.Каждой яхте дается шесть характеристик.308ТекстРегрессия2013R. Lopez
Набор данных об ошибках выполнения роботов5 наборов данных, которые сосредоточены вокруг сбоев роботов при выполнения общих задач.Целочисленные характеристики, такие как измерения крутящего момента и других датчиков.463ТекстКлассификация1999L. Seabra et al.
Набор данных Питтсбург БриджесОписание конструкции дается с точки зрения нескольких свойств различных мостов.Приведены различные характеристики моста.108ТекстКлассификация1990Y. Райх и др.
Набор данных по автомобилямДанные об автомобилях, их страховом риске и нормированных убытках.Характеристики автомобиля извлечены.205ТекстРегрессия1987J. Schimmer et al.
Автоматический набор данных MPGДанные MPG для автомобилей.Каждому автомобилю дано восемь характеристик.398ТекстРегрессия1993Университет Карнеги-Меллона
Набор данных по энергоэффективностиТребования к обогреву и охлаждению дается функция здания параметров.Параметры здания указаны.768ТекстКлассификация, регрессия2012A. Xifara et al.
Набор самошума аэродинамического профиляСерия аэродинамических и акустических испытаний двух- и трехмерных профилей лопастей.Приведены данные по частоте, угле атаки и т.д.1503ТекстРегрессия2014R. Лопес
Набор данных по уплотнительным кольцам космического челнока Challenger USAПопытка предсказать проблемы с уплотнительными кольцами на основе прошлых данных Challenger.Приведены несколько характеристик каждого полета, например температура запуска.23ТекстРегрессия1993D. Draper et al.
Набор данных Statlog (Shuttle)Наборы данных космических челноков NASA.Дано девять характеристик.58,000ТекстКлассификация2002НАСА

Астрономия

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Вулканы на Венере - экспериментальный набор данных JARtoolИзображения Венеры, полученные космическим кораблем Magellan.Изображения помечены людьми.не указаноИзображенияКлассификация1991M. Берл
MAGIC Gamma Telescope DatasetМонте-Карло генерировал высокоэнергетические гамма-частицы.Многочисленные особенности, извлеченные из моделирования.19,020ТекстКлассификация2007R. Bock
Набор данных о солнечных вспышкахИзмерение количества определенных типов солнечных вспышек, происходящих за 24-часовой период.Приведены многие особенности, характерные для солнечных вспышек.1389ТекстРегрессия, классификация1989G. Bradshaw

Науки о Земле

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Вулканы мираДанные об извержениях вулканов для всех известных вулканических событий на Земле.Приведены такие детали, как регион, подобласть, тектоническая обстановка, доминирующий тип породы.1535ТекстРегрессия, классификация2013E. Venzke et al.
Набор данных сейсмических ударовСейсмические воздействия на угольной шахте.Сейсмическая активность классифицируется как опасная или нет.2584ТекстКлассификация2013М. Sikora et al.

Другое физическое

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздан (обновлен)СправочникCreator
Набор данных прочности бетона на сжатиеНабор данных свойств бетона и прочности на сжатие.Для каждого образца даны девять характеристик.1030ТекстРегрессия2007I. Yeh
Набор данных испытаний бетонной просадкиПоток бетонной просадки дан в терминах свойств.Характеристики бетона, такие как летучая зола, вода и т. Д.103ТекстРегрессия2009Я. Yeh
Набор данных MuskПредскажите, с учетом характеристик, будет ли молекула мускусом или немускусом.Для каждой молекулы дано 168 признаков.6598ТекстКлассификация1994Arris Pharmaceutical Corp.
Набор данных о неисправностях стальных пластинСтальные пластины 7 разных типов.Для каждого образца дано 27 характеристик.1941ТекстКлассификация2010Исследовательский центр Семей
Биологические данные

Наборы данных из биологических систем.

Человек

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
База данных ЭЭГИсследование для изучения коррелятов ЭЭГ генетической предрасположенности к алкоголю изм.Измерения от 64 электродов, помещенных на кожу головы, с дискретизацией 256 Гц (период 3,9 мс) в течение 1 секунды.122ТекстКлассификация1999H. Begleiter
Набор данных интерфейса P300Данные девяти субъектов, собранные с использованием интерфейса мозг-компьютер на основе P300 для субъектов с ограниченными возможностями.Разделить на четыре занятия по каждому предмету. Указан код MATLAB.1,224ТекстКлассификация2008U. Hoffman et al.
Набор данных о сердечных заболеванияхПриписывается пациентом с сердечными заболеваниями и без них.Для каждого пациента дано 75 атрибутов с некоторыми пропущенными значениями.303ТекстКлассификация1988A. Janosi et al.
Рак молочной железы Висконсин (Диагностический) Набор данныхНабор данных характеристик новообразований молочной железы. Диагноз ставит врач.Дано 10 характеристик для каждого образца.569ТекстКлассификация1995W. Wolberg et al.
Национальное исследование употребления наркотиков и здоровьяКрупномасштабное исследование здоровья и употребления наркотиков в США.Нет.55,268ТекстКлассификация, регрессия2012Министерство здравоохранения и социальных служб США
Набор данных о раке легкихНабор легкого без определенных атрибутов данныхДля каждого случая дано 56 признаков32ТекстКлассификация1992З. Hong et al.
Набор данных аритмииДанные для группы, некоторые из которых имеют сердечную аритмию.276 функций для каждого экземпляра.452ТекстКлассификация1998H. Алтай и др.
Диабет 130 больниц в США за годы 1999–2008 Набор данныхДанные о повторной госпитализации за 9 лет в 130 больницах США для пациентов с диабетом.Приведены многие особенности каждой реадмиссии.100000ТекстКлассификация, кластеризация2014J. Clore et al.
Набор данных Дебреценской диабетической ретинопатииХарактеристики, извлеченные из изображений глаз с диабетической ретинопатией и без нее.Элементы извлечены и условия диагностики.1151ТекстКлассификация2014B. Antal et al.
Набор данных мессидора диабетической ретинопатииМетоды оценки методов сегментации и индекса в области офтальмологии сетчатки (MESSIDOR)Характеристики степени ретинопатии и риска отека желтого пятна1200Изображения, текстКлассификация сегмента2008Проект Мессидор
Набор данных о заболеваниях печениДанные для людей с заболеваниями печени.Для пациента дано семь биологических характеристик.345ТекстКлассификация1990Bupa Medical Research Ltd.
Набор данных по заболеваниям щитовидной железы10 баз данных пациентов с заболеваниями щитовидной железы.Нет.7200ТекстКлассификация1987R. Куинлан
Набор данных мезотелиомыДанные пациентов с мезотелиомой.Приведено большое количество характеристик, включая воздействие асбеста.324ТекстКлассификация2016A. Танрикулу и др.
Набор данных оценки позы Паркинсона на основе зрения2D-оценка позы человека с болезнью Паркинсона, выполняющих различные задачи.Дрожание камеры убрано с траекторий.134ТекстКлассификация, регрессия2017М. Ли и др.
Сеть метаболических показателей KEGG (неориентированная)Сеть метаболических путей. Даны сеть и сеть отношений .Даны подробные характеристики для каждого сетевого узла и пути.65,554ТекстКлассификация, кластеризация, регрессия2011M. Naeem et al.
Модифицированный набор данных анализа морфологии сперматозоидов (MHSMA)Изображения человеческих сперматозоидов от 235 пациентов с мужским бесплодием, помеченные как нормальные или аномальные акросомы, голова, вакуоль и хвост сперматозоидов.Обрезано вокруг головки одного сперматозоида. Увеличение нормализованное. Созданы разделы для обучения, проверки и тестирования.1,540файлов.npyКлассификация2019S. Джавади и С.А. Миррошандель

Животное

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных AbaloneФизические измерения Abalone. Также указаны погодные условия и местоположение.Нет.4177ТекстРегрессия1995Морские исследовательские лаборатории - Тарона
Набор данных зоопаркаПокрытие искусственного набора данных 7 классов животных.Животные делятся на 7 категорий, каждая из которых имеет характеристики.101ТекстКлассификация1990R. Форсайт
Набор данных DemospongiaeДанные о морских губках.503 губки в классе Демоспондж описываются различными характеристиками.503ТекстКлассификация2010E. Арменгол и др.
Набор данных последовательностей гена сплайс-соединенийПоследовательности гена сплайс-соединения (ДНК) приматов с теорией связанных несовершенных доменов.Нет.3190ТекстКлассификация1992G. Towell et al.
Набор данных по экспрессии белков мышейУровни экспрессии 77 белков, измеренные в коре головного мозга мышей.Нет.1080ТекстКлассификация, кластеризация2015C. Higuera et al.

Завод

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СправочникСоздатель
Набор данных о лесных пожарахЛесные пожары и их свойства.Выделено 13 признаков каждого пожара.517ТекстРегрессия2008P. Cortez et al.
Набор данных ириса Три типа растений ириса описываются 4 различными атрибутами.Нет.150ТекстКлассификация1936Р. Фишер
Набор данных о листьях видов растенийШестнадцать образцов листьев каждого из ста видов растений.Даны дескриптор формы, мелкомасштабная граница и гистограммы текстуры.1600ТекстКлассификация2012J. Cope et al.
Набор данных грибовАтрибуты и классификация грибов.Приведено множество свойств каждого гриба.8124ТекстКлассификация1987J. Шлиммер
Набор данных соиБаза данных больных растений сои.Для каждого завода дано 35 характеристик. Растения делятся на 19 категорий.307ТекстКлассификация1988R. Michalski et al.
Набор данных семянИзмерения геометрических свойств зерен, принадлежащих трем различным сортам.Нет.210ТекстКлассификация, кластеризация2012Charytanowicz et al.
Набор данных CovertypeДанные для прогнозирования типа лесного покрова строго на основе картографических чисел.Приведено много географических функций.581,012ТекстКлассификация1998J. Blackard et al.
Набор данных сети передачи сигналов абсцизовой кислотыДанные для сети передачи сигналов предприятия. Цель состоит в том, чтобы определить набор правил, управляющих сетью.Нет.300ТекстПричинно-следственная связь2008J. Jenkens et al.
Folio Dataset20 фотографий листьев каждого из 32 видов.Нет.637Изображения, текстКлассификация, кластеризация2015T. Munisami et al.
Oxford Flower Dataset17 категорий данных цветов.Разделение поездов / тесты, маркированные изображения,1360Изображения, текстКлассификация2006ME Nilsback et al. al. al.
Набор данных саженцев растенийНабор данных из 12 категорий саженцев растений.Помеченные изображения, сегментированные изображения,5544ИзображенияКлассификация, обнаружение2017Giselsson et al.
Набор данных Fruits 360База данных с изображениями 120 фруктов и овощей.100x100 пикселей, белый фон.82213Изображения (jpg)Классификация2017-2019Михай Олтеан, Хорея Муресан

Микроб

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаCreator
Ecoli DatasetСайты локализации белка.Приведены различные особенности сайтов локализации белков.336ТекстКлассификация1996K. Nakai et al.
MicroMass DatasetИдентификация микроорганизмов по данным масс-спектрометрии.Различные особенности масс-спектрометра.931ТекстКлассификация2013P. Mahe et al.
Набор дрожжевых данныхПрогнозирование участков локализации белков в клетке.Восемь функций для каждого экземпляра.1484ТекстКлассификация1996К. Nakai et al.

Обнаружение лекарств

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных Tox21Прогнозирование результатов биологических анализов.Даны химические дескрипторы молекул.12707ТекстКлассификация2016A. Mayr et al.
Аномальные данные
Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Тест Numenta Anomaly Benchmark (NAB)Данные упорядочены, имеют однозначные метрики с отметками времени. Все файлы данных аномалии, если не указано иное.Нет50+ файловЗначения, разделенные запятымиОбнаружение аномалий 2016 (постоянно обновляется)Numenta
При оценке Неконтролируемое исследование: меры, наборы данных и эмпирическое исследованиеБольшинство файлов данных адаптировано из данных репозитория машинного обучения UCI, некоторые собраны из литературы.обработано для отсутствующих значений, числовых атрибутов, различного процента аномалий, меток1000+ файловARFF Обнаружение аномалий 2016 (возможно, обновлено новыми наборами данных и / или результаты)Campos et al.
Данные для на вопрос

Этот раздел ответа включает наборы данных, которые имеют дело со структурированными данными.

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СправочникСоздатель
Набор данных ответов на нейронные вопросы DBpedia (DBNQA)Большая коллекция вопросов для SPARQL, специально разработанная для ответов на нейронные вопросы открытого домена через DBpedia База знаний.Этот набор данных содержит большую коллекцию шаблонов и экземпляров Open Neural SPARQL для обучения машин Neural SPARQL; он был изготовлен полуавтоматическими инструментами аннотации, а также тремя экспертами SPARQL.894 499Пары вопрос-запросОтвет на вопрос2018Хартманн, Сору, Маркс и др.
Многомерные данные

Наборы данных, состоящие из наблюдений и столбцов атрибутов, характеризующих наблюдения. Обычно используется для регрессионного рейтинга или классификации, но одна и другие алгоритмы. В этот раздел включены наборы, не подходящие для вышеперечисленных категорий.

Финансы

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СправкаСоздатель
Индекс Доу-ДжонсаЕженедельные данные по акциям за первый и второй кварталы 2011 года.Включены вычисленные значения, например процентное изменение и запаздывание.750Значения, разделенные запятымиКлассификация, регрессия, Временные ряды 2014M. Brown et al.
Statlog (Австралийское одобрение кредита)Заявки на кредитные карты приняты или отклонены, а также атрибуты заявки.Имена атрибутов удалены, а также идентирующая информация. Факторы были переименованы.690Значения, разделенные запятымиКлассификация1987R. Куинлан
данные аукционов eBayданные аукционов с различных объектов eBay.com на аукционах разной толщиныСодержит все ставки, системы ставок, время ставок и цены открытия.~ 550ТекстРегрессия, классификация2012G. Шмуэли и др.
Statlog (Немецкие кредитные данные)Бинарная классификация кредитов на «хорошие» и «плохие» с множеством характеристикПриводятся различные финансовые характеристики каждого человека.690ТекстКлассификация1994H. Hofmann
Bank Marketing DatasetДанные крупной маркетинговой кампании, проведенной банком.Дано много атрибутов клиентов, с которым установили контакт. Если клиент подписался на банк, тоже дается.45,211ТекстКлассификация2012S. Моро и др.
Набор данных Стамбульской фондовой биржиНесколько фондовых индексов отслеживаются в течение почти двух лет.Нет.536ТекстКлассификация, регрессия2013O. Akbilgic
Невыполнение обязательств клиентами по кредитным картамДанные о дефолте по кредитам тайваньским кредиторам.Даны различные особенности каждой учетной записи.30,000ТекстКлассификация2016I. Да

Погода

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Cloud DataSetДанные о 1024 облаках.Особенности изображения извлечены.1024ТекстКлассификация, кластеризация1989P. Коллард
Набор данных Эль-НиньоОкеанографические и приземные метеорологические данные, полученные с помощью ряда буев, имеющихся по всей экваториальной части Тихого океана.12 погодных атрибутов измеряются на каждом буе.178080ТекстРегрессия1999Тихоокеанская морская экологическая лаборатория
Набор данных сети наблюдения за парниковыми газамиВремя -серии погоды концентраций парниковых газов в ячейке 2921 ячейки в Калифорнии, созданной с использованием моделирования.Нет.2921ТекстРегрессия2015D. Лукас
атмосферный CO2 из непрерывных проб воздуха в обсерватории Мауна-ЛоаНепрерывные пробы воздуха на Гавайях, США. 44 года рекордов.Нет.44 годаТекстРегрессия2001Обсерватория Мауна-Лоа
Набор данных ионосферыДанные радара из ионосфера. Задача состоит в том, чтобы разделить радары на хорошие и плохие.Дано множество функций радара.351ТекстКлассификация1989Университет Джона Хопкинса
Набор данных определения уровня озонаДва грунтовых озона наборы данных уровня.Приведено множество характеристик, включая погодные условия во время измерения.2536ТекстКлассификация2008K. Zhang et al.

Перепись

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных для взрослыхДанные переписи населения 1994 года, содержащие демографические характеристики взрослых и их доход.Очищено и анонимно.48,842Значения, разделенные запятымиКлассификация1996Бюро переписи населения США
Census-Income (KDD)Взвешенные данные переписи 1994 и 1995 гг. Текущие обследования населения.Разделены на обучающие и тестовые наборы.299,285Значения, разделенные запятымиКлассификация2000Бюро переписи США
База данных переписи IPUMSПерепись данные из районов Лос-Анджелеса и Лонг-Бич.Нет256 932ТекстКлассификация, регрессия1999IPUMS
Данные переписи населения США 1990Частичные данные переписи населения США 1990 года.Результаты рандомизированы, полезные атрибуты выбраны.2,458,285ТекстКлассификация, регрессия1990Бюро переписи США

Транзит

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СправкаСоздатель
Набор данных для обмена велосипедамиЕжечасный и дневной счет проката велосипедов в большом городе.Приведено много характеристик, включая погоду, продолжительность поездки и т. Д.17,389ТекстРегрессия2013H. Fanaee-T
Данные о поездках на такси в Нью-ЙоркеДанные о поездках для желтых и зеленых такси в Нью-Йорке.Предоставляет места получения и возврата, тарифы и другие подробности поездок.6 летТекстКлассификация, кластеризация2015Комиссия по такси и лимузинам Нью-Йорка
Траектория службы такси ECML PKDDТраектории всех такси в большом городе.Дано множество функций, включая точки начала и остановки.1,710,671ТекстКластеризация, причинно-следственная связь2015М. Ferreira et al.

Интернет

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Веб-страницы из Common Crawl 2012Большая коллекция веб-страниц и их подключение через гиперссылкиНет.3.5BТексткластеризация, классификация2013V. Granville
Набор данных интернет-рекламыНабор данных для прогнозирования, является ли данное изображение рекламой.Функции кодируют геометрию объявлений и фраз, встречающихся в URL.3279ТекстКлассификация1998N. Kushmerick
Набор данных об использовании ИнтернетаОбщая демография пользователей Интернета.Нет.10,104ТекстКлассификация, кластеризация1999D. Cook
Набор данных URL120 дней данных URL из большой конференции.Дано множество характеристик каждого URL.2,396,130ТекстКлассификация2009J. Ma
Набор данных фишинговых сайтовНабор данных фишинговых сайтов.Для каждого сайта дано множество функций.2456ТекстКлассификация2015R. Мустафа и др.
Набор данных розничной онлайн-торговлиОнлайн-транзакции для онлайн-продавца в Великобритании.Подробная информация о каждой предоставленной транзакции.541,909ТекстКлассификация, кластеризация2015D. Чен
Дамп простой темы FreebaseFreebase - это онлайновая попытка структурировать все человеческие знания.Темы из Freebase извлечены.большойТекстКлассификация, кластеризация2011Freebase
Набор данных Farm AdsТекст фермы реклама с сайтов. Дается двоичное одобрение или неодобрение со стороны владельцев контента.Рассчитано SVM-количество разреженных векторов текстовых слов в объявлениях.4143ТекстКлассификация2011C. Masterharm et al.

Игры

Название набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных покерных рук5-карточные комбинации из стандартной 52-карточной колоды.Даны атрибуты каждой руки, в том числе руки в покере, образованные картами, которые она содержит.1,025,010ТекстРегрессия, классификация2007R. Cattral
Набор данных Connect-4Содержит все допустимые 8-слойные позиции в игре Connect-4, в которых ни один игрок еще не выиграл, и в которых следующий ход не является принудительным.Нет.67,557ТекстКлассификация1995J. Tromp
Набор данных шахмат (король-ладья против короля)База данных эндшпиля для белого короля и ладьи против черного короля.Нет.28,056ТекстКлассификация1994М. Bain et al.
Шахматы (король-ладья против королевской пешки) Набор данныхкороль + ладья против короля + пешка на a7.Нет.3196ТекстКлассификация1989R. Holte
Набор данных эндшпиля в крестики-ноликиБинарная классификация условий победы в крестики-нолики.Нет.958ТекстКлассификация1991D. Aha

Другое многомерное

Имя набора данныхКраткое описаниеПредварительная обработкаЭкземплярыФорматЗадача по умолчаниюСоздано (обновлено)СсылкаСоздатель
Набор данных о жильеМедианные значения домов в Бостоне со связанными атрибутами дома и района.Нет.506ТекстРегрессия1993D. Харрисон и др.
Словарь Gettyструктурированная терминология для искусства и другой материальной культуры, архивных материалов, визуальных суррогатов и библиографических материалов.Нет.большойТекстКлассификация2015Центр Гетти
Yahoo! Первая страница «Сегодня» пользователь модуля «Журнал»Пользователь нажимает журнал для новостных статей, отображаемых на вкладке «Интересные» модуля «Сегодня» в Yahoo! Титульная страница.Совместный анализ с билинейной моделью.45 811 883 посещений пользователейТекстРегрессия, кластеризация2009Chu et al.
Британский центр океанографических данныхБиологические, химические, физические и геофизические данные по океанам. Отслежено 22K переменных.Разное.22K переменных, много экземпляровТекстРегрессия, кластеризация2015Британский центр океанографических данных
Набор данных голосования КонгрессаДанные о голосовании всех представителей США по 16 вопросам.Помимо необработанных данных голосования, предоставляются различные другие функции.435ТекстКлассификация1987J. Шлиммер
Набор данных рекомендаций Entree ChicagoЗапись взаимодействия пользователей с системой рекомендаций Entree Chicago.Подробная информация об использовании приложения каждым пользователем записывается подробно.50,672ТекстРегрессия, рекомендация2000R. Берк
Индекс страховой компании (COIL 2000)Информация о клиентах страховой компании.Многие особенности каждого клиента и услуг, которые они используют.9,000ТекстРегрессия, классификация2000P. van der Putten
Набор данных детских садовДанные поступающих в детские сады.Включены данные о семье заявителя и различных других факторах.12,960ТекстКлассификация1997V. Райкович и др.
Набор данных об университетахДанные, описывающие большое количество университетов.Нет.285ТекстКластеризация, классификация1988S. Sounders et al.
Набор данных центра службы переливания кровиДанные центра службы переливания крови. Предоставляет данные о скорости возврата доноров, частоте и т. Д.Нет.748ТекстКлассификация2008I. Yeh
Набор данных шаблонов сравнения связей записейБольшой набор данных записей. Задача - связать соответствующие записи вместе.Процедура блокировки применяется для выбора только определенных пар записей.5,749,132ТекстКлассификация2011Университет Майнца
Набор данных NomaoNomao собирает данные о местах из множества разных источников. Задача - обнаружить предметы, описывающие одно и то же место.Дубликаты отмечены.34,465ТекстКлассификация2012Nomao Labs
Набор данных фильмовДанные для 10 000 фильмов.Дано несколько характеристик для каждого фильма.10,000ТекстКластеризация, классификация1999G. Wiederhold
Набор данных Open University Learning AnalyticsИнформация о студентах и ​​их взаимодействии с виртуальной учебной средой.Нет.~ 30,000ТекстКлассификация, кластеризация, регрессия2015J. Kuzilek et al.
Записи мобильных телефоновТелекоммуникационная деятельность и взаимодействияАгрегация по ячейкам географической сетки и каждые 15 минут.большойТекстКлассификация, кластеризация, регрессия2015G. Barlacchi et al.
Курируемые репозитории наборов данных

Поскольку наборы данных имеют множество форматов и иногда их трудно использовать, была проделана значительная работа по кураторству и стандартизации формата наборов данных, чтобы упростить их использование для машинного обучения исследование.

  • OpenML: веб-платформа с Python, R, Java и другими API для загрузки сотен наборов данных машинного обучения, оценки алгоритмов на наборах данных и сравнения производительности алгоритмов с десятками других алгоритмов.
  • PMLB: большой, кураторский репозиторий наборов данных для оценки алгоритмов контролируемого машинного обучения. Предоставляет наборы данных классификации и регрессии в стандартизированном формате, которые доступны через Python API.
См. Также
Ссылки
Последняя правка сделана 2021-05-28 08:13:01
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте