Эти наборы данных используются для исследования машинного обучения и были цитированы в рецензируемых академических журналов. Наборы данных являются неотъемлемой частью машинного обучения. Значительный прогресс в этой области может быть достигнут за счет достижений в обучении алгоритмов (таких как глубокое обучение ), компьютерного оборудования и что менее интуитивно понятно, доступность высококачественных обучающих наборов данных. Высококачественные помеченные наборы обучающих данных для алгоритмов машинного обучения контролируемых и полу-контролируемых обычно сложно и дорого выполнять из-за большого количества времени, необходимого для разметки данных. Хотя их не нужно маркировать, высококачественные наборы данных для неконтролируемого обучения также могут быть сложными и дорогостоящими в производстве.
Наборы данных, состоящие в основном изображений или видео для таких задач, как обнаружение объектов, распознавание лиц и классификация по нескольким меткам.
в компьютере Vision изображения широко использовались для разработки систем распознавания лиц, распознавания лиц и многих других проектов, в которых используются изображения лиц.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 видео с 200 людей, ~ 1 250 000 вручную аннотированных изображений: аннотированные с точки зрения размерного аффекта (валентность-возбуждение); в дикой природе; база цветов; различное разрешение (среднее = 640x360) | обнаруженные лица, лицевые ориентиры и аннотации валентного возбуждения | ~ 1 250 000 изображений с ручными аннотациями | видео (визуальные + аудиомодальности) | распознавание аффекта (оценка валентности-возбуждения) | 2017 | CVPR IJCV | D.Kollias et al. |
Aff-Wild2 | 558 видеороликов 458 человек, ~ 2 800 000 изображений с комментариями вручную: аннотированные с зрения точки i) категориального аффекта (7 основных выражений: нейтральный, счастье, грусть, удивление, страх, отвращение), гнев); б) размерный аффект (валентное возбуждение); iii) боевые единицы (1,2,4,6,12,15,20,25 ед.); в дикой природе; база цветов; различное разрешение (среднее = 1030x630) | обнаруженные лица, обнаруженные и выровненные лица и аннотации | ~ 2 800 000 изображений с ручными аннотациями | видео (визуальные + аудио модальности) | распознавание аффекта (оценка валентного возбуждения, классификация тип экспрессии, обнаружение единиц действия) | 2019 | BMVC FG | D.Kollias et al. |
FERET (технология распознавания лиц) | 11338 изображений 1199 человек в разных положениях и в разное время. | Нет. | 11 338 | Изображения | Классификация, распознавание лиц | 2003 | Министерство обороны США | |
Аудиовизуальная база данных эмоциональной речи Ryerson и Песня (RAVDESS) | 7 356 видео- и аудиозаписей 24 профессиональных актеров. 8 эмоций двух уровней интенсивности каждая. | Файлы, помеченные выражением. Оценки перцепционной валидации предоставлены 319 оценщиками. | 7,356 | Видео, звуковые файлы | Классификация, распознавание лиц, распознавание голосов | 2018 | S.R. Ливингстон и Ф.А. Руссо | |
SCFace | Цветные изображения лиц под разными углами. | Местоположение черт лица извлечено. Приведены координаты объектов. | 4,160 | Изображения, текст | Классификация, распознавание | 2011 | M. Grgic et al. | |
Йельская база данных лиц | Лица 15 человек в 11 различных выражениях. | Ярлыки выражений. | 165 | Изображения | Распознавание лиц | 1997 | J. Ян и др. | |
Cohn-Kanade AU-Coded Expression Database | Большая база данных изображений с метками для выражений. | Отслеживание определенных черт лица. | 500+ последовательностей | Изображения, текст | Анализ выражения лица | 2000 | T. Kanade et al. | |
База данных выражений лица JAFFE | 213 изображений 7 выражений лица (6 основных выражений лица + 1 нейтральное), созданных 10 японскими моделями-женщинами. | Изображения обрезаются до лицевой области. Включает данные семантических оценок по ярлыкам эмоций. | 213 | Изображения, текст | Познание выражения лица | 1998 | Lyons, Kamachi, Gyoba | |
FaceScrub | Изображения общественных деятелей удалены из результатов поиска. | Имя и аннотация м / ж. | 107818 | Изображения, текст | Распознавание лиц | 2014 | H. Ng et al. | |
База данных лиц BioID | Изображения лиц с отмеченным положением глаз. | Установка положения глаз вручную. | 1521 | Изображения, текст | Распознавание лиц | 2001 | BioID | |
Набор данных сегментации кожи | Цвет, выбранный случайным образом значения из изображений лиц. | B, G, R, значения извлечены. | 245,057 | Текст | Сегментация, классификация | 2012 | R. Бхатт. | |
Босфор | База данных трехмерных изображений лиц. | Размечено 34 единицы действий и 6 выражений; Обозначены 24 лицевых ориентира. | 4652 | Изображения, текст | Распознавание лиц, классификация | 2008 | Савран и др. | |
UOY 3D-Face | нейтральное лицо, 5 выражений: гнев, счастье, печаль, закрыты, брови глаза подняты. | маркировка. | 5250 | Изображения, текст | Распознавание лиц, классификация | 2004 | Йоркский университет | |
База данных лиц CASIA 3D | Выражения: гнев, улыбка, смех, удивление, закрытые глаза. | Нет. | 4624 | Изображения, текст | Распознавание лиц, классификация | 2007 | Институт автоматики Китайской академии наук | |
CASIA NIR | Выражения: Гнев Отвращение Страх Счастье Печаль Сюрприз | Нет. | 480 | Захват видео в видимом спектре и ближнем инфракрасном диапазоне с аннотациями со скоростью 25 кадров в секунду | Распознавание лиц, классификация | 2011 | Чжао, Г. и другие. | |
BU-3DFE | нейтральное лицо и 6 выражений: гнев, счастье, печаль, удивление, отвращение, страх (4 уровня). 3D изображения извлечены. | Нет. | 2500 | Изображения, текст | Распознавание выражения лица, классификация | 2006 | Университет Бингемтона | |
Большой вызов распознавания лиц Набор данных | До 22 образцов для каждого предмета. Выражения: гнев, счастье, печаль, удивление, отвращение, отечность. 3D-данные. | Нет. | 4007 | Изображения, текст | Распознавание лиц, классификация | 2004 | Национальный институт стандартов и технологий | |
Gavabdb | До 61 образца для каждой темы. Выражения лица нейтральное, улыбка, фронтальный акцентированный смех, фронтальный случайный жест. 3D изображения. | Нет. | 549 | Изображения, текст | Распознавание лиц, классификация | 2008 | Университет короля Хуана Карлоса | |
3D-RMA | До 100 субъектов, выражения в основном нейтральные. Также несколько поз. | Нет. | 9971 | Изображения, текст | Распознавание лиц, классификация | 2004 | Королевская военная академия (Бельгия) | |
SoF | 112 человек (66 мужчин и 46 женщин) носят очки при различных условиях освещения. | Набор синтетических фильтров (размытие, окклюзия, шум и постеризация) с разным уровнем сложности. | 42,592 (2,662 исходных изображений × 16 синтетических изображений) | Изображения, файл Mat | Классификация по полу, распознавание лиц, распознавание лиц, оценка возраста и обнаружение очков | 2017 | Афифи М. и др. | |
IMDB-WIKI | IMDB и Википедия изображения лиц с метками пола и возраста. | Нет | 523,051 | Изображения | Гендерная классификация, обнаружение лиц, распознавание лиц, оценка возраста | 2015 | R. Rothe, R. Timofte, LV Gool |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о взаимодействии с людьми на телевидении | Видео из 20 различных телешоу для прогнозирования социальных действий: рукопожатие, дай пять, объятия, поцелуй и ничего. | Нет. | 6766 видеоклипов | видеоклипов | Предсказание действий | 2013 | Patron-Perez, A. et al. | |
Мультимодальная база данных действий человека Беркли (MHAD) | Записи одного человека, выполняющего 12 действий | Предварительная обработка MoCap | 660 примеров действий | 8 PhaseSpace Motion Capture, 2 стерео камеры, 4 четырехкамерные камеры, 6 акселерометров, 4 микрофона | Классификация действий | 2013 | Ofli, F. et al. | |
THUMOS Dataset | Большой набор видеоданных для действий. | Действия классифицированы и обозначены. | 45 млн кадров видео | Видео, изображения, текст | Классификация, обнаружение действий | 2013 | Ю. Цзян и др. | |
MEXAction2 | Набор видеоданных для локализации и обнаружения действий | Действия, классифицированные и помеченные. | 1000 | Видео | Обнаружение действия | 2014 | Stoian et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Созданные (обновленные) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Визуальный геном | Изображения и их описание | 108000 | изображений, текст | Подписи к изображениям | 2016 | Р. Кришна и др. | ||
Набор данных трехмерных объектов Беркли | 849 изображений, снятых в 75 различных сценах. Отмечено около 50 различных классов объектов. | Ограничивающие рамки и маркировка объекта. | 849 | изображения с ярлыками, текст | Распознавание объектов | 2014 | А. Janoch et al. | |
Berkeley Segmentation Data Set and Benchmarks 500 (BSDS500) | 500 естественных изображений, явно разделенных на непересекающиеся подмножества тестирования и тестирования + код тестирования. На основе BSDS300. | Каждое изображение сегментировано в среднем по пяти объектам различным. | 500 | Сегментированные изображения | Обнаружение контуров и иерархическая сегментация изображений | 2011 | Калифорнийский университет, Беркли | |
Общие объекты Microsoft в контексте ( COCO) | сложные повседневные сцены обычных предметов в их естественном контексте. | Подсветка, маркировка и классификация объектов по 91 типу объектов. | 2,500,000 | Помеченные изображения, текст | Распознавание объектов | 2015 | Т. Lin et al. | |
База данных SUN | Очень большая база данных по распознаванию сцен и объектов. | Места и объекты помечены. Объекты сегментированы. | 131067 | Изображения, текст | Распознавание объектов, распознавание сцены | 2014 | J. Xiao et al. | |
ImageNet | База данных изображений помеченных объектов, используемая в ImageNet Large Scale Visual Recognition Challenge | Помеченные объекты, ограничивающие рамки, описательные слова, функции SIFT | 14,197,122 | Изображения, текст | Распознавание объектов, распознавание сцен | 2009 (2014) | J. Deng et al. | |
Открытые изображения | Большой набор изображений, имеющих лицензию CC BY 2.0, с метками уровня изображения и ограничивающими рамками, охватывающими тысячи классов. | Метки уровня изображения, ограничивающие рамки | 9 178 275 | Изображения, текст | Классификация, распознавание объектов | 2017 | ||
TV Набор данных обнаружения новостного канала | Телевизионные рекламные ролики и выпуск новостей. | Аудио и видео функции, извлеченные из неподвижных изображений. | 129,685 | Текст | Кластеризация, классификация | 2015 | Стр. Guha et al. | |
Набор данных Statlog (сегментирование изображений) | Экземпляры были отобраны случайным образом из базы данных из 7 наружных изображений и вручную сегментированы для создания для каждого пикселя. | Многие характеристики рассчитаны. | 2310 | Текст | Классификация | 1990 | Массачусетский университет | |
Калтех 101 | Изображения предметов. | Детальные контуры объекта отмечены. | 9146 | Изображения | Классификация, распознавание объектов. | 2003 | Ф. Ли и др. | |
Caltech-256 | Большой набор изображений для классификации объектов. | Изображения категоризированы и отсортированы вручную. | 30,607 | Изображения, текст | Классификация, обнаружение объектов | 2007 | G. Гриффин и др. | |
Набор данных SIFT10M | Особенности SIFT набора данных Caltech-256. | Расширенное извлечение функций SIFT. | 11 164 866 | Текст | Классификация, обнаружение объекта | 2016 | X. Fu et al. | |
LabelMe | Аннотированные изображения сцен. | Объекты выделены. | 187240 | Изображения, текст | Классификация, обнаружение объектов | 2005 | Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института | |
Набор данных Городские пейзажи | Стерео видеопоследовательности, записанные в уличных сценах, с аннотациями на уровне пикселей. Также включены метаданные. | Сегментация и маркировка на уровне пикселей | 25000 | Изображения, текст | Классификация, обнаружение объектов | 2016 | Daimler AG и др. | |
PASCAL VOC Dataset | Большое количество изображений для задач классификации. | Маркировка, включая ограничивающую рамку | 500 000 | Изображения, текст | Классификация, обнаружение объекта | 2010 | M. Everingham et al. | |
CIFAR-10 Набор данных | Множество небольших изображений 10 классов объектов с низким разрешением. | Классы помечены, обучающая выборка разбита. | 60,000 | Изображений | Классификация | 2009 | A. Крижевский и др. | |
Набор данных CIFAR-100 | Как CIFAR-10, выше, но дано 100 объектов. | Классы помечены, обучающая выборка разбита. | 60,000 | Изображений | Классификация | 2009 | A. Крижевский и др. | |
Набор данных CINIC-10 | Объединенный вкладыш CIFAR-10 и Imagenet с 10 классами и 3 разделениями. Больше, чем CIFAR-10. | Классы помечены, обучение, проверка, разбиты наборы тестов созд. | 270,000 | Изображений | Классификация | 2018 | Люк Н. Дарлоу, Эллиот Дж. Кроули, Антреас Антониу, Амос Дж. Сторки | |
Fashion-MNIST | База данных модных товаров, подобная MNIST | Классы помечены, созданная разбиения обучающего набора. | 60 000 | изображений | Классификация | 2017 | Zalando SE | |
notMNIST | Некоторые общедоступные шрифты и извлеченные глифы из них, чтобы сделать набор данных похожим на MNIST. Всего существует 10 классов, буквы A - J взяты из разных шрифтов. | Классы помечены, обучающая выборка разбита. | 500 000 | изображений | Классификация | 2011 | Ярослав Булатов | |
Немецкий набор данных по тестированию обнаружения дорожных знаков | Изображения из автомобили дорожных знаков на немецких дорогах. Эти знаки соответствуют требованиям и поэтому такие же, как в других странах. | Знаки, помеченные вручную | 900 | Изображения | Классификация | 2013 | S Houben et al. | |
Набор данных KITTI Vision Benchmark | Автономные транспортные средства, проезжающие по городу среднего размера, изображения различных областей с помощью камер и лазерных сканеров. | Многие тесты взяты из данных. | >100 ГБ данных | Изображения, текст | Классификация, обнаружение объектов | 2012 | A Geiger et al. | |
Набор данных Линней 5 | Изображения 5 классов объектов. | Классы помечены, обучающая выборка разбита. | 8000 | Изображения | Классификация | 2017 | Чаладзе и Калатозишвили | |
FieldSAFE | Мультимодальный набор данных для обнаружения препятствия в сельском хозяйстве, включая стереокамеру, тепловизионную камеру, веб-камеру, камеру 360 градусов, лидар, радар и точную локализацию. | Классы с географической маркировкой. | >400 ГБ данных | Изображения и трехмерные облака точек | Классификация, обнаружение объектов, локализация объектов | 2017 | М. Kragh et al. | |
11K рук | 11 076 изображений рук (1600 x 1200 пикселей) 190 субъектов разного возраста от 18 до 75 лет для распознавания пола и биометрической идентификации. | Нет | 11 076 изображений рук | Изображения и файлы этикеток (.mat,.txt и.csv) | Распознавание пола и биометрическая идентификация | 2017 | M Afifi | |
CORe50 | Специальная модель для непрерывного / непрерывного обучения и распознавания объектов, представляет собой сборник из более чем 500 видеороликов (30 кадров в секунду) с 50 домашними объектами, принадлежащими 10 различных категорий. | Классы помечены, обучающие наборы разбиты, созданные на основе трехстороннего многозадачного теста. | 164 866 изображений RBG-D | файлы ярлыков изображений (.png или.pkl) и (.pkl,.txt,.tsv) | Классификация, Распознавание объектов | 2017 | В. Ломонако и Д. Мальтони | |
OpenLORIS-Object | Набор данных пожизненного / непрерывного роботизированного зрения (OpenLORIS-Object), собранный реальными роботами, установленными с несколькими датчиками высокого разрешения, включает коллекцию из 121 экземпляра объекта (1-я версия набора данных, 40 категорий предметов первой необходимости до 20 сцен). В наборе данных тщательно учтены 4 фактора среды в разных сценах, включая освещение, загорание, размер пикселя объекта и беспорядок, и явно определены уровни сложности каждого фактора. | Обозначенные классы, разделение наборов для обучения / проверки / тестирования, созданных с помощью сценариев тестирования. | 1 106 424 изображения RBG-D | файлы ярлыков изображений (.png и.pkl) и (.pkl) | Классификация, распознавание объектов на протяжении всей жизни, Robotic Vision | 2019 | В. Она и др. | |
Набор видеоданных в терагерцовом и тепловом диапазонах | Этот набор мультиспектральных данных включает в себя терагерцовое, тепловое, визуальное, ближнее инфракрасное и трехмерное видео объектов, скрытых под одеждой людей. | Предоставляются таблицы поиска 3D, которые позволяют проецировать изображения на облака точек 3D. | Более 20 видео. Продолжительность каждого видео составляет около 85 секунд (около 345 кадров). | AP2J | Эксперименты с обнаружением скрытых объектов | 2019 | Алексей А. Морозов и Ольга С. Сушкова |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных искусственных символов | Искусственно созданные данные, описывающие структуру из 10 заглавных букв английского алфавита. | Координаты нарисованных линий в виде целых чисел. Различные другие функции. | 6000 | Текст | Распознавание рукописного текста, классификация | 1992 | H. Guvenir et al. | |
Letter Dataset | Печатные буквы в верхнем регистре. | 17 функций извлечены из всех изображений. | 20,000 | Текст | OCR, классификация | 1991 | D. Slate et al. | |
CASIA-HWDB | Автономная рукописная база данных китайских иероглифов. 3755 классов в наборе символов GB 2312. | Изображения в оттенках серого с фоновыми пикселями, обозначенными как 255. | 1,172,907 | Изображения, текст | Распознавание рукописного ввода, классификация | 2009 | CASIA | |
CASIA-OLHWDB | Онлайн-база данных рукописных китайских иероглифов, собранная с помощью ручки Anoto на бумаге. 3755 классов в наборе символов GB 2312. | Обеспечивает последовательность координат штрихов. | 1,174,364 | Изображения, текст | Распознавание рукописного ввода, классификация | 2009 | CASIA | |
Набор данных траекторий символов | с пометкой образцы траекторий кончика пера для людей, пишущих простые символы. | Трехмерная матрица траектории скорости кончика пера для каждого образца | 2858 | Текст | Распознавание рукописного ввода, классификация | 2008 | Б. Williams | |
Chars74K Dataset | Распознавание символов в естественных изображениях символов, используемых как в английском, так и в каннада | 74,107 | Распознавание символов, распознавание рукописного ввода, OCR, классификация | 2009 | Т. de Campos | |||
Набор данных символов пера UJI | Отдельные рукописные символы | Указаны координаты положения пера при написании символов. | 11,640 | Текст | Распознавание почерка, классификация | 2009 | F. Прат и др. | |
Gisette Dataset | Примеры почерка из часто путающих 4 и 9 символов. | Функции, извлеченные из изображений, разделенные на обучающие / тестовые, изображения рукописного ввода с нормализованным размером. | 13 500 | Изображения, текст | Распознавание рукописного ввода, классификация | 2003 | Yann LeCun et al. | |
Набор данных Omniglot | 1623 разных рукописных символа из 50 разных алфавитов. | Маркированы вручную. | 38,300 | Изображения, текст, штрихи | Классификация, однократное обучение | 2015 | Американская ассоциация содействия развитию науки | |
База данных MNIST | База данных рукописных цифр. | Маркированы вручную. | 60000 | Изображения, текст | Классификация | 1998 | Национальный институт стандартов и технологий | |
Оптическое распознавание рукописных цифр, набор данных | Нормализованные растровые изображения рукописных данных. | Размер нормализован и сопоставлен с растровыми изображениями. | 5620 | Изображения, текст | Распознавание рукописного ввода, классификация | 1998 | E. Алпайдин и др. | |
Распознавание рукописных цифр с помощью пера | Рукописные цифры на электронном перьевом планшете. | Извлеченные векторы признаков с равномерным распределением. | 10,992 | Изображения, текст | Распознавание рукописного ввода, классификация | 1998 | E. Алпайдин и др. | |
Semeion Handwritten Digit Dataset | Рукописные цифры от 80 человек. | Все рукописные цифры нормализованы по размеру и сопоставлены с той же сеткой. | 1593 | Изображения, текст | Распознавание рукописного ввода, классификация | 2008 | T. Srl | |
HASYv2 | Рукописные математические символы | Все символы выровнены по центру и имеют размер 32px x 32px. | 168233 | Изображения, текст | Классификация | 2017 | Martin Thoma | |
Шумный рукописный набор данных Bangla | Включает рукописные Набор числовых данных (10 классов) и базовый набор данных символов (50 классов), каждый набор данных имеет три типа шума: белый гауссовский, размытие движения и пониженный контраст. | Все изображения выровнены по центру и имеют размер 32x32. | Набор числовых данных: 23330, Набор символьных данных: 76000 | Изображения, текст | Распознавание рукописного ввода, классификация | 2017 | М. Карки и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справочник | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных сегментации аэрофотоснимков | 80 аэрофотоснимков высокого разрешения с пространственным разрешением от 0,3 до 1,0. | Изображения сегментированы вручную. | 80 | Изображения | Воздушная классификация, обнаружение объектов | 2013 | J. Юань и др. | |
KIT AIS Data Set | Несколько помеченных наборов обучающих и оценочных данных аэрофотоснимков толпы. | Изображения, помеченные вручную, показывают пути людей через толпу. | ~ 150 | Изображения с тропами | Отслеживание людей, воздушное отслеживание | 2012 | M. Butenuth et al. | |
Набор данных Уилта | Данные дистанционного зондирования больных деревьев и другого растительного покрова. | Извлечены различные функции. | 4899 | Изображения | Классификация, обнаружение воздушных объектов | 2014 | B. Johnson | |
Набор данных MASATI | Морские сцены оптических аэрофотоснимков в видимом спектре. Он содержит цветные изображения в динамической морской среде, каждое изображение может содержать одну или несколько целей в разных погодных условиях и условиях освещения. | Ограничивающие рамки и маркировка объекта. | 7389 | Изображения | Классификация, обнаружение воздушных объектов | 2018 | A.-J. Gallego et al. | |
Набор данных для картирования типов лесов | Спутниковые снимки лесов в Японии. | Полосы длин волн изображения извлечены. | 326 | Текст | Классификация | 2015 | B. Johnson | |
Набор данных исследования накладных изображений | Аннотированные накладные изображения. Изображения с несколькими объектами. | Более 30 аннотаций и более 60 статистических данных, описывающих цель в контексте изображения. | 1000 | Изображения, текст | Классификация | 2009 | F. Tanner et al. | |
SpaceNet | SpaceNet - это совокупность коммерческих спутниковых изображений и маркированных тренировочных данных. | Файлы GeoTiff и GeoJSON, содержащие контуры зданий. | >17533 | Изображения | Классификация, идентификация объектов | 2017 | DigitalGlobe, Inc. | |
Набор данных объединенного землепользования UC | Эти изображения были вручную извлечены из больших изображений из коллекции изображений городских территорий USGS National Map для различных городских районов США. | Это набор данных изображений землепользования 21 класса, предназначенный для исследовательских целей. Для каждого класса есть 100 изображений. | 2100 | Чипы изображения 256x256, 30 см (1 фут) GSD | Классификация земного покрова | 2010 | Йи Ян и Шон Ньюсам | |
SAT-4 Airborne Dataset | Изображения были извлечены из набора данных Национальной программы сельскохозяйственных изображений (NAIP). | SAT-4 имеет четыре широких класса земного покрова, включая бесплодные земли, деревья, луга и класс, который состоит из всех классов земного покрова, кроме трех вышеупомянутых. | 500000 | Изображений | Классификация | 2015 | S. Basu et al. | |
Набор данных с воздуха SAT-6 | Изображения были извлечены из набора данных Национальной программы обработки изображений сельского хозяйства (NAIP). | SAT-6 имеет шесть широких классов земного покрова, включая бесплодные земли, деревья, луга, дороги, здания и водоемы. | 405,000 | Изображений | Классификация | 2015 | S. Basu et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Квантовое моделирование графена по теории функционала плотности | Помеченные изображения исходных данных для моделирования графена | Исходные данные (в формате HDF5) и выходные метки из квантового моделирования теории функционала плотности | Тест 60744 и 501473 и обучающие файлы | Помеченные изображения | Регрессия | 2019 | К. Mills I. Tamblyn | |
Квантовое моделирование электрона в двумерной потенциальной яме | Помеченные изображения исходных данных для моделирования 2d квантовой механики | Исходные данные (в формате HDF5) и выходные метки из квантового моделирования | 1,3 миллиона изображений | Помеченные изображения | Регрессия | 2017 | K. Миллс, М.А. Спаннер и И. Тэмблин | |
MPII Cooking Activities Dataset | Видео и изображения различных кулинарных мероприятий. | Пути и направления действий, метки, детализированная маркировка движения, класс активности, извлечение и маркировка неподвижных изображений. | 881,755 кадров | Видео, изображения, текст с пометкой | Классификация | 2012 | M. Rohrbach et al. | |
Набор данных FAMOS | 5000 уникальных микроструктур, все образцы были получены 3 раза с помощью двух разных камер. | Исходные файлы PNG, отсортированные по камерам, а затем по захватам. Файлы данных MATLAB с одной матрицей 16384 × 5000 на камеру за одно получение. | 30,000 | Изображения и файлы.mat | Аутентификация | 2012 | S. Волошиновский и др. | |
PharmaPack Dataset | 1000 уникальных классов с 54 изображениями на класс. | Маркировка классов, многие локальные дескрипторы, такие как SIFT и aKaZE, и локальные агенты функций, такие как Fisher Vector (FV). | 54,000 | Изображения и файлы.mat | Классификация с мелким зерном | 2017 | O. Таран, С. Резаифар и др. | |
Stanford Dogs Dataset | Изображения 120 пород собак со всего мира. | Предоставлены разделение на обучение / тест и аннотации ImageNet. | 20,580 | Изображения, текст | Классификация с мелким зерном | 2011 | A. Khosla et al. | |
StanfordExtra Dataset | Ключевые точки 2D и сегментации для Stanford Dogs Dataset. | Предусмотрены ключевые точки 2D и сегментация. | 12,035 | Помеченные изображения | 3D-реконструкция / оценка позы | 2020 | B. Biggs et al. | |
Набор данных о домашних животных Oxford-IIIT | 37 категорий домашних животных, примерно по 200 изображений каждой. | Маркированная порода, плотно ограниченная рамка, сегментация переднего и заднего плана. | ~ 7,400 | Изображения, текст | Классификация, обнаружение объектов | 2012 | O. Parkhi et al. | |
Набор данных функций изображений Corel | База данных изображений с извлеченными элементами. | Многие функции, включая гистограмму цветов, текстуру совместного появления и цветовые моменты, | 68,040 | Текст | Классификация, обнаружение объектов | 1999 | М. Ортега-Бинденбергер и др. | |
Характеристики онлайн-видео и набор данных времени перекодирования. | Время перекодирования для различных видео и свойств видео. | Характеристики видео даны. | 168,286 | Текст | Регрессия | 2015 | T. Deneke et al. | |
Набор данных Microsoft Sequential Image Narrative Dataset (SIND) | Набор данных для последовательного преобразования видения в язык | Для каждой фотографии даются описательные подписи и повествование, а фотографии расположены в последовательности | 81743 | Изображения, текст | Визуальное повествование | 2016 | Microsoft Research | |
Набор данных Caltech-UCSD Birds-200-2011 | Большой набор изображений птиц. | Part locations for birds, bounding boxes, 312 binary attributes given | 11,788 | Images, text | Classification | 2011 | C. Wah et al. | |
YouTube-8M | Large and diverse labeled video dataset | YouTube video IDs and associated labels from a diverse vocabulary of 4800 visual entities | 8 million | Video, text | Video classification | 2016 | S. Abu-El-Haija et al. | |
YFCC100M | Large and diverse labeled image and video dataset | Flickr Videos and Images and associated description, titles, tags, and other metadata (such as EXIF and geotags) | 100 million | Video, Image, Text | Video and Image classification | 2016 | B. Thomee et al. | |
Discrete LIRIS-ACCEDE | Short videos annotated for valence and arousal. | Valence and arousal labels. | 9800 | Video | Video emotion elicitation detection | 2015 | Y. Baveye et al. | |
Continuous LIRIS-ACCEDE | Long videos annotated for valence and arousal while also collecting Galvanic Skin Response. | Ярлыки валентности и возбуждения. | 30 | Видео | Обнаружение видеоэмоций | 2015 | Y. Baveye et al. | |
MediaEval LIRIS-ACCEDE | Расширение Discrete LIRIS-ACCEDE, включая аннотации уровней насилия в фильмах. | Ярлыки насилия, валентности и возбуждения. | 10900 | Видео | Обнаружение видеоэмоций | 2015 | Y. Baveye et al. | |
Спортивная поза Лидса | Сочлененные аннотации позы человека в 2000 изображениях естественных видов спорта с Flickr. | Грубый урожай вокруг одного человека, представляющего интерес, с 14 совместными метками | 2000 | Изображения плюс метки файлов.mat | Оценка позы человека | 2010 | С. Джонсон и М. Эверингем | |
Расширенная тренировка позы в спортивной позе в Лидсе | Сформулированные аннотации позы человека в 10 000 изображений естественного спорта с Flickr. | 14 совместных меток с помощью краудсорсинга | 10000 | Изображения плюс метки файлов.mat | Оценка позы человека | 2011 | S. Джонсон и М. Эверингем | |
Набор данных MCQ | 6 различных реальных экзаменов на основе множественного выбора (735 листов ответов и 33 540 блоков ответов) для оценки методов и систем компьютерного зрения, разработанных для систем оценки тестов с множественным выбором. | Нет | 735 листов для ответов и 33 540 полей для ответов | Изображения и ярлыки файлов.mat | Разработка систем оценки тестов с множественным выбором | 2017 | Афифи М. и др. | |
Видео наблюдения | Настоящие видео наблюдения охватывают длительный период наблюдения (7 дней по 24 часа каждое). | Нет | 19 видеозаписей наблюдения (7 дней по 24 часа каждая). | Видео | Сжатие данных | 2016 | Тадж-Эддин, И.А.Т. Ф. и др. | |
ЛИЛА BC | Информационная библиотека Александрии: биология и сохранение. Помеченные изображения, поддерживающие исследования машинного обучения в области экологии и науки об окружающей среде. | Нет | ~ 10M изображений | Изображения | Классификация | 2019 | Рабочая группа LILA | |
Можем ли мы увидеть фотосинтез ? | 32 видео для восьми живых и восьми мертвых листьев, записанных при постоянном и переменном освещении. | Нет | 32 видео | Видео | Определение жизнеспособности растений | 2017 | Тадж-Эддин, И.А. Т. Ф. и др. |
Наборы данных, состоящие в основном из текста, для таких задач, как обработка естественного языка, анализ тональности, перевод и кластерный анализ.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создана (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Отзывы Amazon | Отзывы о продуктах в США от Amazon.com. | Нет. | ~ 82M | Текст | Классификация, анализ тональности | 2015 | McAuley et al. | |
Набор данных обзора OpinRank | Обзоры автомобилей и отелей с сайтов Edmunds.com и TripAdvisor соответственно. | Нет. | 42,230 / ~ 259,000 соответственно | Текст | Анализ тональности, кластеризация | 2011 | K. Ganesan et al. | |
MovieLens | 22 000 000 оценок и 580 000 тегов, примененных к 33 000 фильмам 240 000 пользователей. | Нет. | ~ 22M | Текст | Регрессия, кластеризация, классификация | 2016 | GroupLens Research | |
Yahoo! Музыкальные рейтинги музыкантов-исполнителей | Более 10 миллионов оценок исполнителей пользователями Yahoo. | Не опис. | ~ 10M | Текст | Кластеризация, регрессия | 2004 | Yahoo! | |
Набор данных оценки автомобилей | Автомобиль свойства и их общая приемлемость. | Дано шести категориальных признаков. | 1728 | Текст | Классификация | 1997 | М. Bohanec | |
Набор данных предпочтений YouTube Comedy Slam | Данные о голосовании пользователей для пар видео, показываемых на YouTube. Пользователи голосовали за более смешные видео. | Указаны метаданные видео. | 1,138,562 | Текст | Классификация | 2012 | ||
Набор данных отзывов пользователей Skytrax | Отзывы пользователей авиакомпаний, аэропорты, места и залы ожидания Skytrax. | Рейтинги точны и другие аспекты опыта работы в аэропорту. | 41396 | Текст | Классификация, регрессия | 2015 | Q. Нгуен | |
Ассистент учителя оценивает набор данных | Ассистент учителя рассматривает. | Даны характеристики каждого экземпляра, такие как класс, размер класса и преподаватель. | 151 | Текст | Классификация | 1997 | W. Loh et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных NYSK | ские новостные английские статьи по делу, касающемуся обвинений в сексуальном посягательстве на бывшего МВФ <директор Доминик Стросс-Кан. | Отфильтровано и представлено в формате XML. | 10,421 | XML, текст | Анализ тональности, извлечение темы | 2013 | Dermouche, M. et al. | |
The Reuters Corpus Volume 1 | Большой корпус Reuters новостей на английском языке. | Детализированная категоризация и коды тем. | 810,000 | Текст | Классификация, кластеризация, обобщение | 2002 | Reuters | |
The Reuters Corpus Volume 2 | Большой корпус новостей Reuters на нескольких языках. | Детализированная категоризация и коды тем. | 487,000 | Текст | Классификация, кластеризация, обобщение | 2005 | Reuters | |
Коллекция текстовых исследований Thomson Reuters | Большой корпус новостей. | Подробности не развитие. | 1,800,370 | Текст | Классификация, кластеризация, резюмирование | 2009 | T. Rose et al. | |
Saudi Newspapers Corpus | 31 030 статей в арабских газетах. | Метаданные извлечены. | 31,030 | JSON | Суммирование, кластеризация | 2015 | М. Альхагри | |
RE3D (Набор данных оценки извлечения взаимосвязей и сущностей) | Сущности и отношения помечены данные из различных новостных и правительственных источников. Объявлено Dstl | Отфильтровано, категоризация с использованием типов Baleen | неизвестно | JSON | Распознавание классификации, сущности и отношений | 2017 | Dstl | |
Examiner Каталог спам-приманок | Clickbait, спам, краудсорсинговые заголовки с 2010 по 2015 гг. | Дата публикации и заголовки | 3,089,781 | CSV | Кластеризация, события, настроения | 2016 | R. Кулкарни | |
ABC Australia News Corpus | Весь корпус новостей ABC Australia с 2003 по 2019 гг. | Дата публикации и заголовки | 1,186,018 | CSV | Кластеризация, события, настроения | 2020 | R. Kulkarni | |
Worldwide News - совокупность 20K каналов | Однонедельный снимок всех онлайн-заголовков на 20+ языках | Время публикации, URL-адрес и заголовки | 1,398,431 | CSV | Кластеризация, события, определение языка | 2018 | R. Kulkarni | |
Reuters Заголовок новостной ленты | События с отметками времени, опубликованные в новостной ленте за 11 лет | Время публикации, текст заголовка | 16,121,310 | CSV | НЛП, Компьютерная лингвистика, События | 2018 | R. Кулкарни | |
The Irish Times Корпус новостей Ирландии | 24 года новостей Ирландии с 1996 по 2019 гг. | Время публикации, категория заголовков и текст | 1,484,340 | CSV | НЛП, Компьютерная лингвистика, События | 2020 | R. Kulkarni | |
Набор данных заголовков новостей для обнаружения сарказма | Высококачественный набор данных с саркастическими и несаркастическими заголовками новостей. | Чистый нормализованный текст | 26,709 | JSON | НЛП, классификация, лингвистика | 2018 | Ришаб Мишра |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справочник | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных электронной почты Enron | Электронные письма от сотрудников Enron, организованные в папки. | Вложения удалены, неверные адреса электронной почты преобразованы в [email#160;protected] или [email#160;protected] | ~ 500,000 | Текст | Сетевой анализ, анализ тональности | 2004 (2015) | Климт, Б. и Я. Янг | |
Ling-Spam Dataset | Корпус, предостав как законные, так и спам электронные письма. | Четыре версии корпуса с указанием того, был ли включен лемматизатор или стоп-лист. | 2,412 Ham 481 Spam | Текст | Классификация | 2000 | Androutsopoulos, J. et al. | |
Набор данных о сборе SMS-спама | Собранные SMS-спам-сообщения. | Нет. | 5,574 | Текст | Классификация | 2011 | T. Алмейда и др. | |
Набор данных двадцати групп новостей | Сообщения из 20 различных групп новостей. | Нет. | 20,000 | Текст | Обработка естественного языка | 1999 | T. Mitchell et al. | |
Набор данных спамбазы | Спам-сообщения. | Извлечено много текстовых функций. | 4,601 | Текст | Обнаружение спама, классификация | 1999 | M. Hopkins et al. |
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по По умолчанию | Создан (обновлен) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
MovieTweetings | Набор данных рейтинга фильмов на основе общедоступных и хорошо структурированных твитов | ~ 710 000 | Текст | Классификация, регрессия | 2018 | S. Dooms | ||
Twitter100k | Пары изображений и твитов | 100,000 | Текст и изображения | Межмедийное извлечение | 2017 | Y. Ху и др. | ||
Sentiment140 | Данные твита за 2009 год, включая исходный текст, отметку времени, пользователя и тональность. | Классифицировано с помощью дистанционного наблюдения из-за наличия смайлика в твите. | 1,578,627 | Твиты, запятые, значения, разделенные запятой | Анализ тональности | 2009 | A. Go et al. | |
Набор данных Twitter ASU | Сетевые данные Twitter, а не реальные твиты. Показывает связи между большим количеством пользователей. | Нет. | 11316811 пользователей, 85 331 846 подключений | Текст | Кластеризация, анализ графиков | 2009 | R. Зафарани и др. | |
Социальные круги SNAP: база данных Twitter | Данные большой сети Twitter. | Особенности узла, круги и сети эго. | 1,768,149 | Текст | Кластеризация, анализ графиков | 2012 | Дж. McAuley et al. | |
Набор данных Twitter для анализа настроений на арабском языке | Твиты на арабском языке. | Образцы, помеченные вручную как положительные или отрицательные. | 2000 | Текст | Классификация | 2014 | N. Абдулла | |
Жужжание в наборе социальных сетей | Данные из Twitter и Tom's Hardware. Этот набор данных посвящен конкретным темам, обсуждаемым на этих сайтах. | Данные представлены в виде окон, чтобы пользователь мог попытаться предсказать события, приведенные к появлению шума в социальных сетях. | 140,000 | Текст | Регрессия, классификация | 2013 | F. Кавала и др. | |
Парафраз и семантическое сходство в Twitter (PIT) | Этот набор данных фокусируется на том, имеют ли твиты (почти одинаковое значение / информацию или нет). Отмечено вручную. | разметка, теги частей речи и именованных сущностей | 18,762 | Текст | Регрессия, классификация | 2015 | Xu et al.. | |
Тестовый набор данных Geoparse Twitter | Этот набор данных содержит твиты во время различных новостных событий в разных странах. Упоминания местоположений, помеченные вручную. | аннотации местоположения добавлены в метаданные JSON | 6,386 | Твиты, JSON | Классификация, извлечение информации | 2014 | S.E. Миддлтон и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
NPS Chat Corpus | Сообщения из онлайн-чатов по возрасту. | Конфиденциальность рук замаскирована, помечена для части речи и диалога. | ~ 500,000 | XML | НЛП, программирование, лингвистика | 2007 | Форсайт, Э., Лин, Дж., И Мартелл, С... | |
Twitter Triple Corpus | троек ABA, извлеченных из Twitter. | 4232 | Текст | НЛП | 2016 | Координация, А. и др. | ||
UseNet Corpus | Сообщения на форуме UseNet. | Анонимные электронные письма и URL-адреса. Пропущенные документы длиной <500 words or>500000 слов или <90% English. | 7 миллиардов | Текст | 2011 | Шауль, К., Уэстбери К. | ||
NUS SMS Corpus | SMS-сообщения, собранные между двумя пользователями, с анализом времени. | ~ 10,000 | XML | NLP | 2011 | KAN, M | ||
Корпус всех комментариев Reddit | Все комментарии Reddit (как 2015 г.). | ~ 1,7 миллиарда | JSON | NLP, исследование | 2015 | Stuck_In_the_Matrix | ||
Ubuntu Dialogue Corpus | Диалоги, извлеченные из чата Ubuntu стрим по IRC. | CSV | Dialogue Systems Research | 2015 | Lowe, R. et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Web of Science | Иерархические наборы данных для классификации текста | Нет. | 46,985 | Текст | Классификация, Категоризация | 2017 | К. Kowsari et al. | |
Отчеты о судебных делах | Федеральный суд Австралии дела с 2006 по 2009 год. | Нет. | 4,000 | Текст | Обобщение, анализ цитирования | 2012 | F. Galgani et al. | |
Blogger Authorship Corpus | Записи в блогах 19 320 человек с blogger.com. | Блогер в указанном пол, возраст, отрасль и знак зодиака. | 681 288 | Текст | Анализ тональности, обобщение, классификация | 2006 | J. Schler et al. | |
Социальная структура сетей Facebook | Большой набор данных социальной структуры Facebook. | Нет. | 100 колледжей охвачены | Текст | Сетевой анализ, кластеризация | 2012 | A. Трауд и др. | |
Набор данных для машинного понимания текста | Истории и связанные вопросы для понимания текста. | Нет. | 660 | Текст | Обработка естественного языка, машинное понимание | 2013 | М. Ричардсон и др. | |
Проект Penn Treebank | Естественный текст с аннотациями для лингвистической структуры. | Текст разбирается на семантические деревья. | ~ 1 млн слов | Текст | Обработка естественного языка, обобщение | 1995 | M. Маркус и др. | |
Набор данных DEXTER | данная задача состоит в том, чтобы определить на основе приведенных характеристик, какие статьи к корпоративным потребляемым группам. | Извлеченные характеристики включают основы слов. Включены функции дистрактора. | 2600 | Текст | Классификация | 2008 | Reuters | |
N-граммы Google Книги | N-граммы из очень большой корпус книг | Нет. | 2,2 ТБ текста | Текст | Классификация, кластеризация, регрессия | 2011 | ||
Personae Corpus | Собрано для экспериментов по установлению авторства и прогнозирования личности. Состоит из 145 эссе на голландском языке. | В дополнение к обычным текстам даются синтаксически аннотированные тексты. | 145 | Текст | Классификация, регрессия | 2008 | K. Luyckx et al. | |
Набор данных CNAE-9 | Задача категоризации для произвольных текстовых описаний бразильских компаний. | Частота слова была извлечена. | 1080 | Текст | Классификация | 2012 | P. Ciarelli et al. | |
Набор данных предложений с меткой настроения | 3000 предложений с меткой настроения. | Тональность предложения каждого была помечена вручную как положительная или отрицательная. | 3000 | Текст | Классификация, анализ тональности | 2015 | D. Котзиас | |
Набор данных BlogFeedback | Набор данных для прогнозирования количества комментариев, получит сообщение в зависимости от его характеристик. | Извлечены многие особенности каждого сообщения. | 60,021 | Текст | Регрессия | 2014 | K. Buza | |
Корпус Stanford Natural Language Inference (SNLI) | Подписи к изображениям, сопоставленные с недавно построенными предложениями, образуют следствие, противоречие или нейтральные пары. | Метки классов перехода, синтаксический анализ синтаксическим анализатором Stanford PCFG | 570,000 | Текст | Вывод на естественном языке / распознавание текстового следования | 2015 | С. Bowman et al. | |
DSL Corpus Collection (DSLCC) | Многоязычный сборник коротких отрывков журналистских текстов на схожих языках и диалектах. | Нет | 294 000 фраз | Текст | Различие между похожими языками | 2017 | Tan, Liling et al. | |
Городской словарь Набор данных | Корпус слов, голосов и определений | Анонимные имена пользователей | 2,580,925 | CSV | НЛП, Машинное понимание | 2016 Май | Анонимные | |
T-REx | Википедия аннотации, согласованные с Викиданными сущностями | Согласование Викиданных троек с выдержками из Википедии | 11M выровненных троек | JSON и NIF [1] | NLP, Relation Extraction | 2018 | H. Elsahar et al. | |
Общая оценка понимания языка (GLUE) | Тест для девяти задач | Различные | ~ 1 млн предложений и пар предложений | NLU | 2018 | Ван и др. | ||
Atticus Open Contract Dataset (AOK) | Набор данных юридических контрактов с обширными экспертными аннотациями | ~ 3000 ярлыков | CSV и PDF | Обработка естественного языка, QnA | 2020 | Проект Аттикус |
Наборы звуков и звуковых характеристик.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Вызов речи с нулевым ресурсом 2015 | Спонтанная речь (английский), чтение речи ( Сицонга). | raw wav | английский: 5 часов, 12 говорящих; Сицонга: 2:30; 24 динамика | звук | Неконтролируемое обнаружение речевых характеристик / подсловных единиц / словарных единиц | 2015 | Versteegh et al. | |
Набор речевых данных Паркинсона | Множественные записи людей с болезнью Паркинсона и без нее. | Голосовые характеристики извлечены, оценивается врачом с использованием болезни единой шкалы оценки болезни Паркинсона | 1040 | Текст | Классификация, регрессия | 2013 | Б. E. Sakar et al. | |
Разговорные арабские цифры | Разговорные арабские цифры от 44 мужчин и 44 женщин. | Временной ряд коэффициентов мелкочастотного кепстра. | 8,800 | Текст | Классификация | 2010 | М. Bedda et al. | |
ISOLET Dataset | Названия букв. | Характеристики, извлеченные из звуков. | 7797 | Текст | Классификация | 1994 | R. Cole et al. | |
Набор данных японских гласных | Девять говорящих-мужчин произнесли две японские гласные. | К нему применен 12-градусный линейный прогнозный анализ для дискретного временного ряда с 12 коэффициентами кепстра. | 640 | Текст | Классификация | 1999 | М. Кудо и др. | |
Набор данных телемониторинга Паркинсона | Множественные записи людей с болезнью Паркинсона и без нее. | Звуковые особенности извлечены. | 5875 | Текст | Классификация | 2009 | A. Tsanas et al. | |
ТИМИТ | Записи 630 носителей восьми основных диалектов английского языка, каждый из которых читает десять предложений с богатым фонетическим звучанием. | Речь транскрибируется лексически и фонематически. | 6300 | Текст | Распознавание речи, классификация. | 1986 | Дж. Гарофоло и др. | |
Корпус арабской речи | Речевой корпус с одним говорящим, Современный стандартный арабский (MSA) с фонетическими и орфографическими расшифровками, выровненными по уровню фонемы | Речь орфографически и фонетически транскрибируется с следы стресса. | ~ 1900 | Текст, WAV | Синтез речи, распознавание речи, выравнивание корпуса, логопедия, образование. | 2016 | Н. Halabi | |
Common Voice | Общедоступная база данных краудсорсинговых данных по широкому спектру диалектов. | Проверка другими пользователями | Английский язык: 1118 часов | MP3 с соответствующими текстовыми файлами | Распознавание речи | июнь 2017 г. (декабрь 2019 г.)) | Mozilla |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | По умолчанию Задача | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Географическое происхождение набора музыкальных данных | Аудио особенности музыкальных образцов из разных мест. | Аудио функции, извлеченные с помощью программного обеспечения MARSYAS. | 1,059 | Текст | Географическая классификация, кластеризация | 2014 | F. Чжоу и др. | |
Million Song Dataset | Аудио особенности из миллиона различных песен. | Аудио функции извлечены. | 1M | Текст | Классификация, кластеризация | 2011 | T. Bertin-Mahieux et al. | |
MUSDB18 | Многодорожечные записи популярной музыки | Raw audio | 150 | MP4, WAV | Разделение источников | 2017 | З. Rafii et al. | |
Бесплатный музыкальный архив | Аудио под Creative Commons из 100 тыс. Песен (343 дня, 1 ТиБ) с иерархией из 161 жанра, метаданных, пользовательских данных, текста произвольной формы. | Необработанный звук и аудио особенности. | 106574 | Текст, MP3 | Классификация, рекомендация | 2017 | M. Дефферрард и др. | |
Набор данных хоровой гармонии Баха | Хоральные аккорды Баха. | Аудио функции извлечены. | 5665 | Текст | Классификация | 2014 | D. Radicioni et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Creator |
---|---|---|---|---|---|---|---|---|
UrbanSound | Помеченные звукозаписи звуков, например звуков кондиционеров, автомобильных гудков и игр детей. | Сортировка по папкам по классам событий, а также по метаданным в файле JSON и аннотациям в файле CSV. | 1,059 | Звук (WAV ) | Классификация | 2014 | Дж. Саламон и др. | |
AudioSet | 10-секундные звуковые фрагменты из видеороликов YouTube и онтология из более чем 500 лейблов. | 128-d PCA'd VGG-ish функции каждые 1 секунду. | 2,084,320 | Текст (CSV) и файлы записи TensorFlow | Классификация | 2017 | Дж. Геммеке и др., Google | |
Проблема обнаружения звука птиц | Аудио из станции мониторинга окружающей среды, плюс записи краудсорсинга | 17000+ | Классификация | 2016 (2018) | Университет Королевы Марии и Общество обработки сигналов IEEE | |||
WSJ0 Hipster Ambient Mixtures | Звук из WSJ0, смешанный с шумом, записанный в области залива Сан-Франциско | Шумовые клипы, соответствующие клипам WSJ0 | 28000 | Звук (WAV ) | Разделение источников звука | 2019 | Wichern, G., et al., Whisper and MERL | |
Clotho | 4981 аудиосэмпл продолжит ельностью от 15 до 30 секунд, каждый звукобразец, имеющий пять разных заголовков длиной от восьми до 20 слов. | 24 905 | Звук (WAV ) и текст (CSV ) | Автоматические субтитры | 2020 | К. Дроссос, С. Липпинг, и Т. Виртанен |
Наборы данных, содержащие информацию об электрических сигналах, требующую некоторой обработки сигналов для дальнейшего анализа.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справочник | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Witty Worm | Набор данных с подробным описанием распространения червя Witty и зараженных компьютеров. | Разделить на общедоступный набор и ограниченный набор, содержащий более конфиденциальную информацию, такую как заголовки IP и UDP. | 55 909 IP-адресов | Текст | Классификация | 2004 | Центр прикладного анализа данных в Интернете | |
Набор данных для оценки артериального давле ния без манжеты | Очищенные жизненно важные сигналы от пациентов-людей, которые можно использовать для оценки кровяного давления d давление. | Показатели жизненно важных функций 125 Гц очищены. | 12,000 | Текст | Классификация, регрессия | 2015 | M. Kachuee et al. | |
Набор данных дрейфа матрицы датчика газа | Измерения от 16 химических датчиков, используемых при моделировании для компенсации дрейфа. | Предоставляется большое количество функций. | 13,910 | Текст | Классификация | 2012 | A. Vergara | |
Servo Dataset | Данные, охватывающие нелинейные отношения, наблюдаемые в цепи сервоусилителя. | Приведены уровни различных компонентов в зависимости от других компонентов. | 167 | Текст | Регрессия | 1993 | K. Ullrich | |
UJIIndoorLoc-Mag Dataset | Внутренняя база данных локализации для тестирования внутренних систем позиционирования. Данные основаны на магнитном поле. | Даны разделение на обучение и тестирование. | 40,000 | Текст | Классификация, регрессия, кластеризация | 2015 | D. Rambla et al. | |
Набор данных диагностики бездатчикового привода | Электрические сигналы от двигателей с неисправными компонентами. | Статистические характеристики извлечены. | 58,508 | Текст | Классификация | 2015 | М. Bator |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создан (обновлен) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Носимые компьютеры: классификация поз и движений тела (PUC-Rio) | Люди, выполняющие пять стандартных действия при ношении трекеров движения. | Нет. | 165 632 | Текст | Классификация | 2013 | Папский католический университет Рио-де-Жанейро | |
Набор данных сегментации фазы жестов | Особенности извлеченных из видео людей, выполняющих различные жесты. | Извлеченные признаки предназначены для изучения сегментации фазы жеста. | 9900 | Текст | Классификация, кластеризация | 2014 | R. Madeo et a | |
Набор данных Vicon Physical Action Set | 10 обычных и 10 агрессивных физических действий, которые измеряют активность человека, отслеживаемую 3D-трекером. | Многие параметры записываются 3D-трекером. | 3000 | Текст | Классификация | 2011 | T. Theodoridis | |
Набор данных о ежедневных и спортивных мероприятиях | Данные датчиков двигателя для 19 ежедневных и спортивных занятий. | Дано много датчиков, без предварительной обработки сигналов. | 9120 | Текст | Классификация | 2013 | B. Баршан и др. | |
Распознавание деятельности человека с использованием набора данных смартфонов | Данные гироскопа и акселерометра от людей, носящих смартфоны и выполняющих обычные действия. | Выполняемые действия помечаются, все сигналы предварительно обрабатываются на наличие шума. | 10,299 | Текст | Классификация | 2012 | J. Reyes-Ortiz et al. | |
Знаки на австралийском языке жестов | Знаки на австралийском языке жестов, снятые перчатками для отслеживания движения. | Нет. | 2565 | Текст | Классификация | 2002 | М. Кадус | |
Упражнения по поднятию тяжестей, контролируемые с помощью инерциальных измерительных устройств | Пять вариантов упражнения на сгибание бицепса, контролируемые с помощью IMU. | Некоторая статистика рассчитана на основе необработанных данных. | 39,242 | Текст | Классификация | 2013 | W. Угулино и др. | |
sEMG для базовых движений руки Набор данных | Две базы данных поверхностных электромиографических сигналов 6 движений рук. | Нет. | 3000 | Текст | Классификация | 2014 | C. Sapsanis et al. | |
Набор данных распознавания активности REALDISP | Оценить методы, связанные с эффектами смещения сенсора при распознавании активности носимых устройств. | Нет. | 1419 | Текст | Классификация | 2014 | O. Banos et al. | |
Набор данных распознавания неоднородной активности | Данные с нескольких различных интеллектуальных устройств для людей, выполняющих различные действия. | Нет. | 43,930,257 | Текст | Классификация, кластеризация | 2015 | A. Stisen et al. | |
Прогнозирование перемещений пользователей внутри помещений на основе данных RSS | Временные данные беспроводной сети, которые можно использовать для отслеживания передвижения людей в офисе. | Нет. | 13,197 | Текст | Классификация | 2016 | D. Bacciu | |
Набор данных мониторинга физической активности PAMAP2 | 18 различных видов физической активности, выполняемых 9 субъектами, носящими 3 IMU. | Нет. | 3,850,505 | Текст | Классификация | 2012 | A. Reiss | |
ВОЗМОЖНОСТЬ Набор данных для распознавания активности | Распознавание человеческой активности с помощью носимых, объектных и внешних датчиков - это набор данных, разработанный для тестирования алгоритмов распознавания человеческой активности. | Нет. | 2551 | Текст | Классификация | 2012 | D. Roggen et al. | |
Набор данных распознавания активности в реальном мире | Распознавание деятельности человека с носимых устройств. Различает семь положений устройства на теле и содержит шесть различных типов датчиков. | Нет. | 3,150,000 (на датчик) | Текст | Классификация | 2016 | T. Sztyler et al. | |
Набор данных позы инсульта для реабилитации в Торонто | Трехмерные оценки позы человека (Kinect) пациентов, перенесших инсульт, и здоровых участников, выполняющих набор задач с использованием робота для реабилитации после инсульта. | Нет. | 10 здоровых людей и 9 выживших после инсульта (3500-6000 кадров на человека) | CSV | Классификация | 2017 | E. Долатабади и др. | |
Corpus of Social Touch (CoST) | 7805 жестов захватывает 14 различных социальных жестов, выполненных 31 субъектом. Жесты выполнялись в трех вариантах: нежный, нормальный и грубый, на сетке датчика давления, обернутой вокруг руки манекена. | Выполненные сенсорные жесты сегментированы и помечены. | 7805 захватывает жесты | CSV | Классификация | 2016 | M. Юнг и др. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создан (обновлен) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о винах | Химический анализ вин, выращенных в одном регионе Италии, но полученных из трех разных сортов. | Для каждого вина дано 13 свойств | 178 | Текст | Классификация, регрессия | 1991 | M. Forina et al. | |
Набор данных электростанции с комбинированным циклом | Данные с различных датчиков на электростанции, работающей в течение 6 лет. | Нет | 9568 | Текст | Регрессия | 2014 | P. Tufekci et al. |
Наборы данных из физических систем.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных HIGGS | Моделирование столкновений ускорителей частиц методом Монте-Карло. | Дано 28 признаков каждого столкновения. | 11M | Текст | Классификация | 2014 | D. Whiteson | |
HEPMASS Dataset | Моделирование столкновений ускорителей частиц методом Монте-Карло. Цель - отделить сигнал от шума. | Дано 28 признаков каждого столкновения. | 10,500,000 | Текст | Классификация | 2016 | D. Whiteson |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создан (обновлен) | Справочник | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных гидродинамики яхты | Характеристики яхты на основе размеров. | Каждой яхте дается шесть характеристик. | 308 | Текст | Регрессия | 2013 | R. Lopez | |
Набор данных об ошибках выполнения роботов | 5 наборов данных, которые сосредоточены вокруг сбоев роботов при выполнения общих задач. | Целочисленные характеристики, такие как измерения крутящего момента и других датчиков. | 463 | Текст | Классификация | 1999 | L. Seabra et al. | |
Набор данных Питтсбург Бриджес | Описание конструкции дается с точки зрения нескольких свойств различных мостов. | Приведены различные характеристики моста. | 108 | Текст | Классификация | 1990 | Y. Райх и др. | |
Набор данных по автомобилям | Данные об автомобилях, их страховом риске и нормированных убытках. | Характеристики автомобиля извлечены. | 205 | Текст | Регрессия | 1987 | J. Schimmer et al. | |
Автоматический набор данных MPG | Данные MPG для автомобилей. | Каждому автомобилю дано восемь характеристик. | 398 | Текст | Регрессия | 1993 | Университет Карнеги-Меллона | |
Набор данных по энергоэффективности | Требования к обогреву и охлаждению дается функция здания параметров. | Параметры здания указаны. | 768 | Текст | Классификация, регрессия | 2012 | A. Xifara et al. | |
Набор самошума аэродинамического профиля | Серия аэродинамических и акустических испытаний двух- и трехмерных профилей лопастей. | Приведены данные по частоте, угле атаки и т.д. | 1503 | Текст | Регрессия | 2014 | R. Лопес | |
Набор данных по уплотнительным кольцам космического челнока Challenger USA | Попытка предсказать проблемы с уплотнительными кольцами на основе прошлых данных Challenger. | Приведены несколько характеристик каждого полета, например температура запуска. | 23 | Текст | Регрессия | 1993 | D. Draper et al. | |
Набор данных Statlog (Shuttle) | Наборы данных космических челноков NASA. | Дано девять характеристик. | 58,000 | Текст | Классификация | 2002 | НАСА |
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы на Венере - экспериментальный набор данных JARtool | Изображения Венеры, полученные космическим кораблем Magellan. | Изображения помечены людьми. | не указано | Изображения | Классификация | 1991 | M. Берл | |
MAGIC Gamma Telescope Dataset | Монте-Карло генерировал высокоэнергетические гамма-частицы. | Многочисленные особенности, извлеченные из моделирования. | 19,020 | Текст | Классификация | 2007 | R. Bock | |
Набор данных о солнечных вспышках | Измерение количества определенных типов солнечных вспышек, происходящих за 24-часовой период. | Приведены многие особенности, характерные для солнечных вспышек. | 1389 | Текст | Регрессия, классификация | 1989 | G. Bradshaw |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Вулканы мира | Данные об извержениях вулканов для всех известных вулканических событий на Земле. | Приведены такие детали, как регион, подобласть, тектоническая обстановка, доминирующий тип породы. | 1535 | Текст | Регрессия, классификация | 2013 | E. Venzke et al. | |
Набор данных сейсмических ударов | Сейсмические воздействия на угольной шахте. | Сейсмическая активность классифицируется как опасная или нет. | 2584 | Текст | Классификация | 2013 | М. Sikora et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создан (обновлен) | Справочник | Creator |
---|---|---|---|---|---|---|---|---|
Набор данных прочности бетона на сжатие | Набор данных свойств бетона и прочности на сжатие. | Для каждого образца даны девять характеристик. | 1030 | Текст | Регрессия | 2007 | I. Yeh | |
Набор данных испытаний бетонной просадки | Поток бетонной просадки дан в терминах свойств. | Характеристики бетона, такие как летучая зола, вода и т. Д. | 103 | Текст | Регрессия | 2009 | Я. Yeh | |
Набор данных Musk | Предскажите, с учетом характеристик, будет ли молекула мускусом или немускусом. | Для каждой молекулы дано 168 признаков. | 6598 | Текст | Классификация | 1994 | Arris Pharmaceutical Corp. | |
Набор данных о неисправностях стальных пластин | Стальные пластины 7 разных типов. | Для каждого образца дано 27 характеристик. | 1941 | Текст | Классификация | 2010 | Исследовательский центр Семей |
Наборы данных из биологических систем.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
База данных ЭЭГ | Исследование для изучения коррелятов ЭЭГ генетической предрасположенности к алкоголю изм. | Измерения от 64 электродов, помещенных на кожу головы, с дискретизацией 256 Гц (период 3,9 мс) в течение 1 секунды. | 122 | Текст | Классификация | 1999 | H. Begleiter | |
Набор данных интерфейса P300 | Данные девяти субъектов, собранные с использованием интерфейса мозг-компьютер на основе P300 для субъектов с ограниченными возможностями. | Разделить на четыре занятия по каждому предмету. Указан код MATLAB. | 1,224 | Текст | Классификация | 2008 | U. Hoffman et al. | |
Набор данных о сердечных заболеваниях | Приписывается пациентом с сердечными заболеваниями и без них. | Для каждого пациента дано 75 атрибутов с некоторыми пропущенными значениями. | 303 | Текст | Классификация | 1988 | A. Janosi et al. | |
Рак молочной железы Висконсин (Диагностический) Набор данных | Набор данных характеристик новообразований молочной железы. Диагноз ставит врач. | Дано 10 характеристик для каждого образца. | 569 | Текст | Классификация | 1995 | W. Wolberg et al. | |
Национальное исследование употребления наркотиков и здоровья | Крупномасштабное исследование здоровья и употребления наркотиков в США. | Нет. | 55,268 | Текст | Классификация, регрессия | 2012 | Министерство здравоохранения и социальных служб США | |
Набор данных о раке легких | Набор легкого без определенных атрибутов данных | Для каждого случая дано 56 признаков | 32 | Текст | Классификация | 1992 | З. Hong et al. | |
Набор данных аритмии | Данные для группы, некоторые из которых имеют сердечную аритмию. | 276 функций для каждого экземпляра. | 452 | Текст | Классификация | 1998 | H. Алтай и др. | |
Диабет 130 больниц в США за годы 1999–2008 Набор данных | Данные о повторной госпитализации за 9 лет в 130 больницах США для пациентов с диабетом. | Приведены многие особенности каждой реадмиссии. | 100000 | Текст | Классификация, кластеризация | 2014 | J. Clore et al. | |
Набор данных Дебреценской диабетической ретинопатии | Характеристики, извлеченные из изображений глаз с диабетической ретинопатией и без нее. | Элементы извлечены и условия диагностики. | 1151 | Текст | Классификация | 2014 | B. Antal et al. | |
Набор данных мессидора диабетической ретинопатии | Методы оценки методов сегментации и индекса в области офтальмологии сетчатки (MESSIDOR) | Характеристики степени ретинопатии и риска отека желтого пятна | 1200 | Изображения, текст | Классификация сегмента | 2008 | Проект Мессидор | |
Набор данных о заболеваниях печени | Данные для людей с заболеваниями печени. | Для пациента дано семь биологических характеристик. | 345 | Текст | Классификация | 1990 | Bupa Medical Research Ltd. | |
Набор данных по заболеваниям щитовидной железы | 10 баз данных пациентов с заболеваниями щитовидной железы. | Нет. | 7200 | Текст | Классификация | 1987 | R. Куинлан | |
Набор данных мезотелиомы | Данные пациентов с мезотелиомой. | Приведено большое количество характеристик, включая воздействие асбеста. | 324 | Текст | Классификация | 2016 | A. Танрикулу и др. | |
Набор данных оценки позы Паркинсона на основе зрения | 2D-оценка позы человека с болезнью Паркинсона, выполняющих различные задачи. | Дрожание камеры убрано с траекторий. | 134 | Текст | Классификация, регрессия | 2017 | М. Ли и др. | |
Сеть метаболических показателей KEGG (неориентированная) | Сеть метаболических путей. Даны сеть и сеть отношений . | Даны подробные характеристики для каждого сетевого узла и пути. | 65,554 | Текст | Классификация, кластеризация, регрессия | 2011 | M. Naeem et al. | |
Модифицированный набор данных анализа морфологии сперматозоидов (MHSMA) | Изображения человеческих сперматозоидов от 235 пациентов с мужским бесплодием, помеченные как нормальные или аномальные акросомы, голова, вакуоль и хвост сперматозоидов. | Обрезано вокруг головки одного сперматозоида. Увеличение нормализованное. Созданы разделы для обучения, проверки и тестирования. | 1,540 | файлов.npy | Классификация | 2019 | S. Джавади и С.А. Миррошандель |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Abalone | Физические измерения Abalone. Также указаны погодные условия и местоположение. | Нет. | 4177 | Текст | Регрессия | 1995 | Морские исследовательские лаборатории - Тарона | |
Набор данных зоопарка | Покрытие искусственного набора данных 7 классов животных. | Животные делятся на 7 категорий, каждая из которых имеет характеристики. | 101 | Текст | Классификация | 1990 | R. Форсайт | |
Набор данных Demospongiae | Данные о морских губках. | 503 губки в классе Демоспондж описываются различными характеристиками. | 503 | Текст | Классификация | 2010 | E. Арменгол и др. | |
Набор данных последовательностей гена сплайс-соединений | Последовательности гена сплайс-соединения (ДНК) приматов с теорией связанных несовершенных доменов. | Нет. | 3190 | Текст | Классификация | 1992 | G. Towell et al. | |
Набор данных по экспрессии белков мышей | Уровни экспрессии 77 белков, измеренные в коре головного мозга мышей. | Нет. | 1080 | Текст | Классификация, кластеризация | 2015 | C. Higuera et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справочник | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о лесных пожарах | Лесные пожары и их свойства. | Выделено 13 признаков каждого пожара. | 517 | Текст | Регрессия | 2008 | P. Cortez et al. | |
Набор данных ириса | Три типа растений ириса описываются 4 различными атрибутами. | Нет. | 150 | Текст | Классификация | 1936 | Р. Фишер | |
Набор данных о листьях видов растений | Шестнадцать образцов листьев каждого из ста видов растений. | Даны дескриптор формы, мелкомасштабная граница и гистограммы текстуры. | 1600 | Текст | Классификация | 2012 | J. Cope et al. | |
Набор данных грибов | Атрибуты и классификация грибов. | Приведено множество свойств каждого гриба. | 8124 | Текст | Классификация | 1987 | J. Шлиммер | |
Набор данных сои | База данных больных растений сои. | Для каждого завода дано 35 характеристик. Растения делятся на 19 категорий. | 307 | Текст | Классификация | 1988 | R. Michalski et al. | |
Набор данных семян | Измерения геометрических свойств зерен, принадлежащих трем различным сортам. | Нет. | 210 | Текст | Классификация, кластеризация | 2012 | Charytanowicz et al. | |
Набор данных Covertype | Данные для прогнозирования типа лесного покрова строго на основе картографических чисел. | Приведено много географических функций. | 581,012 | Текст | Классификация | 1998 | J. Blackard et al. | |
Набор данных сети передачи сигналов абсцизовой кислоты | Данные для сети передачи сигналов предприятия. Цель состоит в том, чтобы определить набор правил, управляющих сетью. | Нет. | 300 | Текст | Причинно-следственная связь | 2008 | J. Jenkens et al. | |
Folio Dataset | 20 фотографий листьев каждого из 32 видов. | Нет. | 637 | Изображения, текст | Классификация, кластеризация | 2015 | T. Munisami et al. | |
Oxford Flower Dataset | 17 категорий данных цветов. | Разделение поездов / тесты, маркированные изображения, | 1360 | Изображения, текст | Классификация | 2006 | ME Nilsback et al. al. al. | |
Набор данных саженцев растений | Набор данных из 12 категорий саженцев растений. | Помеченные изображения, сегментированные изображения, | 5544 | Изображения | Классификация, обнаружение | 2017 | Giselsson et al. | |
Набор данных Fruits 360 | База данных с изображениями 120 фруктов и овощей. | 100x100 пикселей, белый фон. | 82213 | Изображения (jpg) | Классификация | 2017-2019 | Михай Олтеан, Хорея Муресан |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Creator |
---|---|---|---|---|---|---|---|---|
Ecoli Dataset | Сайты локализации белка. | Приведены различные особенности сайтов локализации белков. | 336 | Текст | Классификация | 1996 | K. Nakai et al. | |
MicroMass Dataset | Идентификация микроорганизмов по данным масс-спектрометрии. | Различные особенности масс-спектрометра. | 931 | Текст | Классификация | 2013 | P. Mahe et al. | |
Набор дрожжевых данных | Прогнозирование участков локализации белков в клетке. | Восемь функций для каждого экземпляра. | 1484 | Текст | Классификация | 1996 | К. Nakai et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных Tox21 | Прогнозирование результатов биологических анализов. | Даны химические дескрипторы молекул. | 12707 | Текст | Классификация | 2016 | A. Mayr et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Тест Numenta Anomaly Benchmark (NAB) | Данные упорядочены, имеют однозначные метрики с отметками времени. Все файлы данных аномалии, если не указано иное. | Нет | 50+ файлов | Значения, разделенные запятыми | Обнаружение аномалий | 2016 (постоянно обновляется) | Numenta | |
При оценке Неконтролируемое исследование: меры, наборы данных и эмпирическое исследование | Большинство файлов данных адаптировано из данных репозитория машинного обучения UCI, некоторые собраны из литературы. | обработано для отсутствующих значений, числовых атрибутов, различного процента аномалий, меток | 1000+ файлов | ARFF | Обнаружение аномалий | 2016 (возможно, обновлено новыми наборами данных и / или результаты) | Campos et al. |
Этот раздел ответа включает наборы данных, которые имеют дело со структурированными данными.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справочник | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных ответов на нейронные вопросы DBpedia (DBNQA) | Большая коллекция вопросов для SPARQL, специально разработанная для ответов на нейронные вопросы открытого домена через DBpedia База знаний. | Этот набор данных содержит большую коллекцию шаблонов и экземпляров Open Neural SPARQL для обучения машин Neural SPARQL; он был изготовлен полуавтоматическими инструментами аннотации, а также тремя экспертами SPARQL. | 894 499 | Пары вопрос-запрос | Ответ на вопрос | 2018 | Хартманн, Сору, Маркс и др. |
Наборы данных, состоящие из наблюдений и столбцов атрибутов, характеризующих наблюдения. Обычно используется для регрессионного рейтинга или классификации, но одна и другие алгоритмы. В этот раздел включены наборы, не подходящие для вышеперечисленных категорий.
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Индекс Доу-Джонса | Еженедельные данные по акциям за первый и второй кварталы 2011 года. | Включены вычисленные значения, например процентное изменение и запаздывание. | 750 | Значения, разделенные запятыми | Классификация, регрессия, Временные ряды | 2014 | M. Brown et al. | |
Statlog (Австралийское одобрение кредита) | Заявки на кредитные карты приняты или отклонены, а также атрибуты заявки. | Имена атрибутов удалены, а также идентирующая информация. Факторы были переименованы. | 690 | Значения, разделенные запятыми | Классификация | 1987 | R. Куинлан | |
данные аукционов eBay | данные аукционов с различных объектов eBay.com на аукционах разной толщины | Содержит все ставки, системы ставок, время ставок и цены открытия. | ~ 550 | Текст | Регрессия, классификация | 2012 | G. Шмуэли и др. | |
Statlog (Немецкие кредитные данные) | Бинарная классификация кредитов на «хорошие» и «плохие» с множеством характеристик | Приводятся различные финансовые характеристики каждого человека. | 690 | Текст | Классификация | 1994 | H. Hofmann | |
Bank Marketing Dataset | Данные крупной маркетинговой кампании, проведенной банком. | Дано много атрибутов клиентов, с которым установили контакт. Если клиент подписался на банк, тоже дается. | 45,211 | Текст | Классификация | 2012 | S. Моро и др. | |
Набор данных Стамбульской фондовой биржи | Несколько фондовых индексов отслеживаются в течение почти двух лет. | Нет. | 536 | Текст | Классификация, регрессия | 2013 | O. Akbilgic | |
Невыполнение обязательств клиентами по кредитным картам | Данные о дефолте по кредитам тайваньским кредиторам. | Даны различные особенности каждой учетной записи. | 30,000 | Текст | Классификация | 2016 | I. Да |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Cloud DataSet | Данные о 1024 облаках. | Особенности изображения извлечены. | 1024 | Текст | Классификация, кластеризация | 1989 | P. Коллард | |
Набор данных Эль-Ниньо | Океанографические и приземные метеорологические данные, полученные с помощью ряда буев, имеющихся по всей экваториальной части Тихого океана. | 12 погодных атрибутов измеряются на каждом буе. | 178080 | Текст | Регрессия | 1999 | Тихоокеанская морская экологическая лаборатория | |
Набор данных сети наблюдения за парниковыми газами | Время -серии погоды концентраций парниковых газов в ячейке 2921 ячейки в Калифорнии, созданной с использованием моделирования. | Нет. | 2921 | Текст | Регрессия | 2015 | D. Лукас | |
атмосферный CO2 из непрерывных проб воздуха в обсерватории Мауна-Лоа | Непрерывные пробы воздуха на Гавайях, США. 44 года рекордов. | Нет. | 44 года | Текст | Регрессия | 2001 | Обсерватория Мауна-Лоа | |
Набор данных ионосферы | Данные радара из ионосфера. Задача состоит в том, чтобы разделить радары на хорошие и плохие. | Дано множество функций радара. | 351 | Текст | Классификация | 1989 | Университет Джона Хопкинса | |
Набор данных определения уровня озона | Два грунтовых озона наборы данных уровня. | Приведено множество характеристик, включая погодные условия во время измерения. | 2536 | Текст | Классификация | 2008 | K. Zhang et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для взрослых | Данные переписи населения 1994 года, содержащие демографические характеристики взрослых и их доход. | Очищено и анонимно. | 48,842 | Значения, разделенные запятыми | Классификация | 1996 | Бюро переписи населения США | |
Census-Income (KDD) | Взвешенные данные переписи 1994 и 1995 гг. Текущие обследования населения. | Разделены на обучающие и тестовые наборы. | 299,285 | Значения, разделенные запятыми | Классификация | 2000 | Бюро переписи США | |
База данных переписи IPUMS | Перепись данные из районов Лос-Анджелеса и Лонг-Бич. | Нет | 256 932 | Текст | Классификация, регрессия | 1999 | IPUMS | |
Данные переписи населения США 1990 | Частичные данные переписи населения США 1990 года. | Результаты рандомизированы, полезные атрибуты выбраны. | 2,458,285 | Текст | Классификация, регрессия | 1990 | Бюро переписи США |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Справка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных для обмена велосипедами | Ежечасный и дневной счет проката велосипедов в большом городе. | Приведено много характеристик, включая погоду, продолжительность поездки и т. Д. | 17,389 | Текст | Регрессия | 2013 | H. Fanaee-T | |
Данные о поездках на такси в Нью-Йорке | Данные о поездках для желтых и зеленых такси в Нью-Йорке. | Предоставляет места получения и возврата, тарифы и другие подробности поездок. | 6 лет | Текст | Классификация, кластеризация | 2015 | Комиссия по такси и лимузинам Нью-Йорка | |
Траектория службы такси ECML PKDD | Траектории всех такси в большом городе. | Дано множество функций, включая точки начала и остановки. | 1,710,671 | Текст | Кластеризация, причинно-следственная связь | 2015 | М. Ferreira et al. |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Веб-страницы из Common Crawl 2012 | Большая коллекция веб-страниц и их подключение через гиперссылки | Нет. | 3.5B | Текст | кластеризация, классификация | 2013 | V. Granville | |
Набор данных интернет-рекламы | Набор данных для прогнозирования, является ли данное изображение рекламой. | Функции кодируют геометрию объявлений и фраз, встречающихся в URL. | 3279 | Текст | Классификация | 1998 | N. Kushmerick | |
Набор данных об использовании Интернета | Общая демография пользователей Интернета. | Нет. | 10,104 | Текст | Классификация, кластеризация | 1999 | D. Cook | |
Набор данных URL | 120 дней данных URL из большой конференции. | Дано множество характеристик каждого URL. | 2,396,130 | Текст | Классификация | 2009 | J. Ma | |
Набор данных фишинговых сайтов | Набор данных фишинговых сайтов. | Для каждого сайта дано множество функций. | 2456 | Текст | Классификация | 2015 | R. Мустафа и др. | |
Набор данных розничной онлайн-торговли | Онлайн-транзакции для онлайн-продавца в Великобритании. | Подробная информация о каждой предоставленной транзакции. | 541,909 | Текст | Классификация, кластеризация | 2015 | D. Чен | |
Дамп простой темы Freebase | Freebase - это онлайновая попытка структурировать все человеческие знания. | Темы из Freebase извлечены. | большой | Текст | Классификация, кластеризация | 2011 | Freebase | |
Набор данных Farm Ads | Текст фермы реклама с сайтов. Дается двоичное одобрение или неодобрение со стороны владельцев контента. | Рассчитано SVM-количество разреженных векторов текстовых слов в объявлениях. | 4143 | Текст | Классификация | 2011 | C. Masterharm et al. |
Название набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных покерных рук | 5-карточные комбинации из стандартной 52-карточной колоды. | Даны атрибуты каждой руки, в том числе руки в покере, образованные картами, которые она содержит. | 1,025,010 | Текст | Регрессия, классификация | 2007 | R. Cattral | |
Набор данных Connect-4 | Содержит все допустимые 8-слойные позиции в игре Connect-4, в которых ни один игрок еще не выиграл, и в которых следующий ход не является принудительным. | Нет. | 67,557 | Текст | Классификация | 1995 | J. Tromp | |
Набор данных шахмат (король-ладья против короля) | База данных эндшпиля для белого короля и ладьи против черного короля. | Нет. | 28,056 | Текст | Классификация | 1994 | М. Bain et al. | |
Шахматы (король-ладья против королевской пешки) Набор данных | король + ладья против короля + пешка на a7. | Нет. | 3196 | Текст | Классификация | 1989 | R. Holte | |
Набор данных эндшпиля в крестики-нолики | Бинарная классификация условий победы в крестики-нолики. | Нет. | 958 | Текст | Классификация | 1991 | D. Aha |
Имя набора данных | Краткое описание | Предварительная обработка | Экземпляры | Формат | Задача по умолчанию | Создано (обновлено) | Ссылка | Создатель |
---|---|---|---|---|---|---|---|---|
Набор данных о жилье | Медианные значения домов в Бостоне со связанными атрибутами дома и района. | Нет. | 506 | Текст | Регрессия | 1993 | D. Харрисон и др. | |
Словарь Getty | структурированная терминология для искусства и другой материальной культуры, архивных материалов, визуальных суррогатов и библиографических материалов. | Нет. | большой | Текст | Классификация | 2015 | Центр Гетти | |
Yahoo! Первая страница «Сегодня» пользователь модуля «Журнал» | Пользователь нажимает журнал для новостных статей, отображаемых на вкладке «Интересные» модуля «Сегодня» в Yahoo! Титульная страница. | Совместный анализ с билинейной моделью. | 45 811 883 посещений пользователей | Текст | Регрессия, кластеризация | 2009 | Chu et al. | |
Британский центр океанографических данных | Биологические, химические, физические и геофизические данные по океанам. Отслежено 22K переменных. | Разное. | 22K переменных, много экземпляров | Текст | Регрессия, кластеризация | 2015 | Британский центр океанографических данных | |
Набор данных голосования Конгресса | Данные о голосовании всех представителей США по 16 вопросам. | Помимо необработанных данных голосования, предоставляются различные другие функции. | 435 | Текст | Классификация | 1987 | J. Шлиммер | |
Набор данных рекомендаций Entree Chicago | Запись взаимодействия пользователей с системой рекомендаций Entree Chicago. | Подробная информация об использовании приложения каждым пользователем записывается подробно. | 50,672 | Текст | Регрессия, рекомендация | 2000 | R. Берк | |
Индекс страховой компании (COIL 2000) | Информация о клиентах страховой компании. | Многие особенности каждого клиента и услуг, которые они используют. | 9,000 | Текст | Регрессия, классификация | 2000 | P. van der Putten | |
Набор данных детских садов | Данные поступающих в детские сады. | Включены данные о семье заявителя и различных других факторах. | 12,960 | Текст | Классификация | 1997 | V. Райкович и др. | |
Набор данных об университетах | Данные, описывающие большое количество университетов. | Нет. | 285 | Текст | Кластеризация, классификация | 1988 | S. Sounders et al. | |
Набор данных центра службы переливания крови | Данные центра службы переливания крови. Предоставляет данные о скорости возврата доноров, частоте и т. Д. | Нет. | 748 | Текст | Классификация | 2008 | I. Yeh | |
Набор данных шаблонов сравнения связей записей | Большой набор данных записей. Задача - связать соответствующие записи вместе. | Процедура блокировки применяется для выбора только определенных пар записей. | 5,749,132 | Текст | Классификация | 2011 | Университет Майнца | |
Набор данных Nomao | Nomao собирает данные о местах из множества разных источников. Задача - обнаружить предметы, описывающие одно и то же место. | Дубликаты отмечены. | 34,465 | Текст | Классификация | 2012 | Nomao Labs | |
Набор данных фильмов | Данные для 10 000 фильмов. | Дано несколько характеристик для каждого фильма. | 10,000 | Текст | Кластеризация, классификация | 1999 | G. Wiederhold | |
Набор данных Open University Learning Analytics | Информация о студентах и их взаимодействии с виртуальной учебной средой. | Нет. | ~ 30,000 | Текст | Классификация, кластеризация, регрессия | 2015 | J. Kuzilek et al. | |
Записи мобильных телефонов | Телекоммуникационная деятельность и взаимодействия | Агрегация по ячейкам географической сетки и каждые 15 минут. | большой | Текст | Классификация, кластеризация, регрессия | 2015 | G. Barlacchi et al. |
Поскольку наборы данных имеют множество форматов и иногда их трудно использовать, была проделана значительная работа по кураторству и стандартизации формата наборов данных, чтобы упростить их использование для машинного обучения исследование.