Анализ поисковых данных

редактировать

В статистике, исследовательский анализ данных - это подход к анализу наборы данных для резюмирования их основных характеристик, часто с помощью визуальных методов. Статистическая модель может использоваться или нет, но в первую очередь EDA предназначена для того, чтобы увидеть, что данные могут сказать нам, помимо формального моделирования или задачи проверки гипотез. Джон Тьюки способствовал исследовательскому анализу данных, чтобы побудить статистиков изучить данные и, возможно, сформулировать гипотезы, которые могут привести к сбору новых данных и экспериментам. EDA отличается от анализа исходных данных (IDA), который более узко фокусируется на проверке допущений, необходимых для подгонки модели и проверки гипотез, а также на обработке недостающих значений и выполнении преобразований переменных по мере необходимости. EDA включает IDA.

Содержание

1 Обзор
2 Разработка
3 Методы и инструменты
4 История
5 Пример
6 Программное обеспечение
7 См. Также
8 Ссылки
9 Библиография
10 Внешние ссылки

Обзор

Тьюки определил анализ данных в 1961 году как: «Процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных, чтобы сделать его анализ проще, точнее или точнее, а также все механизмы и результаты (математической) статистики, которые применяются к анализу данных ».

Поддержка Тьюки EDA способствовала развитию статистических вычислений пакеты, особенно S в Bell Labs. Язык программирования S вдохновил системы 'S'-PLUS и R. В этом семействе сред статистических вычислений были значительно улучшены возможности динамической визуализации, что позволило статистикам идентифицировать выбросы, тенденции и закономерности в данных, которые заслуживают дальнейшего изучения.

EDA Тьюки был связан с двумя другими разработками в статистической теории : надежной статистикой и непараметрической статистикой, оба из которых пытались снизить чувствительность статистических выводов об ошибках при формулировании статистических моделей. Тьюки предложил использовать пятизначную сводку числовых данных - два крайних значения (максимум и минимум ), медиана и квартили - поскольку эти медиана и квартили, являющиеся функциями эмпирического распределения, определены для всех распределений, в отличие от среднего и стандартное отклонение ; кроме того, квартили и медиана более устойчивы к наклонному или распределению с тяжелым хвостом, чем традиционные итоги (среднее и стандартное отклонение). Пакеты S, S-PLUS и R включали подпрограммы, использующие статистику передискретизации, такие как jackknife Кенуя и Тьюки и bootstrap Эфрона <41.>, которые непараметрически и устойчивы (для многих задач).

Исследовательский анализ данных, надежная статистика, непараметрическая статистика и развитие языков статистического программирования облегчили работу статистиков над научными и инженерными проблемами. К таким проблемам относились производство полупроводников и понимание сетей связи, которые волновали Bell Labs. Эти статистические разработки, отстаиваемые Тьюки, были разработаны, чтобы дополнить аналитическую теорию проверки статистических гипотез, в частности лапласовскую традицию, делающую упор на экспоненциальные семейства..

Разработка

Блок-схема процесса науки о данных

Джон У. Тьюки написал книгу «Исследовательский анализ данных» в 1977 году. Тьюки считал, что в статистике слишком много внимания уделяется проверке статистических гипотез (подтверждающий анализ данных); больший акцент необходимо сделать на использовании данных для предложения гипотез для проверки. В частности, он считал, что смешение двух типов анализа и использование их на одном и том же наборе данных может привести к систематическому смещению из-за проблем, присущих проверке гипотез, предлагаемых данными.

Цели EDA:

Предложить гипотезы о причинах наблюдаемых явлений
Оценить допущения, на которых будет основываться статистический вывод
Поддержка выбора подходящих статистических инструментов и методов
Обеспечение основы для дальнейшего сбора данных с помощью опросов или экспериментов

Многие методы EDA были адаптированы для данных горное дело. Они также преподаются молодым студентам как способ приобщить их к статистическому мышлению.

Методы и инструменты

Существует ряд инструментов, которые полезны для EDA, но EDA характеризуется в большей степени по отношению к выбранным методам.

Типичными графическими методами, используемыми в EDA, являются:

прямоугольная диаграмма
гистограмма
многовариантная диаграмма
прогон диаграммы
Диаграмма Парето
Точечная диаграмма
Стволовой и листовой график
Параллельные координаты
Отношение шансов
Целевая проекция
Методы визуализации на основе глифов, такие как PhenoPlot и Чернофф сталкивается с
методами проекции, такими как большой тур, экскурсия с гидом и ручная экскурсия
Интерактивные версии этих графиков

уменьшение размерности :

Типичные количественные методы:

История

Многие идеи EDA восходят к более ранним авторам, например:

Фрэнсис Гальтон выделил статистику порядка и квантили.
Артур Лайон Боули использовал предшественников основной график и пятизначная сводка (Боули фактически использовал «семизначную сводку », включая крайние значения, децили и квартили, вместе с медианой - см. его «Элементарное руководство по статистике» (3-е изд., 1920 г.), стр. 62– он определяет «максимум и минимум, медиана, квартили и два дециля» как «семь позиций»).
Эндрю Эренберг сформулировал философию сокращения данных (см. Его книгу

В рамках курса Открытого университета Статистика в обществе (MDST 242) вышеуказанные идеи были объединены с работой Готфрида Нётер, которая представила статистический вывод посредством подбрасывания монеты и медианного теста.

Пример

Результаты EDA ортогональны задаче первичного анализа. Для иллюстрации рассмотрим пример из Cook et al. где задача анализа состоит в том, чтобы найти переменные, которые наилучшим образом предсказывают чаевые официанту за ужином. В данных, собранных для этой задачи, доступны следующие переменные: сумма чаевых, общий счет, пол плательщика, раздел для курящих / некурящих, время суток, день недели и размер вечеринки. Задача первичного анализа решается путем подбора регрессионной модели, в которой показатель чаевых является переменной отклика. Соответствующая модель:

() = 0,18 - 0,01 × (размер вечеринки)

, которая говорит о том, что по мере увеличения размера обеда на одного человека (что приводит к увеличению счета), ставка чаевых будет уменьшаться на 1 %.

Однако изучение данных обнаруживает другие интересные особенности, не описанные в этой модели.

Гистограмма суммы чаевых, где ячейки покрывают приращение в 1 доллар. Распределение значений искажено вправо и одномодально, как это обычно бывает при распределении небольших неотрицательных величин.
Гистограмма суммы чаевых, где ячейки покрывают приращение 0,10 доллара США. Наблюдается интересный феномен: пики возникают при суммах в целый доллар и полдоллара, что вызвано тем, что клиенты выбирают круглые числа в качестве чаевых. Такое поведение характерно и для других типов покупок, таких как бензин.
Точечная диаграмма между чаевыми и счетами. Точки под линией соответствуют чаевым, которые ниже ожидаемой (для данной суммы счета), а точки над линией выше ожидаемых. Мы могли бы ожидать увидеть тесную положительную линейную связь, но вместо этого увидим вариацию , которая увеличивается с размером чаевых. В частности, в правом нижнем углу больше точек далеко от линии, чем в верхнем левом, что указывает на то, что больше клиентов очень дешевы, чем очень щедрые.
Диаграмма разброса чаевых и счета, разделенных по полу плательщика и статусу раздела для курящих. На вечеринках для курящих гораздо больше вариантов советов, которые они дают. Мужчины, как правило, платят (несколько) более высокие счета, а некурящие женщины, как правило, очень часто дают чаевые (с тремя заметными исключениями, показанными в выборке).

То, что можно узнать из графиков, отличается от того, что проиллюстрировано регрессионной моделью, даже несмотря на то, что эксперимент не был разработан для исследования каких-либо других тенденций. Паттерны, обнаруженные при изучении данных, предполагают гипотезы об опрокидывании, которые, возможно, не ожидались заранее и которые могут привести к интересным последующим экспериментам, в которых гипотезы формально формулируются и проверяются путем сбора новых данных.

Программное обеспечение

JMP, пакет EDA от SAS Institute.
KNIME, Konstanz Information Miner - платформа для исследования данных с открытым исходным кодом на основе Eclipse.
Orange, программный пакет с открытым исходным кодом интеллектуального анализа данных и машинное обучение.
Python, широко используемый язык программирования с открытым исходным кодом в интеллектуальном анализе данных и машинном обучении.
R, язык программирования с открытым исходным кодом для статистических вычислений и графики. Вместе с Python является одним из самых популярных языков для науки о данных.
TinkerPlots программное обеспечение EDA для учащихся старших классов начальной и средней школы.
Weka пакет интеллектуального анализа данных с открытым исходным кодом, который включает средства визуализации и EDA например, преследование целевой проекции.

См. также

Ссылки

Библиография

Андриенко, Н. и Андриенко, Г. (2005) Исследовательский анализ пространственных и временных данных. Системный подход. Springer. ISBN 3-540-25994-5
Кук, Д. и Суэйн, Д.Ф. (с А. Буджа, Д. Темпл Ланг, Х. Хофманн, Х. Викхэм, М. Лоуренс) (2007-12-12). Интерактивная и динамическая графика для анализа данных: с R и GGobi. Springer. ISBN 9780387717616. CS1 maint: несколько имен: список авторов (ссылка )
Hoaglin, DC; Mosteller, F Tukey, John Wilder (Eds) ( 1985). Изучение таблиц данных, тенденций и форм. ISBN 978-0-471-09776-1. CS1 maint: несколько имен: авторы список (ссылка ) CS1 maint: дополнительный текст: список авторов (ссылка )
Хоаглин, округ Колумбия; Мостеллер, Ф Тьюки, Джон Уайлдер (редакторы) (1983). Понимание надежных и исследовательских данных Анализ. ISBN 978-0-471-09777-8. CS1 maint: несколько имен: список авторов (ссылка ) CS1 maint: дополнительный текст : список авторов (ссылка )
Инзельберг, Альфред (2009). Параллельные координаты: визуальная многомерная геометрия и ее приложения. Лондон, Нью-Йорк: Springer. ISBN 978-0-387- 68628-8.
Leinhardt, G., Leinhardt, S., Исследовательский анализ данных: новые инструменты для анализа эмпирических данных, Review of Research in Education, Vol. 8, 1980 (1980), С. 85–157.
Мартинес, WL ; Мартин z, А. Р. и Солка, Дж. (2010). Исследовательский анализ данных с помощью MATLAB, второе издание. Чепмен и Холл / CRC. ISBN 9781439812204. CS1 maint: ref = harv (ссылка )
Theus, M., Urbanek, S. (2008), Interactive Graphics for Data Analysis : Принципы и примеры, CRC Press, Boca Raton, FL, ISBN 978-1-58488-594-8
Tucker, L; MacCallum, R. (1993). Исследовательский факторный анализ. [1].
Тьюки, Джон Уайлдер (1977). Исследовательский анализ данных. Аддисон-Уэсли. ISBN 978-0-201 -07616-5.
Веллеман, П.Ф.; Хоаглин, Д.К. (1981). Приложения, основы и вычисления для исследовательского анализа данных. ISBN 978-0-87150- 409-8. CS1 maint: ref = harv (ссылка )
Янг, Ф.В. Валеро-Мора, П. и Френдли М. (2006) Визуальная статистика: просмотр ваших данных с помощью Динамическая интерактивная графика. Wiley ISBN 978-0-471-68160-1
Джамбу М. (1991) Исследовательский и многомерный анализ данных. Academic Press ISBN 0123800900
SHC DuToit, AGW Steyn, RH Stumpf (1986) Graphical Explora Анализ данных тори. Springer ISBN 978-1-4612-9371-2

Внешние ссылки