Выброс

редактировать
Эта статья о статистическом термине. Для использования в других целях, см Outlier (значения).

Рис. 1. Ящичный график данных эксперимента Майкельсона – Морли, показывающий четыре выброса в среднем столбце, а также один выброс в первом столбце.

В статистике, останец является данные указывают, что существенно отличается от других наблюдений. Выброс может быть из-за изменчивости измерения или может указывать на экспериментальную ошибку; последние иногда исключаются из набора данных. Выброс может вызвать серьезные проблемы при статистическом анализе.

Выбросы могут возникать случайно в любом распределении, но они часто указывают либо на ошибку измерения, либо на то, что популяция имеет распределение с « тяжелым хвостом». В первом случае их нужно отбросить или использовать статистику, устойчивую к выбросам, тогда как во втором случае они указывают на то, что распределение имеет высокую асимметрию и что следует быть очень осторожными при использовании инструментов или интуиции, предполагающих нормальное распределение. Частой причиной выбросов является смесь двух распределений, которые могут быть двумя отдельными подгруппами или могут указывать на «правильное испытание» или «ошибку измерения»; это моделируется смешанной моделью.

В большинстве больших выборок данных некоторые точки данных будут дальше от среднего значения выборки, чем это считается разумным. Это может быть из-за случайной систематической ошибки или недостатков теории, которая породила предполагаемое семейство вероятностных распределений, или может быть, что некоторые наблюдения далеки от центра данных. Таким образом, выбросы могут указывать на ошибочные данные, ошибочные процедуры или области, в которых определенная теория может быть неверной. Однако в больших выборках следует ожидать небольшого количества выбросов (и не из-за каких-либо аномальных условий).

Выбросы, являющиеся наиболее экстремальными наблюдениями, могут включать в себя максимум или минимум выборки, или и то, и другое, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не всегда являются выбросами, потому что они не могут быть необычно далекими от других наблюдений.

Наивная интерпретация статистики, полученной из наборов данных, которые включают выбросы, может вводить в заблуждение. Например, если вычисляется средняя температура 10 объектов в комнате, и девять из них находятся в диапазоне от 20 до 25 градусов Цельсия, но духовка имеет температуру 175 ° C, медиана данных будет между 20 и 25 ° C. C, но средняя температура будет от 35,5 до 40 ° C. В этом случае медиана лучше отражает температуру объекта, отобранного случайным образом (но не температуру в комнате), чем среднее значение; наивная интерпретация среднего как «типичный образец», эквивалент медианы, неверна. Как показано в этом случае, выбросы могут указывать на точки данных, которые принадлежат другой совокупности, чем остальная часть набора выборки.

Оценщики, способные справляться с выбросами, считаются надежными: медиана является надежной статистикой центральной тенденции, а среднее - нет. Однако среднее значение обычно является более точной оценкой.

СОДЕРЖАНИЕ
  • 1 Возникновение и причины
    • 1.1 Причины
  • 2 Определения и обнаружение
    • 2.1 Критерий Пирса
    • 2.2 Заборы Тьюки
    • 2.3 При обнаружении аномалий
    • 2.4 Модифицированный тест Томпсона Тау
  • 3 Работа с выбросами
    • 3.1 Удержание
    • 3.2 Исключение
    • 3.3 Ненормальные распределения
    • 3.4 Неопределенности принадлежности к множеству
    • 3.5 Альтернативные модели
  • 4 См. Также
  • 5 ссылки
  • 6 Внешние ссылки
Возникновение и причины
Относительные вероятности в нормальном распределении

В случае нормально распределенных данных правило трех сигм означает, что примерно 1 из 22 наблюдений будет отличаться от среднего вдвое или более на стандартное отклонение, а 1 из 370 будет отклоняться в три раза на стандартное отклонение. В выборке из 1000 наблюдений присутствие до пяти наблюдений, отклоняющихся от среднего значения более чем на три стандартных отклонения, находится в пределах ожидаемого диапазона, меньше чем в два раза ожидаемого числа и, следовательно, в пределах одного стандартного отклонения от среднего значения. ожидаемое число - см. распределение Пуассона - и не указывает на аномалию. Однако, если размер выборки составляет всего 100, только три таких выброса уже являются поводом для беспокойства, что более чем в 11 раз превышает ожидаемое число.

В общем, если характер распределения населения, как известно априори, то можно проверить, если количество выбросов отклоняются значительно от того, что можно ожидать: для данного среза (так образцы выходят за отсечкой с вероятностью р) от а Для данного распределения количество выбросов будет следовать биномиальному распределению с параметром p, которое, как правило, может быть хорошо аппроксимировано распределением Пуассона с λ = pn. Таким образом, если взять нормальное распределение с отсечкой 3 стандартных отклонения от среднего, p составляет примерно 0,3%, и, таким образом, для 1000 испытаний можно приблизить количество выборок, отклонение которых превышает 3 сигма, распределением Пуассона с λ = 3.

Причины

Выбросы могут иметь множество аномальных причин. Физическое устройство для проведения измерений могло иметь временную неисправность. Возможно, произошла ошибка при передаче или транскрипции данных. Выбросы возникают из-за изменений в поведении системы, мошенничества, человеческой ошибки, ошибки прибора или просто из-за естественных отклонений в популяциях. Образец мог быть загрязнен элементами, не относящимися к исследуемой популяции. В качестве альтернативы, выброс может быть результатом ошибки в предполагаемой теории, требующей дальнейшего исследования исследователем. Кроме того, патологический вид выбросов определенной формы появляется в различных наборах данных, указывая на то, что причинный механизм для данных может отличаться в крайних точках ( эффект Кинга ).

Определения и обнаружение

Не существует строгого математического определения того, что является выбросом; Определение того, является ли наблюдение выбросом, в конечном итоге является субъективным делом. Существуют различные методы обнаружения выбросов. Некоторые из них являются графическими, например, графики нормальной вероятности. Другие основаны на моделях. Коробчатые участки - это гибрид.

Методы на основе моделей, которые обычно используются для идентификации, предполагают, что данные получены из нормального распределения, и выявляют наблюдения, которые считаются «маловероятными» на основе среднего значения и стандартного отклонения:

Критерий Пирса

Основная статья: критерий Пирса

Предлагается определить в серии наблюдений предел ошибки, за пределами которого все наблюдения, содержащие такую ​​большую ошибку, могут быть отклонены, при условии, что таких наблюдений столько же. Принцип, на основе которого предлагается решить эту проблему, состоит в том, что предлагаемые наблюдения должны быть отклонены, когда вероятность системы ошибок, полученная путем их сохранения, меньше, чем вероятность системы ошибок, полученная путем их отклонения, умноженная на вероятность делать так много и не более аномальных наблюдений. (Цитируется в редакционной заметке на странице 516 Пирсу (издание 1982 г.) из A Manual of Astronomy 2: 558 Шовене.) m {\displaystyle m} n {\displaystyle n}

Заборы Тьюки

Другие методы отмечают наблюдения, основанные на таких показателях, как межквартильный размах. Например, если и являются нижним и верхним квартилями соответственно, то можно определить выброс как любое наблюдение за пределами диапазона: Q 1 {\displaystyle Q_{1}} Q 3 {\displaystyle Q_{3}}

[ Q 1 k ( Q 3 Q 1 ) , Q 3 + k ( Q 3 Q 1 ) ] {\displaystyle {\big [}Q_{1}-k(Q_{3}-Q_{1}),Q_{3}+k(Q_{3}-Q_{1}){\big ]}}

для некоторой неотрицательной константы. Джон Тьюки предложил этот тест, где указывает «выброс», а данные - «далеко за пределами». k {\displaystyle k} k = 1.5 {\displaystyle k=1.5} k = 3 {\displaystyle k=3}

При обнаружении аномалий

Основная статья: Обнаружение аномалий

В различных областях, таких как, помимо прочего, статистика, обработка сигналов, финансы, эконометрика, производство, создание сетей и интеллектуальный анализ данных, задача обнаружения аномалий может принимать другие подходы. Некоторые из них могут быть основаны на расстоянии и плотности, например, на локальном выбросе (LOF). Некоторые подходы могут использовать расстояние до k-ближайших соседей, чтобы пометить наблюдения как выбросы или не выбросы.

Модифицированный тест Томпсона Тау

Смотрите также: Студентизированный остаток § Распределение

Модифицированный тест Томпсона Тау - это метод, используемый для определения наличия выброса в наборе данных. Сила этого метода заключается в том, что он учитывает стандартное отклонение набора данных, среднее значение и обеспечивает статистически определенную зону отклонения; тем самым предоставляя объективный метод определения того, является ли точка данных выбросом. Как это работает: сначала определяется среднее значение набора данных. Затем определяется абсолютное отклонение между каждой точкой данных и средним значением. В-третьих, определяется область отклонения по формуле:

Rejection Region = t α / 2 ( n 1 ) n n 2 + t α / 2 2 {\displaystyle {\text{Rejection Region}}{=}{\frac {{t_{\alpha /2}}{\left(n-1\right)}}{{\sqrt {n}}{\sqrt {n-2+{t_{\alpha /2}^{2}}}}}}};

где - критическое значение из t- распределения Стьюдента с n -2 степенями свободы, n - размер выборки, а s - стандартное отклонение выборки. Чтобы определить, является ли значение выбросом: Рассчитайте. Если δ gt; Rejection Region, точка данных является выбросом. Если δ ≤ Rejection Region, точка данных не является выбросом. t α / 2 {\displaystyle \scriptstyle {t_{\alpha /2}}} δ = | ( X m e a n ( X ) ) / s | {\displaystyle \scriptstyle \delta =|(X-mean(X))/s|}

Модифицированный тест Томпсона Тау используется для обнаружения одного выброса за раз (наибольшее значение δ удаляется, если оно является выбросом). Это означает, что если обнаруживается, что точка данных является выбросом, она удаляется из набора данных, и тест применяется снова с новым средним значением и областью отклонения. Этот процесс продолжается до тех пор, пока в наборе данных не останутся выбросы.

В некоторых работах также исследовались выбросы номинальных (или категориальных) данных. В контексте набора примеров (или экземпляров) в наборе данных жесткость экземпляра измеряет вероятность того, что экземпляр будет неправильно классифицирован ( где y - присвоенная метка класса, а x - значение входного атрибута для экземпляра в обучающем наборе. т). В идеале твердость экземпляра должна быть рассчитана путем суммирования по набору всех возможных гипотез H: 1 p ( y | x ) {\displaystyle 1-p(y|x)}

I H ( x , y ) = H ( 1 p ( y , x , h ) ) p ( h | t ) = H p ( h | t ) p ( y , x , h ) p ( h | t ) = 1 H p ( y , x , h ) p ( h | t ) . {\displaystyle {\begin{aligned}IH(\langle x,y\rangle)amp;=\sum _{H}(1-p(y,x,h))p(h|t)\\amp;=\sum _{H}p(h|t)-p(y,x,h)p(h|t)\\amp;=1-\sum _{H}p(y,x,h)p(h|t).\end{aligned}}}

На практике эта формулировка неосуществима, поскольку H потенциально бесконечно, и вычисления неизвестны для многих алгоритмов. Таким образом, твердость экземпляра может быть приблизительно определена с использованием разнообразного подмножества: p ( h | t ) {\displaystyle p(h|t)} L H {\displaystyle L\subset H}

I H L ( x , y ) = 1 1 | L | j = 1 | L | p ( y | x , g j ( t , α ) ) {\displaystyle IH_{L}(\langle x,y\rangle)=1-{\frac {1}{|L|}}\sum _{j=1}^{|L|}p(y|x,g_{j}(t,\alpha))}

где - гипотеза, вызванная алгоритмом обучения, обученным на обучающей выборке t с гиперпараметрами. Жесткость экземпляра обеспечивает непрерывное значение для определения того, является ли экземпляр выбросом. g j ( t , α ) {\displaystyle g_{j}(t,\alpha)} g j {\displaystyle g_{j}} α {\displaystyle \alpha }

Работа с выбросами

Выбор того, как поступить с выбросом, должен зависеть от причины. Некоторые оценщики очень чувствительны к выбросам, особенно к оценке ковариационных матриц.

Удержание

Даже когда модель нормального распределения подходит для анализируемых данных, выбросы ожидаются для больших размеров выборки и не должны автоматически отбрасываться, если это так. Приложение должно использовать алгоритм классификации, устойчивый к выбросам, для моделирования данных с естественными выбросами.

Исключение

Удаление резко отклоняющихся данных - спорная практика, которую не одобряют многие ученые и преподаватели; Хотя математические критерии обеспечивают объективный и количественный метод отклонения данных, они не делают практику более обоснованной с научной или методологической точки зрения, особенно в небольших наборах или в тех случаях, когда нельзя предположить нормальное распределение. Отклонение выбросов более приемлемо в тех областях практики, где достоверно известны лежащая в основе модель измеряемого процесса и обычное распределение ошибки измерения. Выбросы, возникающие из-за ошибки показаний прибора, можно исключить, но желательно, чтобы показания были, по крайней мере, проверены.

Два распространенных подхода к исключению выбросов - это усечение (или усечение ) и Winsorising. Обрезка отбрасывает выбросы, тогда как Winsorising заменяет выбросы ближайшими «неподозревающими» данными. Исключение также может быть следствием процесса измерения, например, когда эксперимент не может полностью измерить такие экстремальные значения, что приводит к цензуре данных.

В задачах регрессии альтернативный подход может заключаться в исключении только тех точек, которые демонстрируют большую степень влияния на оцененные коэффициенты, с использованием такой меры, как расстояние Кука.

Если точка данных (или точки) исключена из анализа данных, это должно быть четко указано в любом последующем отчете.

Ненормальные распределения

Следует учитывать возможность того, что основное распределение данных не является приблизительно нормальным и имеет « толстые хвосты ». Например, при выборке из распределения Коши дисперсия выборки увеличивается с размером выборки, среднее значение выборки не может сходиться по мере увеличения размера выборки, и выбросы ожидаются с гораздо большей скоростью, чем для нормального распределения. Даже небольшая разница в толщине хвостов может иметь большое значение в ожидаемом количестве экстремальных значений.

Неопределенности членства в множестве

Подход к набору принадлежности предполагает, что неопределенность, соответствующая i- му измерению неизвестного случайного вектора x, представлена ​​набором X i (вместо функции плотности вероятности). Если выбросов нет, x должен принадлежать пересечению всех X i. Когда возникают выбросы, это пересечение может быть пустым, и мы должны ослабить небольшое количество множеств X i (как можно меньше), чтобы избежать любой несогласованности. Это может быть сделано с помощью понятия д - расслаблены пересечения. Как показано на рисунке, пересечение с q- ослаблением соответствует множеству всех x, которые принадлежат всем множествам, кроме q из них. Множества X i, которые не пересекают пересечение с ослаблением q, можно заподозрить как выбросы.

Рис. 5. q -релаксированное пересечение 6 множеств для q = 2 (красный), q = 3 (зеленый), q = 4 (синий), q = 5 (желтый).

Альтернативные модели

В случаях, когда причина выбросов известна, можно включить этот эффект в структуру модели, например, используя иерархическую байесовскую модель или смешанную модель.

Смотрите также
использованная литература
внешние ссылки
Последняя правка сделана 2023-03-19 09:31:08
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте