Расстояние Махаланобиса

редактировать

Расстояние Махаланобиса является мерой расстояния между точкой Р и распределениями D, введенным П. С. Махаланобиса в 1936 г. Это многомерное обобщение идеи измерения, сколько стандартных отклонения расстояния Р находится от среднего значения из D. Это расстояние равно нулю для P при среднем значении D и увеличивается по мере удаления P от среднего значения вдоль каждой оси главного компонента. Если каждая из этих осей масштабируется, чтобы иметь единичную дисперсию, то расстояние Махаланобиса соответствует стандартному евклидову расстоянию в преобразованном пространстве. Махаланобиса расстояние, таким образом, безразмерное, масштабно-инвариантный, и принимает во внимание корреляции на наборе данных.

СОДЕРЖАНИЕ
  • 1 Определение и свойства
  • 2 Интуитивное объяснение
  • 3 Нормальные распределения
  • 4 Связь с нормальными случайными величинами
  • 5 Связь с кредитным плечом
  • 6 приложений
  • 7 Программные реализации
  • 8 См. Также
  • 9 ссылки
  • 10 Внешние ссылки
Определение и свойства

Расстояние Махаланобиса для наблюдения из набора наблюдений со средним значением и ковариационной матрицей S определяется как Икс знак равно ( Икс 1 , Икс 2 , Икс 3 , , Икс N ) Т {\ displaystyle {\ vec {x}} = (x_ {1}, x_ {2}, x_ {3}, \ dots, x_ {N}) ^ {\ mathsf {T}}} μ знак равно ( μ 1 , μ 2 , μ 3 , , μ N ) Т {\ displaystyle {\ vec {\ mu}} = (\ mu _ {1}, \ mu _ {2}, \ mu _ {3}, \ dots, \ mu _ {N}) ^ {\ mathsf {T }}}

D M ( Икс ) знак равно ( Икс - μ ) Т S - 1 ( Икс - μ ) . {\ displaystyle D_ {M} ({\ vec {x}}) = {\ sqrt {({\ vec {x}} - {\ vec {\ mu}}) ^ {\ mathsf {T}} \ mathbf { S} ^ {- 1} ({\ vec {x}} - {\ vec {\ mu}})}}.}

Расстояние Махаланобиса (или «обобщенный квадрат межточечного расстояния» для его значения в квадрате) также можно определить как меру несходства между двумя случайными векторами и одного и того же распределения с ковариационной матрицей : Икс {\ displaystyle {\ vec {x}}} у {\ displaystyle {\ vec {y}}} S {\ displaystyle \ mathbf {S}}

d ( Икс , у ) знак равно ( Икс - у ) Т S - 1 ( Икс - у ) . {\ displaystyle d ({\ vec {x}}, {\ vec {y}}) = {\ sqrt {({\ vec {x}} - {\ vec {y}}) ^ {\ mathsf {T} } \ mathbf {S} ^ {- 1} ({\ vec {x}} - {\ vec {y}})}}.}.

Как и ковариационная матрица, она является положительно полуопределенной, и обратная к положительной полуопределенной матрице также является положительно полуопределенной, у нас она также является положительно полуопределенной. Это объясняет, почему можно извлечь квадратный корень, поскольку все значения положительны. S {\ displaystyle \ mathbf {S}} S - 1 {\ displaystyle \ mathbf {S} ^ {- 1}}

Если ковариационная матрица является единичной матрицей, расстояние Махаланобиса сокращается до евклидова расстояния. Если ковариационная матрица диагональна, то полученная мера расстояния называется стандартизированным евклидовым расстоянием:

d ( Икс , у ) знак равно я знак равно 1 N ( Икс я - у я ) 2 s я 2 , {\ displaystyle d ({\ vec {x}}, {\ vec {y}}) = {\ sqrt {\ sum _ {i = 1} ^ {N} {\ frac {(x_ {i} -y_ { i}) ^ {2}} {s_ {i} ^ {2}}}}},}

где s i - стандартное отклонение значений x i и y i по набору образцов.

Расстояние Махаланобиса сохраняется при линейных преобразованиях полного ранга пространства, охватываемого данными. Это означает, что если данные имеют нетривиальное нулевое пространство, расстояние Махаланобиса можно вычислить после проецирования данных (невырожденным образом) вниз на любое пространство соответствующего измерения для данных.

Мы можем найти полезные разложения квадрата расстояния Махаланобиса, которые помогают объяснить некоторые причины исключительности многомерных наблюдений, а также предоставляют графический инструмент для выявления выбросов.

Интуитивное объяснение

Рассмотрим задачу оценки вероятности того, что контрольная точка в N -мерном евклидовом пространстве принадлежит множеству, где нам даны выборочные точки, которые определенно принадлежат этому набору. Нашим первым шагом было бы найти центроид или центр масс точек выборки. Интуитивно понятно, что чем ближе рассматриваемая точка к этому центру масс, тем больше вероятность, что она принадлежит множеству.

Однако нам также необходимо знать, распространяется ли набор на большой или малый диапазон, чтобы мы могли решить, заслуживает внимания данное расстояние от центра. Упрощенный подход заключается в оценке стандартного отклонения расстояний между точками отбора проб от центра масс. Если расстояние между контрольной точкой и центром масс меньше одного стандартного отклонения, то мы можем сделать вывод, что весьма вероятно, что контрольная точка принадлежит набору. Чем дальше он находится, тем больше вероятность того, что контрольную точку не следует классифицировать как принадлежащую к набору.

Этот интуитивный подход может быть сделан количественным путем определения нормализованного расстояния между контрольной точкой и множеством, чтобы быть, который гласит:. Подключив это к нормальному распределению, мы можем получить вероятность того, что контрольная точка принадлежит набору. Икс - μ 2 σ {\ displaystyle {\ frac {\ lVert x- \ mu \ rVert _ {2}} {\ sigma}}} контрольная точка - выборочное среднее среднеквадратичное отклонение {\ displaystyle {\ frac {{\ text {testpoint}} - {\ text {sample mean}}} {\ text {стандартное отклонение}}}}

Недостатком описанного выше подхода было то, что мы предположили, что точки выборки распределены вокруг центра масс сферически. Если бы распределение было явно несферическим, например эллипсоидальным, то можно было бы ожидать, что вероятность того, что контрольная точка принадлежит набору, будет зависеть не только от расстояния от центра масс, но и от направления. В тех направлениях, где эллипсоид имеет короткую ось, контрольная точка должна быть ближе, а в тех, где ось длинная, контрольная точка может быть дальше от центра.

Рассматривая это на математической основе, эллипсоид, который лучше всего представляет распределение вероятностей набора, может быть оценен путем построения ковариационной матрицы выборок. Расстояние Махаланобиса - это расстояние между контрольной точкой от центра масс, деленное на ширину эллипсоида в направлении контрольной точки.

Нормальные распределения

Для нормального распределения в любом количестве измерений плотность вероятности наблюдения однозначно определяется расстоянием Махаланобиса: Икс {\ displaystyle {\ vec {x}}} d {\ displaystyle d}

Pr [ Икс ] d Икс знак равно 1 Det ( 2 π S ) exp ( - ( Икс - μ ) Т S - 1 ( Икс - μ ) 2 ) d Икс знак равно 1 Det ( 2 π S ) exp ( - d 2 / 2 ) d Икс . {\ displaystyle \ Pr [{\ vec {x}}] \, d {\ vec {x}} = {\ frac {1} {\ sqrt {\ det (2 \ pi \ mathbf {S})}}} \ exp \ left (- {\ frac {({\ vec {x}} - {\ vec {\ mu}}) ^ {\ mathsf {T}} \ mathbf {S} ^ {- 1} ({\ vec {x}} - {\ vec {\ mu}})} {2}} \ right) \, d {\ vec {x}} = {\ frac {1} {\ sqrt {\ det (2 \ pi \ mathbf {S})}}} \ exp (-d ^ {2} / 2) \, d {\ vec {x}}.}

В частности, следует распределение хи-квадрат со степенями свободы, где - количество измерений нормального распределения. Например, если количество измерений равно 2, вероятность того, что конкретное вычисленное значение меньше некоторого порогового значения, равна. Чтобы определить порог для достижения определенной вероятности, используйте, для 2 измерений. Для количества измерений, отличных от 2, следует обращаться к кумулятивному распределению хи-квадрат. d 2 {\ displaystyle d ^ {2}} п {\ displaystyle n} п {\ displaystyle n} d {\ displaystyle d} т {\ displaystyle t} 1 - е - т 2 / 2 {\ Displaystyle 1-е ^ {- т ^ {2} / 2}} п {\ displaystyle p} т знак равно - 2 пер ( 1 - п ) {\ displaystyle t = {\ sqrt {-2 \ ln (1-p)}}}

В нормальном распределении область, где расстояние Махаланобиса меньше единицы (то есть область внутри эллипсоида на расстоянии один), как раз является областью, где распределение вероятности вогнуто.

Расстояние Махаланобиса для нормального распределения пропорционально квадратному корню из отрицательного логарифмического правдоподобия (после добавления константы, чтобы минимум был равен нулю).

Связь с нормальными случайными величинами

В общем, учитывая нормальную ( гауссовскую ) случайную величину с дисперсией и средним значением, любую другую нормальную случайную величину (со средним значением и дисперсией) можно определить в терминах уравнения. И наоборот, для восстановления нормализованной случайной величины из любой нормальной случайной величины, обычно можно решить. Если возвести обе стороны в квадрат и извлечь квадратный корень, мы получим уравнение для метрики, которое очень похоже на расстояние Махаланобиса: Икс {\ displaystyle X} S знак равно 1 {\ displaystyle S = 1} μ знак равно 0 {\ displaystyle \ mu = 0} р {\ displaystyle R} μ 1 {\ displaystyle \ mu _ {1}} S 1 {\ displaystyle S_ {1}} Икс {\ displaystyle X} р знак равно μ 1 + S 1 Икс . {\ displaystyle R = \ mu _ {1} + {\ sqrt {S_ {1}}} X.} Икс знак равно ( р - μ 1 ) / S 1 {\ displaystyle X = (R- \ mu _ {1}) / {\ sqrt {S_ {1}}}}

D знак равно Икс 2 знак равно ( р - μ 1 ) 2 / S 1 знак равно ( р - μ 1 ) S 1 - 1 ( р - μ 1 ) . {\ displaystyle D = {\ sqrt {X ^ {2}}} = {\ sqrt {(R- \ mu _ {1}) ^ {2} / S_ {1}}} = {\ sqrt {(R- \ mu _ {1}) S_ {1} ^ {- 1} (R- \ mu _ {1})}}.}

Результирующая величина всегда неотрицательна и изменяется в зависимости от расстояния данных от среднего, атрибутов, которые удобны при попытке определить модель для данных.

Отношение к кредитному плечу
Основная статья: Кредитное плечо (статистика) § Расстояние Махаланобиса

Расстояние Махаланобиса тесно связано с рычажной статистики,, но имеет другой масштаб: час {\ displaystyle h}

D 2 знак равно ( N - 1 ) ( час - 1 N ) . {\ displaystyle D ^ {2} = (N-1) (h - {\ tfrac {1} {N}}).}
Приложения

Определение Махаланобиса было вызвано проблемой выявления сходства черепов на основе измерений в 1927 году.

Расстояние Махаланобиса широко используется в методах кластерного анализа и классификации. Он тесно связан с распределением Т-квадрата Хотеллинга, используемым для многомерного статистического тестирования, и линейным дискриминантным анализом Фишера, который используется для контролируемой классификации.

Чтобы использовать расстояние Махаланобиса для классификации контрольной точки как принадлежащей к одному из N классов, сначала оценивается ковариационная матрица каждого класса, обычно на основе выборок, принадлежащих каждому классу. Затем по тестовой выборке вычисляется расстояние Махаланобиса до каждого класса и классифицируется тестовая точка как принадлежащая к тому классу, для которого расстояние Махаланобиса минимально.

Расстояние Махаланобиса и плечо часто используются для обнаружения выбросов, особенно при разработке моделей линейной регрессии. Точка, которая имеет большее расстояние Махаланобиса от остальной части выборочной совокупности точек, считается имеющей более высокий рычаг, поскольку она имеет большее влияние на наклон или коэффициенты уравнения регрессии. Расстояние Махаланобиса также используется для определения многомерных выбросов. Для определения того, является ли конкретный случай в выборочной совокупности выбросом, можно использовать методы регрессии с помощью комбинации двух или более переменных оценок. Даже для нормальных распределений точка может быть многомерным выбросом, даже если это не одномерный выброс для какой-либо переменной (например, рассмотрим плотность вероятности, сосредоточенную вдоль линии), что делает расстояние Махаланобиса более чувствительной мерой, чем индивидуальная проверка размеров. Икс 1 знак равно Икс 2 {\ displaystyle x_ {1} = x_ {2}}

Программные реализации

Многие программы и статистические пакеты, такие как R, Python и т. Д., Включают реализации расстояния Махаланобиса.

Язык / программа Функция Ref.
р mahalanobis(x, center, cov, inverted = FALSE,...) [1]
SciPy ( Python ) mahalanobis(u, v, VI) [2]
Юля mahalanobis(x, y, Q) [3]
Смотрите также
использованная литература
внешние ссылки
Последняя правка сделана 2023-12-31 01:39:50
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте