В статистике, теории вероятностей и теории информации, статистическое расстояние количественно определяет расстояние между двумя статистическими объектами, которое может быть двумя случайными величинами или двумя распределениями вероятностей или выборки, или расстояние может быть между отдельной точкой выборки и генеральной совокупностью или более широкой выборкой точек.
Расстояние между популяциями можно интерпретировать как измерение расстояния между двумя распределениями вероятностей, и, следовательно, они по существу являются мерой расстояний между мерами вероятности. Если меры статистического расстояния связаны с различиями между случайными величинами, они могут иметь статистическую зависимость, и, следовательно, эти расстояния не связаны напрямую с измерениями расстояний между мерами вероятности. Опять же, мера расстояния между случайными величинами может относиться к степени зависимости между ними, а не к их индивидуальным значениям.
Статистические меры расстояния в большинстве случаев не являются метриками, и они не обязательно должны быть симметричными. Некоторые типы мер расстояния называются (статистическими) расхождениями.
Многие термины используются для обозначения различных понятий расстояния; они часто до степени смешения схожи и могут непоследовательно использоваться авторами и с течением времени, либо вольно, либо с точным техническим значением. Помимо «расстояния», аналогичные термины включают отклонение, отклонение, несоответствие, дискриминацию и расхождение, а также другие подобные как функция контраста и метрическая. Термины из теории информации включают в себя перекрестную энтропию, относительную энтропию, информацию о различении и получение информации.
A метрика на множестве X - это функция (называемая функцией расстояния или просто расстояние )
d: X × X → R (где R - это набор неотрицательных действительных чисел ). Для всех x, y, z в X эта функция требуется, чтобы удовлетворять следующим условиям:
Многие статистические расстояния не являются метриками, потому что им не хватает одного или нескольких свойств правильные показатели. Например, псевдометрия нарушает «положительную определенность » (alte rnative, "идентичность неразличимых объектов" ) свойство (1 и 2 выше); квазиметрики нарушают свойство симметрии (3); и полуметрики нарушают неравенство треугольника (4). Статистические расстояния, удовлетворяющие (1) и (2), называются расхождениями.
Некоторые важные статистические расстояния включают следующее:
Другие подходы