Статистика Хопкинса

редактировать

Статистики Хопкинс (введено Брайан Хопкинс и Джон Гордон Skellam ) является способом измерения кластера тенденции набора данных. Он принадлежит к семейству тестов с разреженной выборкой. Он действует как проверка статистической гипотезы, где нулевая гипотеза состоит в том, что данные генерируются точечным процессом Пуассона и, таким образом, равномерно распределены случайным образом. Значение, близкое к 1, обычно указывает на то, что данные сильно кластеризованы, случайные данные обычно приводят к значениям около 0,5, а равномерно распределенные данные имеют тенденцию приводить к значениям, близким к 0.

СОДЕРЖАНИЕ
  • 1 Предварительные мероприятия
  • 2 Определение
  • 3 Примечания и ссылки
  • 4 Внешние ссылки
Предварительные мероприятия

Типичная формулировка статистики Хопкинса приводится ниже.

Позвольте быть набором точек данных. Икс {\ displaystyle X} п {\ displaystyle n}
Рассмотрим случайную выборку (без замены) точек данных с членами. м п {\ displaystyle m \ ll n} Икс я {\ displaystyle x_ {i}}
Сформировать набор из равномерно распределенных случайным образом точек данных. Y {\ displaystyle Y} м {\ displaystyle m}
Определите две меры расстояния,
ты я , {\ displaystyle u_ {i},} расстояние от ближайшего соседа в, и y я Y {\ displaystyle y_ {i} \ in Y} Икс {\ displaystyle X}
ш я , {\ displaystyle w_ {i},} расстояние числа случайно выбранных от ближайшего соседа в. м {\ displaystyle m} Икс я , {\ displaystyle x_ {i},} Икс я Икс {\ displaystyle x_ {i} \ in X} Икс {\ displaystyle X}
Определение

В приведенных выше обозначениях, если данные размерны, то статистика Хопкинса определяется как: d {\ displaystyle d}

ЧАС знак равно я знак равно 1 м ты я d я знак равно 1 м ты я d + я знак равно 1 м ш я d {\ displaystyle H = {\ frac {\ sum _ {i = 1} ^ {m} {u_ {i} ^ {d}}} {\ sum _ {i = 1} ^ {m} {u_ {i} ^ {d}} + \ sum _ {i = 1} ^ {m} {w_ {i} ^ {d}}}} \,}

При нулевых гипотезах эта статистика имеет распределение Beta (m, m).

Примечания и ссылки
  1. ^ Хопкинс, Брайан; Скеллам, Джон Гордон (1954). «Новый метод определения типа распространения растительных особей». Летопись ботаники. Annals Botany Co. 18 (2): 213–227.
  2. ^ а б Банерджи, А. (2004). «Проверка кластеров с использованием статистики Хопкинса». Международная конференция IEEE по нечетким системам : 149–153. DOI : 10.1109 / FUZZY.2004.1375706.
  3. ^ Аггарваль, Чара C. (2015). Data Mining. Чам: Издательство Springer International. п. 158. DOI : 10.1007 / 978-3-319-14142-8. ISBN   978-3-319-14141-1.
  4. ^ Крест, GR; Джайн, АК (1982). «Измерение тенденции кластеризации». Теория и применение цифрового управления : 315-320. DOI : 10.1016 / B978-0-08-027618-2.50054-1.
Внешние ссылки
Последняя правка сделана 2024-01-06 03:14:33
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте