Оценка плотности

редактировать

Демонстрация оценки плотности с использованием Оценка плотности ядра : истинная плотность представляет собой смесь двух гауссиан с центром вокруг 0 и 3, показан сплошной синей кривой. В каждом кадре из распределения, показанного красным, генерируется 100 выборок. Гауссово ядро, расположенное по центру каждого образца, отображается серым цветом. Усреднение гауссиан дает оценку плотности, показанную пунктирной черной кривой.

В вероятность и статистика, оценка плотности является построением оценка, основанная на наблюдаемых данных, ненаблюдаемой лежащей в основе функции плотности вероятности. Под ненаблюдаемой функцией плотности понимается плотность, согласно которой распределяется большая популяция; данные обычно рассматриваются как случайная выборка из этой совокупности.

Используются различные подходы к оценке плотности, включая окна Парзена и ряд методов кластеризации данных, включая векторное квантование. Самая основная форма оценки плотности - это масштабированная гистограмма .

Содержание

1 Пример оценки плотности
- 1.1 Пример сценария
2 Применение и цель
3 См. Также
4 Литература
5 Внешние ссылки

Пример оценки плотности

Расчетная плотность p (glu | diabat = 1) (красный), p (glu | diabab = 0) (синий) и p (glu) ( черный)

Расчетная вероятность p (диабет = 1 | glu)

Расчетная вероятность p (диабет = 1 | glu)

Мы будем рассматривать записи о заболеваемости диабетом. Следующее дословно цитируется из описания набора данных :

Население женщин в возрасте не менее 21 года, индейцев пима и живущих недалеко от Феникса, штат Аризона, было протестирован на сахарный диабет в соответствии с критериями Всемирной организации здравоохранения. Данные были собраны Национальным институтом диабета, пищеварительной системы и почек США. Мы использовали 532 полных записи.

В этом примере мы строим три оценки плотности для «глюкозы» (плазменная концентрация глюкозы ), одну условную на наличие диабета, второе - при отсутствии диабета, а третье - без диабета. Затем оценки условной плотности используются для построения вероятности диабета, обусловленной «glu».

Данные "glu" были получены из пакета MASS языка программирования R. В R ? Pima.trи ? Pima.teдают более полный отчет о данных.

Среднее значение «glu» в случаях диабета составляет 143,1, а стандартное отклонение - 31,26. Среднее значение «glu» в случаях, не связанных с диабетом, составляет 110,0, а стандартное отклонение - 24,29. Из этого мы видим, что в этом наборе данных случаи диабета связаны с более высокими уровнями глюкозы. Это будет более понятно на графиках расчетных функций плотности.

На первом рисунке показаны оценки плотности p (glu | диабет = 1), p (glu | diabat = 0) и p (glu). Оценки плотности представляют собой оценки плотности ядра с использованием гауссова ядра. То есть функция плотности Гаусса помещается в каждую точку данных, и сумма функций плотности вычисляется по диапазону данных.

Из плотности "glu", обусловленной диабетом, мы можем получить вероятность диабета, обусловленного "glu", с помощью правила Байеса. Для краткости «диабет» обозначается сокращенно «дб». в этой формуле.

p (диабет = 1 | glu) = p (glu | db. = 1) p (db. = 1) p (glu | db. = 1) p (db. = 1) + p (glu | db.. = 0) п (db. = 0) {\ displaystyle p ({\ t_dv {diab}} = 1 | {\ t_dv {glu}}) = {\ frac {p ({\ t_dv {glu}} | { \ t_dv {db.}} = 1) \, p ({\ t_dv {db.}} = 1)} {p ({\ t_dv {glu}} | {\ t_dv {db.}} = 1) \, p ({\ t_dv {db.}} = 1) + p ({\ t_dv {glu}} | {\ t_dv {db.}} = 0) \, p ({\ t_dv {db.}} = 0) }}}

p ({\ t_dv {диабет}} = 1 | {\ t_dv {glu}}) = {\ frac {p ({\ t_dv {glu}} | {\ t_dv {db.}} = 1) \, p ({ \ t_dv {db.}} = 1)} {p ({\ t_dv {glu}} | {\ t_dv {db.}} = 1) \, p ({\ t_dv {db.}} = 1) + p ({\ t_dv {glu}} | {\ t_dv {db.}} = 0) \, p ({\ t_dv {db.}} = 0)}}

На втором рисунке показана оценочная апостериорная вероятность p (диабет = 1 | glu). Из этих данных видно, что повышенный уровень «глю» связан с диабетом.

Пример сценария

Следующие команды R создадут рисунки, показанные выше. Эти команды можно вводить в командной строке с помощью вырезания и вставки.

данные библиотеки (MASS) (Pima.tr) данные (Pima.te) Pima <- rbind (Pima.tr, Pima.te) glu <- Pima[, 'glu'] d0 <- Pima[, 'type'] == 'No' d1 <- Pima[, 'type'] == 'Yes' base.rate.d1 <- sum(d1) / (sum(d1) + sum(d0)) glu.density <- density (glu) glu.d0.density <- density (glu[d0]) glu.d1.density <- density (glu[d1]) glu.d0.f <- approxfun(glu.d0.density$x, glu.d0.density$y) glu.d1.f <- approxfun(glu.d1.density$x, glu.d1.density$y) p.d.given.glu <- function(glu, base.rate.d1) { p1 <- glu.d1.f(glu) * base.rate.d1 p0 <- glu.d0.f(glu) * (1 - base.rate.d1) p1 / (p0 + p1) } x <- 1:250 y <- p.d.given.glu (x, base.rate.d1) plot(x, y, type='l', col='red', xlab='glu', ylab='estimated p(diabetes|glu)') plot(density(glu[d0]), col='blue', xlab='glu', ylab='estimate p(glu), p(glu|diabetes), p(glu|not diabetes)', main=NA) lines(density(glu[d1]), col='red')

Обратите внимание, что в приведенном выше средстве оценки условной плотности используются полосы пропускания, оптимальные для безусловных плотностей. В качестве альтернативы можно использовать метод Холла, Расина и Ли (2004) и пакет R np для автоматического (управляемого данными) выбора полосы пропускания, оптимальной для оценок условной плотности; см. виньетку np для ознакомления с пакетом np. Следующие команды R используют функцию npcdens ()для обеспечения оптимального сглаживания. Обратите внимание, что ответ «Да» / «Нет» является фактором.

library (np) fy.x <- npcdens(type~glu, nmulti=1, data=Pima) Pima.eval <- data.frame(type=factor("Yes"), glu=seq(min(Pima$glu), max(Pima$glu), length=250)) plot(x, y, type='l', lty=2, col='red', xlab='glu', ylab='estimated p(diabetes|glu)') lines(Pima.eval$glu, predict(fy.x, newdata=Pima.eval), col="blue") legend(0, 1, c("Unconditional bandwidth", "Conditional bandwidth"), col=c("red", "blue"), lty=c(2, 1))

На третьем рисунке используется оптимальное сглаживание методом Холла, Расина и Ли, что указывает на то, что ширина полосы безусловной плотности, использованная на втором рисунке выше, дает оценку условной плотности, которая может быть несколько несглаженный.

Применение и цель

Очень естественное использование оценок плотности - неформальное исследование свойств данного набора данных. Оценки плотности могут дать ценную информацию о таких характеристиках, как асимметрия и многомодальность данных. В некоторых случаях они сделают выводы, которые затем могут быть расценены как самоочевидно верные, в то время как в других они будут всего лишь указывать путь к дальнейшему анализу и / или сбору данных.

Гистограмма и функция плотности для распределения Гамбеля

Важным аспектом статистики часто является представление данных клиенту для объяснения и иллюстрации выводов, которые могли быть получены другими способами. Оценки плотности идеально подходят для этой цели по той простой причине, что они довольно легко понятны нематематикам.

Дополнительные примеры, иллюстрирующие использование оценок плотности для исследовательских и презентационных целей, включая важный случай двумерных данных.

Оценка плотности также часто используется в обнаружении аномалий или обнаружение новизны : если наблюдение находится в области очень низкой плотности, вероятно, это аномалия или новинка.

В гидрологии гистограмма и оценочная функция плотности данных об осадках и речном расходе, проанализированные с помощью распределения вероятностей, используются для понимания их поведения. и частота появления. Пример показан на синем рисунке.

См. Также

Ссылки

Источники

Брайан Д. Рипли (1996). Распознавание образов и нейронные сети. Кембридж: Издательство Кембриджского университета. ISBN 978-0521460866.
Тревор Хасти, Роберт Тибширани и Джером Фридман. Элементы статистического обучения. Нью-Йорк: Springer, 2001. ISBN 0-387-95284-5. (См. Главу 6.)
Ци Ли и Джеффри С. Расин. Непараметрическая эконометрика: теория и практика. Princeton University Press, 2007, ISBN 0-691-12161-3. (См. Главу 1.)
Д.У. Скотт. Многомерная оценка плотности. Теория, практика и визуализация. Нью-Йорк: Wiley, 1992.
Б.В. Сильверман. Оценка плотности. Лондон: Chapman and Hall, 1986. ISBN 978-0-412-24620-3

Внешние ссылки

CREEM: Центр исследований в области экологического и экологического моделирования Загрузки для бесплатных пакетов программного обеспечения для оценки плотности Distance 4 (от Исследовательского подразделения по оценке популяции диких животных «RUWPA») и WiSP.
Сводка содержимого репозитория машинного обучения UCI (см. «Индейцы пима База данных диабета »для исходного набора данных из 732 записей и дополнительных примечаний.)
Код MATLAB для одномерного и двухмерного оценки плотности
libAGF Программное обеспечение C ++ для оценки плотности переменного ядра.