Ресэмплинг (статистика)

редактировать
Чтобы узнать о других значениях, см. Передискретизация.

В статистике, передискретизации является любой из множества методов, выполнив одно из следующих действий:

  1. Оценка точности выборочной статистики ( медианы, дисперсии, процентили ) с использованием подмножеств доступных данных ( складывание ножей ) или случайное рисование с заменой из набора точек данных ( бутстреппинг )
  2. Тесты перестановки (также тесты повторной рандомизации) являются точными тестами : замена меток на точках данных при выполнении тестов значимости
  3. Проверка моделей с использованием случайных подмножеств (бутстрэппинг, перекрестная проверка )

СОДЕРЖАНИЕ

  • 1 бутстрап
  • 2 складной нож
  • 3 Сравнение бутстрапа и складного ножа
  • 4 Перекрестная проверка
    • 4.1 Субдискретизация
  • 5 тестов перестановки
  • 6 См. Также
  • 7 ссылки
  • 8 Библиография
  • 9 Внешние ссылки
    • 9.1 Программное обеспечение

Бутстрап

Основная статья: Bootstrap (статистика) Лучший пример принципа плагина, метод самозагрузки.

Бутстрапирование представляет собой статистический метод оценки распределения выборки из с оценки путем отбора проб с заменой из исходного образца, чаще всего с целью получения устойчивых оценок стандартных ошибок и доверительных интервалов в качестве параметра популяции, как среднее, медианы, пропорция, коэффициенты коэффициент, коэффициент корреляции или коэффициент регрессии. Это было названо принципом подключаемого модуля, поскольку это метод оценки функционалов от распределения совокупности путем оценки тех же функционалов при эмпирическом распределении на основе выборки.

Например, при оценке среднего значения генеральной совокупности этот метод использует выборочное среднее значение; для оценки медианы совокупности используется медиана выборки; для оценки линии регрессии населения используется выборочная линия регрессии.

Его также можно использовать для построения тестов гипотез. Он часто используется в качестве надежной альтернативы логическому выводу, основанному на параметрических предположениях, когда эти предположения вызывают сомнения, или когда параметрический вывод невозможен или требует очень сложных формул для вычисления стандартных ошибок. Методы начальной загрузки также используются в переходах «обновление-выбор» фильтров частиц, алгоритмах генетического типа и связанных методах повторной выборки / реконфигурации Монте-Карло, используемых в вычислительной физике. В этом контексте бутстрап используется для замены последовательно эмпирических взвешенных вероятностных мер эмпирическими. Бутстрап позволяет заменять образцы с низким весом копиями образцов с большим весом.

Складной нож

Основная статья: передискретизация складного ножа

Метод складывания ножей, похожий на бутстрэппинг, используется в статистических выводах для оценки систематической ошибки и стандартной ошибки (дисперсии) статистики, когда для ее расчета используется случайная выборка наблюдений. Исторически этот метод предшествовал изобретению бутстрапа, когда Кенуй изобрел этот метод в 1949 году, а Тьюки расширил его в 1958 году. Этот метод был предвосхищен Махаланобисом, который в 1946 году предложил повторные оценки интересующей статистики с половиной выборки, выбранной случайным образом. Он придумал для этого метода название «взаимопроникающие образцы».

Кенуй изобрел этот метод с целью уменьшить систематическую ошибку выборочной оценки. Тьюки расширил этот метод, предположив, что если бы реплики можно было считать идентично и независимо распределенными, то можно было бы сделать оценку дисперсии параметра выборки, и что она будет приблизительно распределена как при вариации с n −1 степенями свободы ( n размер выборки).

Основная идея оценщика дисперсии складного ножа заключается в систематическом пересчете статистической оценки, исключая одно или несколько наблюдений за раз из выборки. Из этого нового набора повторений статистики можно рассчитать оценку систематической ошибки и оценку дисперсии статистики.

Вместо использования складного ножа для оценки дисперсии его можно применить к журналу дисперсии. Это преобразование может привести к более точным оценкам, особенно когда распределение самой дисперсии может быть ненормальным.

Для многих статистических параметров оценка дисперсии складным ножом почти наверняка асимптотически стремится к истинному значению. С технической точки зрения можно сказать, что оценка складного ножа непротиворечива. Складного ножа соответствует для выборки средств, образец дисперсии, центральные и нецентральные т-статистики (с, возможно, не-нормальных популяций), образец коэффициент вариации, оценок максимального правдоподобия, Оценщики наименьших квадратов, коэффициенты корреляции и коэффициенты регрессии.

Это не соответствует медиане выборки. В случае унимодальной вариации отношение дисперсии складного ножа к дисперсии выборки имеет тенденцию распределяться как половина квадрата распределения хи-квадрат с двумя степенями свободы.

Складной нож, как и оригинальный бутстрап, зависит от независимости данных. Были предложены удлинители складного ножа для учета зависимости в данных.

Другое расширение - метод удаления группы, используемый в сочетании с пуассоновской выборкой.

Складной нож эквивалентен случайной (подвыборочной) перекрестной проверке с исключением по одному, обсуждаемой ниже, она отличается только целью.

Сравнение бутстрапа и складного ножа

Оба метода, бутстрап и складной нож, оценивают изменчивость статистики на основе изменчивости этой статистики между подвыборками, а не на основе параметрических допущений. Для более общего складного ножа, складного ножа для наблюдений delete-m, бутстрап можно рассматривать как случайное приближение к нему. Оба дают аналогичные численные результаты, поэтому каждый из них можно рассматривать как приближение к другому. Несмотря на огромные теоретические различия в их математических представлениях, основное практическое различие для пользователей статистики состоит в том, что бутстрап дает разные результаты при повторении на одних и тех же данных, тогда как складной нож дает каждый раз точно такой же результат. Из-за этого складной нож популярен, когда оценки необходимо проверять несколько раз перед публикацией (например, официальные статистические агентства). С другой стороны, когда эта функция проверки не имеет решающего значения и интересно иметь не число, а просто представление о его распределении, предпочтительнее использовать бутстрап (например, исследования в области физики, экономики, биологических наук).

Использование бутстрапа или складного ножа может больше зависеть от операционных аспектов, чем от статистических соображений обследования. Складной нож, первоначально использовавшийся для уменьшения смещения, представляет собой более специализированный метод и оценивает только дисперсию точечной оценки. Этого может быть достаточно для основных статистических выводов (например, проверки гипотез, доверительных интервалов). С другой стороны, бутстрап сначала оценивает все распределение (точечной оценки), а затем вычисляет отклонение от этого. Несмотря на то, что это мощный и простой способ, он может потребовать значительных вычислительных ресурсов.

«Бутстрап может применяться как к задачам оценки дисперсии, так и к задачам оценки распределения. Однако с точки зрения эмпирических результатов оценка дисперсии начальной загрузки не так хороша, как складной нож или оценка дисперсии сбалансированной повторной репликации (BRR). Кроме того, бутстраповская оценка дисперсии обычно требует больше вычислений, чем складной нож или BRR. Таким образом, бутстрап в основном рекомендуется для оценки распределения ».

Особое внимание следует уделять складному ножу, особенно складному ножу для наблюдения delete-1. Его следует использовать только с гладкими, дифференцируемыми статистическими данными (например, с итогами, средними значениями, пропорциями, отношениями, отношениями нечетных чисел, коэффициентами регрессии и т. Д.; Не с медианами или квантилями). Это могло стать практическим недостатком. Этот недостаток обычно является аргументом в пользу самозагрузки, а не складывания. Более общие складные ножи, чем delete-1, такие как складной нож delete-m или оценка Ходжеса – Лемана с удалением всех, кроме 2, преодолевают эту проблему для медиан и квантилей, ослабляя требования гладкости для согласованной оценки дисперсии.

Обычно складной нож проще применять для сложных схем выборки, чем бутстрап. Сложные схемы выборки могут включать стратификацию, несколько этапов (кластеризацию), различные веса выборки (корректировка неполучения ответов, калибровка, пост-стратификация) и в рамках планов выборки с неравной вероятностью. Теоретические аспекты как бутстрапа, так и складного ножа можно найти в Shao and Tu (1995), тогда как базовое введение описано в Wolter (2007). Начальная оценка систематической ошибки предсказания модели более точна, чем оценки складного ножа с линейными моделями, такими как линейная дискриминантная функция или множественная регрессия.

Перекрестная проверка

Основная статья: Перекрестная проверка (статистика)

Перекрестная проверка - это статистический метод проверки прогнозной модели. Подмножества данных предназначены для использования в качестве проверочных наборов; модель соответствует оставшимся данным (обучающему набору) и используется для прогнозирования для проверочного набора. Усреднение качества прогнозов по наборам проверки дает общий показатель точности прогнозирования. Перекрестная проверка многократно используется при построении деревьев решений.

Одна форма перекрестной проверки не учитывает одно наблюдение за раз; это похоже на складной нож. Другая, K- кратная перекрестная проверка, разбивает данные на K подмножеств; каждый проводится по очереди как набор для проверки.

Это позволяет избежать «самовоздействия». Для сравнения: в методах регрессионного анализа, таких как линейная регрессия, каждое значение y рисует линию регрессии по направлению к самому себе, делая прогноз этого значения более точным, чем он есть на самом деле. Перекрестная проверка, применяемая к линейной регрессии, позволяет прогнозировать значение y для каждого наблюдения без использования этого наблюдения.

Это часто используется для решения, сколько переменных-предикторов использовать в регрессии. Без перекрестной проверки добавление предикторов всегда уменьшает остаточную сумму квадратов (или, возможно, оставляет ее без изменений). Напротив, перекрестно проверенная среднеквадратическая ошибка будет иметь тенденцию уменьшаться, если добавляются ценные предикторы, но увеличиваться, если добавляются бесполезные предикторы.

Подвыборка

Основная статья: Перекрестная проверка_ (статистика) § Repeated_random_sub-sampling_validation

Субдискретизация - это альтернативный метод аппроксимации выборочного распределения оценщика. Два ключевых отличия от бутстрапа: (i) размер повторной выборки меньше размера выборки и (ii) повторная выборка выполняется без замены. Преимущество субдискретизации состоит в том, что она действительна в гораздо более слабых условиях по сравнению с бутстрапом. В частности, набор достаточных условий состоит в том, что скорость сходимости оценки известна и что предельное распределение является непрерывным; кроме того, размер повторной выборки (или подвыборки) должен стремиться к бесконечности вместе с размером выборки, но с меньшей скоростью, чтобы их отношение сходилось к нулю. Хотя подвыборка была первоначально предложена только для независимых и идентично распределенных (iid) данных, методология была расширена, чтобы охватить также данные временных рядов; в этом случае выполняется повторная выборка блоков последующих данных, а не отдельных точек данных. Есть много случаев, представляющих прикладной интерес, когда подвыборка приводит к правильному выводу, а бутстрэппинг - нет; например, такие случаи включают примеры, когда скорость сходимости оценки не является квадратным корнем из размера выборки или когда ограничивающее распределение не является нормальным. Когда и подвыборка, и бутстрап согласованы, бутстрап обычно более точен. RANSAC - популярный алгоритм, использующий подвыборку.

Перестановочные тесты

Основная статья: Тест перестановки

Перестановочные тесты полагаются на повторную выборку исходных данных, предполагая нулевую гипотезу. Основываясь на данных повторной выборки, можно сделать вывод о том, насколько вероятно, что исходные данные возникнут при нулевой гипотезе.

Смотрите также

использованная литература

Библиография

  • Хорошо, П. (2006) Методы передискретизации. 3-е изд. Бирхаузер.
  • Вольтер, К.М. (2007). Введение в оценку дисперсии. 2-е издание. Springer, Inc.
  • Пьер Дель Мораль (2004). Формулы Фейнмана-Каца. Генеалогические и взаимодействующие системы частиц с приложениями, Springer, вероятностные серии и приложения. ISBN   978-0-387-20268-6
  • Пьер Дель Мораль (2013). Дель Мораль, Пьер (2013). Моделирование среднего поля для интеграции Монте-Карло. Chapman amp; Hall / CRC Press, Монографии по статистике и прикладной вероятности. ISBN   9781466504059

внешние ссылки

Программное обеспечение

Последняя правка сделана 2023-04-05 07:28:16
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте