Сбалансированная повторная репликация

редактировать

Сбалансированная повторная репликация - это статистический метод оценки выборочной изменчивости статистики, полученной с помощью стратифицированной выборки.

Содержание

1 Краткое описание метода
2 Отбор половины -samples
- 2.1 Упрощенная версия
- 2.2 Реалистичная версия
3 Формула BRR
4 Метод Фэя
5 См. также
6 Ссылки и внешние ссылки

Краткое описание метода

Выберите сбалансированные полувыборки из полной выборки.
Рассчитайте интересующую статистику для каждой полувыборки.
Оцените дисперсию статистики на основе различий между полной выборкой и значения половинной выборки.

Выбор половин выборки

Упрощенная версия

Рассмотрим сначала идеализированную ситуацию, когда каждый слой нашей выборки содержит только две единицы. Тогда каждая полувыборка будет содержать ровно одну из них, так что полувыборки разделяют стратификацию полной выборки. Если есть s страты, в идеале мы бы использовали все 2 способа выбора полуслоя; но если s велико, это может быть невозможно.

Если необходимо взять меньшее количество полусэмплов, они выбираются так, чтобы быть «сбалансированными» (отсюда и название метода). Пусть H будет матрицей Адамара размера s, и выберите одну строку на половину выборки. (Неважно, какие строки; важно то, что все строки H ортогональны.) Теперь для каждой половинной выборки выберите, какую единицу взять из каждой страты в соответствии со знаком соответствующей записи в H: то есть для половинной выборки h мы выбираем первую единицу из страты k, если H hk = -1, и вторую единицу, если H hk = +1. Ортогональность строк H гарантирует, что наш выбор не коррелирует между половинными выборками.

Реалистичная версия

К сожалению, матрицы Адамара размера s может не быть. В этом случае мы выбираем размер немного больше s. Теперь подматрица H, которая определяет наш выбор, больше не должна иметь точно ортогональных строк, но если размер H лишь немного больше s, строки будут приблизительно ортогональными.

Количество единиц в страте не обязательно должно быть ровно 2 и обычно не будет. В этом случае единицы в каждой страте делятся на две «единицы PSU дисперсии» (PSU = первичная единица выборки) равного или почти равного размера. Это может быть сделано произвольно или таким образом, чтобы сделать блоки питания как можно более похожими. (Так, например, если стратификация была выполнена на основе какого-либо числового параметра, единицы в каждой страте могут быть отсортированы в порядке этого параметра, а для двух PSU могут быть выбраны альтернативные единицы.)

Если количество слоев очень велико, несколько слоев могут быть объединены перед применением BRR. Полученные группы известны как «страты дисперсии».

Формула BRR

Пусть a будет значением нашей статистики, рассчитанным на основе полной выборки; пусть a i (i = 1,..., n) будет соответствующей статистикой, вычисленной для половинных выборок. (n - количество полувыборок.)

Тогда наша оценка дисперсии выборки статистики является средним значением (a i - a). Это (по крайней мере, в идеальном случае) несмещенная оценка дисперсии выборки.

Метод Фэя

Метод Фэя является обобщением BRR. Вместо того, чтобы просто брать выборки половинного размера, мы каждый раз используем полную выборку, но с неравным взвешиванием: k для единиц вне половинной выборки и 2 - k для единиц внутри нее. (BRR - это случай k = 0.) Тогда оценка дисперсии будет V / (1 - k), где V - оценка, заданная формулой BRR выше.

См. Также

Передискретизация (статистика)

Ссылки и внешние ссылки

Сбалансированная повторная репликация из Американских институтов исследований
Маккарти, П.Дж. (1969). Псевдорепликация: половина образцов. Обзор Международного статистического института, 37(3), 239-264
Кревски Д. и Дж. Н. К. Рао (1981). Вывод на основе стратифицированных образцов: свойства методов линеаризации, складного ножа и сбалансированной повторной репликации. Анналы статистики, 9 (5), 1010-1019.
Джудкинс, Д. Р. (1990). Метод Фэя для оценки дисперсии. Journal of Official Statistics, 6 (3), 223-239.
Rao, J.N.K. и C.F.J. Wu (1985). Вывод из стратифицированных выборок: анализ второго порядка трех методов нелинейной статистики. Журнал Американской статистической ассоциации, 80 (391), 620-630.