Кластерная выборка

редактировать

Кластерная выборка

Кластерная выборка - это план выборки, используемый, когда взаимно однородные, но внутренне неоднородные группы очевидны в статистической генеральной совокупности. Часто используется в маркетинговых исследованиях. В этом плане выборки вся совокупность делится на эти группы (известные как кластеры) и выбирается простая случайная выборка групп. Затем производится выборка элементов в каждом кластере. Если отбираются все элементы в каждом кластере выборки, то это называется «одноэтапным» планом выборки кластера. Если в каждой из этих групп выбирается простая случайная подвыборка элементов, это называется «двухэтапным» планом кластерной выборки. Общей мотивацией кластерной выборки является сокращение общего количества интервью и затрат при желаемой точности. Для фиксированного размера выборки ожидаемая случайная ошибка меньше, когда большая часть вариации в генеральной совокупности присутствует внутри групп, а не между группами.

Содержание

1 Элементы кластера
2 Если кластеры имеют разный размер
3 Применения кластерной выборки
4 Преимущество
5 Недостаток
6 Подробнее о кластерной выборке
- 6.1 Двухэтапная выборка кластеров
- 6.2 Вывод при небольшом количестве кластеров
7 См. Также
8 Ссылки

Элементы кластера

В идеале популяция внутри кластера должна быть такой же неоднородной, как возможно, но между кластерами должна быть однородность. Каждый кластер должен представлять собой мелкомасштабное представление всего населения. Кластеры должны быть взаимоисключающими и в совокупности исчерпывающими. Затем для любых соответствующих кластеров используется метод случайной выборки, чтобы выбрать, какие кластеры включить в исследование. При одноэтапной выборке кластеров выбираются все элементы из каждого из выбранных кластеров. При двухэтапной кластерной выборке метод случайной выборки применяется к элементам из каждого из выбранных кластеров.

Основное различие между кластерной выборкой и стратифицированной выборкой заключается в том, что при кластерной выборке кластер обрабатывается как единица выборки, поэтому выборка выполняется для совокупности кластеров (по крайней мере, на первом этапе). При стратифицированной выборке выборка выполняется по элементам внутри каждой страты. При стратифицированной выборке случайная выборка отбирается из каждой страты, тогда как в кластерной выборке выбираются только выбранные кластеры. Распространенной мотивацией кластерной выборки является снижение затрат за счет повышения эффективности выборки. Это контрастирует со стратифицированной выборкой, где мотивация заключается в повышении точности.

Также существует многоступенчатая выборка кластера, где при выборе элементов из кластеров берутся как минимум два этапа.

Когда кластеры имеют разный размер

Без изменения оценочного параметра, выборка кластера является несмещенной, если кластеры имеют примерно одинаковый размер. В этом случае параметр вычисляется путем объединения всех выбранных кластеров. Если кластеры имеют разный размер, есть несколько вариантов:

Один из методов - это выборка кластеров, а затем обзор всех элементов в этом кластере. Другой метод - это двухэтапный метод выборки фиксированной доли единиц (будь то 5% или 50% или другое количество, в зависимости от соображений стоимости) из каждого из выбранных кластеров. Если полагаться на выборку, взятую из этих вариантов, можно получить объективную оценку. Однако размер выборки больше не фиксируется заранее. Это приводит к более сложной формуле для стандартной ошибки оценщика, а также к проблемам с оптикой плана исследования (поскольку анализ мощности и оценки затрат часто относятся к конкретному размеру выборки).

Третье возможное решение - использовать вероятность, пропорциональную размеру выборки. В этом плане выборки вероятность выбора кластера пропорциональна его размеру, так что большой кластер имеет большую вероятность выбора, чем маленький кластер. Преимущество здесь заключается в том, что когда кластеры выбираются с вероятностью, пропорциональной размеру, в каждом кластере выборки должно быть проведено одинаковое количество интервью, чтобы каждая из выбранных единиц имела одинаковую вероятность выбора.

Применение кластерной выборки

Пример кластерной выборки - или. Каждый кластер - это географическая область. Поскольку обследование географически рассредоточенного населения может быть дорогостоящим, большая экономия, чем простая случайная выборка, может быть достигнута путем группирования нескольких респондентов в пределах локальной территории в кластер. Обычно необходимо увеличить общий размер выборки для достижения эквивалентной точности в оценщиках, но экономия средств может сделать такое увеличение размера выборки возможным.

Кластерная выборка используется для оценки высокой смертности в таких случаях, как войны, голод и стихийные бедствия.

Преимущество

Может быть дешевле, чем другие планы выборочного контроля - например, меньше командировочных расходов, административных расходов.
Осуществимость: этот план выборки учитывает большие группы населения. Поскольку эти группы настолько велики, внедрение любого другого плана выборки будет очень дорогостоящим.
Экономия: при использовании этого метода значительно сокращаются два основных фактора, связанных с расходами, т. Е. Поездки и листинг. Например: сбор исследовательской информации о каждом домохозяйстве в городе будет очень дорогостоящим, тогда как сбор информации о различных кварталах города будет более экономичным. Здесь значительно сокращаются усилия по перемещению и составлению списков.
Уменьшение вариабельности: в редком случае отрицательной внутриклассовой корреляции между субъектами в кластере оценки, полученные с помощью кластерной выборки, будут дают более точные оценки, чем данные, полученные из простой случайной выборки (т. е. эффект схемы будет меньше 1). Это не обычный сценарий.

Основное применение: когда структура выборки всех элементов недоступна, мы можем прибегнуть только к кластерной выборке.

Недостаток

Более высокая ошибка выборки, которая может быть выражена эффектом схемы: соотношение между дисперсией средства оценки, сделанной из выборок кластера исследование и дисперсия оценочного значения, полученного на выборке субъектов в одинаково надежном случайно выбранном некластеризованном исследовании. Чем больше внутриклассовая корреляция между субъектами в кластере, тем хуже становится эффект дизайна (т.е. чем больше он становится от 1. Указывая на большее ожидаемое увеличение дисперсии оценки). Другими словами, чем больше неоднородности между кластерами и больше однородности между субъектами внутри кластера, тем менее точными становятся наши оценки. Это потому, что в таких случаях нам лучше выбрать как можно больше кластеров и обойтись небольшой выборкой субъектов из каждого кластера (т.е. двухэтапная кластерная выборка).
Сложность. Кластерная выборка более сложна и требует большего внимания к тому, как планировать и как анализировать (то есть: учитывать веса субъектов при оценке параметров, доверительных интервалов и т. Д.)

Подробнее о кластерной выборке

Двухэтапная кластерная выборка

Двухэтапная кластерная выборка, простой случай многоступенчатой выборки, получается путем выбора кластерных выборок на первом этапе, а затем выбора выборки из элементы из каждого кластера выборки. Рассмотрим совокупность из N кластеров. На первом этапе производится отбор n кластеров обычным методом кластерной выборки. На втором этапе обычно используется простая случайная выборка. Он используется отдельно в каждом кластере, и количество элементов, выбранных из разных кластеров, не обязательно равно. Общее количество кластеров N, количество выбранных кластеров n и количество элементов из выбранных кластеров должны быть предварительно определены разработчиком обследования. Двухэтапная кластерная выборка направлена на минимизацию затрат на обследование и в то же время контроль неопределенности, связанной с интересующими оценками. Этот метод можно использовать в медицинских и социальных науках. Например, исследователи использовали двухэтапную кластерную выборку для создания репрезентативной выборки иракского населения для проведения обследований смертности. Отбор проб с помощью этого метода может быть быстрее и надежнее, чем при использовании других методов, поэтому сейчас этот метод используется часто.

Вывод при небольшом количестве кластеров

Методы кластерной выборки могут привести к значительному смещению при работе с небольшим количеством кластеров. Например, может возникнуть необходимость сгруппировать на уровне штата или города единицы, которые могут быть небольшими и фиксированными по количеству. Методы микроэконометрии для панельных данных часто используют короткие панели, что аналогично тому, как несколько наблюдений на кластер и много кластеров. Проблему малых кластеров можно рассматривать как проблему случайных параметров. Хотя точечные оценки могут быть достаточно точно оценены, если количество наблюдений на кластер достаточно велико, нам нужно количество слоттеров $G → ∞ {\ displaystyle G \ rightarrow \ infty}$ ${\ displaystyle G \ rightarrow \ infty}$ для асимптотика. Если количество кластеров невелико, оценочная ковариационная матрица может быть смещена в сторону уменьшения.

Небольшое количество кластеров представляет собой риск при наличии последовательной корреляции или при наличии внутриклассовой корреляции, как в контексте Моултона. При наличии небольшого количества кластеров мы склонны недооценивать серийную корреляцию между наблюдениями, когда происходит случайный шок, или внутриклассовую корреляцию в условиях Моултона. Несколько исследований выявили последствия серийной корреляции и выдвинули на первый план проблему малых кластеров.

В рамках фактора Моултона интуитивное объяснение проблемы малых кластеров может быть получено из формулы для фактора Моултона. Для простоты предположим, что количество наблюдений на кластер зафиксировано на n. Ниже $V c (β) {\ displaystyle V_ {c} (\ beta)}$ ${\ displaystyle V_ {c} (\ beta)}$ обозначает ковариационную матрицу с поправкой на кластеризацию, $V (β) {\ displaystyle V (\ beta)}$ ${\ displaystyle V (\ beta)}$ обозначает ковариационную матрицу без поправки на кластеризацию, а ρ обозначает внутриклассовую корреляцию:

V c (β ^) V (β ^) = 1 + (n - 1) ρ {\ displaystyle {\ frac {V_ {c} ({\ hat {\ beta}})} {V ({\ hat {\ beta}})}} = 1+ (n-1) \ rho}

{\ displaystyle {\ frac {V_ {c} ({\ hat {\ beta}})} {V ({\ hat {\ beta}})}} = 1+ (п-1) \ rho}

Отношение в левой части показывает, насколько нескорректированный сценарий переоценивает точность. Следовательно, высокое число означает сильное смещение оцененной ковариационной матрицы в сторону уменьшения. Небольшую проблему кластера можно интерпретировать как большое n: когда данные фиксированы и количество кластеров мало, количество данных в кластере может быть большим. Отсюда следует, что вывод, когда количество кластеров невелико, не будет иметь правильного покрытия.

Было предложено несколько решений проблемы малых кластеров. Можно использовать кластерно-устойчивую матрицу дисперсии со скорректированным смещением, вносить корректировки T-распределения или использовать методы начальной загрузки с асимптотическими уточнениями, такие как процентиль-t или дикий бутстрап, которые могут привести к улучшенному выводу конечной выборки. Cameron, Gelbach и Miller (2008) обеспечивают микросимуляцию для различных методов и обнаруживают, что дикий бутстрап хорошо работает в условиях небольшого количества кластеров.

См. Также

Ссылки