Кластерная выборка - это план выборки, используемый, когда взаимно однородные, но внутренне неоднородные группы очевидны в статистической генеральной совокупности. Часто используется в маркетинговых исследованиях. В этом плане выборки вся совокупность делится на эти группы (известные как кластеры) и выбирается простая случайная выборка групп. Затем производится выборка элементов в каждом кластере. Если отбираются все элементы в каждом кластере выборки, то это называется «одноэтапным» планом выборки кластера. Если в каждой из этих групп выбирается простая случайная подвыборка элементов, это называется «двухэтапным» планом кластерной выборки. Общей мотивацией кластерной выборки является сокращение общего количества интервью и затрат при желаемой точности. Для фиксированного размера выборки ожидаемая случайная ошибка меньше, когда большая часть вариации в генеральной совокупности присутствует внутри групп, а не между группами.
В идеале популяция внутри кластера должна быть такой же неоднородной, как возможно, но между кластерами должна быть однородность. Каждый кластер должен представлять собой мелкомасштабное представление всего населения. Кластеры должны быть взаимоисключающими и в совокупности исчерпывающими. Затем для любых соответствующих кластеров используется метод случайной выборки, чтобы выбрать, какие кластеры включить в исследование. При одноэтапной выборке кластеров выбираются все элементы из каждого из выбранных кластеров. При двухэтапной кластерной выборке метод случайной выборки применяется к элементам из каждого из выбранных кластеров.
Основное различие между кластерной выборкой и стратифицированной выборкой заключается в том, что при кластерной выборке кластер обрабатывается как единица выборки, поэтому выборка выполняется для совокупности кластеров (по крайней мере, на первом этапе). При стратифицированной выборке выборка выполняется по элементам внутри каждой страты. При стратифицированной выборке случайная выборка отбирается из каждой страты, тогда как в кластерной выборке выбираются только выбранные кластеры. Распространенной мотивацией кластерной выборки является снижение затрат за счет повышения эффективности выборки. Это контрастирует со стратифицированной выборкой, где мотивация заключается в повышении точности.
Также существует многоступенчатая выборка кластера, где при выборе элементов из кластеров берутся как минимум два этапа.
Без изменения оценочного параметра, выборка кластера является несмещенной, если кластеры имеют примерно одинаковый размер. В этом случае параметр вычисляется путем объединения всех выбранных кластеров. Если кластеры имеют разный размер, есть несколько вариантов:
Один из методов - это выборка кластеров, а затем обзор всех элементов в этом кластере. Другой метод - это двухэтапный метод выборки фиксированной доли единиц (будь то 5% или 50% или другое количество, в зависимости от соображений стоимости) из каждого из выбранных кластеров. Если полагаться на выборку, взятую из этих вариантов, можно получить объективную оценку. Однако размер выборки больше не фиксируется заранее. Это приводит к более сложной формуле для стандартной ошибки оценщика, а также к проблемам с оптикой плана исследования (поскольку анализ мощности и оценки затрат часто относятся к конкретному размеру выборки).
Третье возможное решение - использовать вероятность, пропорциональную размеру выборки. В этом плане выборки вероятность выбора кластера пропорциональна его размеру, так что большой кластер имеет большую вероятность выбора, чем маленький кластер. Преимущество здесь заключается в том, что когда кластеры выбираются с вероятностью, пропорциональной размеру, в каждом кластере выборки должно быть проведено одинаковое количество интервью, чтобы каждая из выбранных единиц имела одинаковую вероятность выбора.
Пример кластерной выборки - или. Каждый кластер - это географическая область. Поскольку обследование географически рассредоточенного населения может быть дорогостоящим, большая экономия, чем простая случайная выборка, может быть достигнута путем группирования нескольких респондентов в пределах локальной территории в кластер. Обычно необходимо увеличить общий размер выборки для достижения эквивалентной точности в оценщиках, но экономия средств может сделать такое увеличение размера выборки возможным.
Кластерная выборка используется для оценки высокой смертности в таких случаях, как войны, голод и стихийные бедствия.
Основное применение: когда структура выборки всех элементов недоступна, мы можем прибегнуть только к кластерной выборке.
Двухэтапная кластерная выборка, простой случай многоступенчатой выборки, получается путем выбора кластерных выборок на первом этапе, а затем выбора выборки из элементы из каждого кластера выборки. Рассмотрим совокупность из N кластеров. На первом этапе производится отбор n кластеров обычным методом кластерной выборки. На втором этапе обычно используется простая случайная выборка. Он используется отдельно в каждом кластере, и количество элементов, выбранных из разных кластеров, не обязательно равно. Общее количество кластеров N, количество выбранных кластеров n и количество элементов из выбранных кластеров должны быть предварительно определены разработчиком обследования. Двухэтапная кластерная выборка направлена на минимизацию затрат на обследование и в то же время контроль неопределенности, связанной с интересующими оценками. Этот метод можно использовать в медицинских и социальных науках. Например, исследователи использовали двухэтапную кластерную выборку для создания репрезентативной выборки иракского населения для проведения обследований смертности. Отбор проб с помощью этого метода может быть быстрее и надежнее, чем при использовании других методов, поэтому сейчас этот метод используется часто.
Методы кластерной выборки могут привести к значительному смещению при работе с небольшим количеством кластеров. Например, может возникнуть необходимость сгруппировать на уровне штата или города единицы, которые могут быть небольшими и фиксированными по количеству. Методы микроэконометрии для панельных данных часто используют короткие панели, что аналогично тому, как несколько наблюдений на кластер и много кластеров. Проблему малых кластеров можно рассматривать как проблему случайных параметров. Хотя точечные оценки могут быть достаточно точно оценены, если количество наблюдений на кластер достаточно велико, нам нужно количество слоттеров для асимптотика. Если количество кластеров невелико, оценочная ковариационная матрица может быть смещена в сторону уменьшения.
Небольшое количество кластеров представляет собой риск при наличии последовательной корреляции или при наличии внутриклассовой корреляции, как в контексте Моултона. При наличии небольшого количества кластеров мы склонны недооценивать серийную корреляцию между наблюдениями, когда происходит случайный шок, или внутриклассовую корреляцию в условиях Моултона. Несколько исследований выявили последствия серийной корреляции и выдвинули на первый план проблему малых кластеров.
В рамках фактора Моултона интуитивное объяснение проблемы малых кластеров может быть получено из формулы для фактора Моултона. Для простоты предположим, что количество наблюдений на кластер зафиксировано на n. Ниже обозначает ковариационную матрицу с поправкой на кластеризацию, обозначает ковариационную матрицу без поправки на кластеризацию, а ρ обозначает внутриклассовую корреляцию:
Отношение в левой части показывает, насколько нескорректированный сценарий переоценивает точность. Следовательно, высокое число означает сильное смещение оцененной ковариационной матрицы в сторону уменьшения. Небольшую проблему кластера можно интерпретировать как большое n: когда данные фиксированы и количество кластеров мало, количество данных в кластере может быть большим. Отсюда следует, что вывод, когда количество кластеров невелико, не будет иметь правильного покрытия.
Было предложено несколько решений проблемы малых кластеров. Можно использовать кластерно-устойчивую матрицу дисперсии со скорректированным смещением, вносить корректировки T-распределения или использовать методы начальной загрузки с асимптотическими уточнениями, такие как процентиль-t или дикий бутстрап, которые могут привести к улучшенному выводу конечной выборки. Cameron, Gelbach и Miller (2008) обеспечивают микросимуляцию для различных методов и обнаруживают, что дикий бутстрап хорошо работает в условиях небольшого количества кластеров.