В статистике, стратифицированная выборка представляет собой метод отбора проб из популяции, которая может быть секционированной в подгруппы.
В статистических обследованиях, когда субпопуляции в общей популяции различаются, может быть полезно провести выборку каждой субпопуляции ( страты) независимо. Стратификация - это процесс разделения членов популяции на однородные подгруппы перед выборкой. Страты должны определять разделение населения. То есть, он должен быть исчерпывающим и взаимоисключающим : каждый элемент совокупности должен быть отнесен к одной и только одной страте. Затем в каждом слое применяется простая случайная выборка. Цель состоит в том, чтобы повысить точность выборки за счет уменьшения ошибки выборки. Он может производить взвешенное среднее, которое имеет меньшую вариабельность, чем среднее арифметическое из более простой случайной выборке населения.
В вычислительной статистике стратифицированная выборка - это метод уменьшения дисперсии, когда методы Монте-Карло используются для оценки статистики населения по известной совокупности.
Предположим, что нам нужно оценить среднее количество голосов за каждого кандидата на выборах. Предположим, что в стране 3 города: в городе A 1 миллион заводских рабочих, в городе B 2 миллиона служащих, а в городе C 3 миллиона пенсионеров. Мы можем выбрать случайную выборку размером 60 для всего населения, но есть некоторая вероятность того, что полученная случайная выборка плохо сбалансирована по этим городам и, следовательно, является смещенной, вызывая значительную ошибку в оценке (когда интересующий результат имеет различное распределение по интересующему параметру между городами). Вместо этого, если мы выберем случайную выборку из 10, 20 и 30 из городов A, B и C соответственно, тогда мы сможем произвести меньшую ошибку в оценке для того же общего размера выборки. Этот метод обычно используется, когда популяция не является однородной группой.
Реальным примером использования стратифицированной выборки может быть политический опрос. Если респондентам необходимо отразить разнообразие населения, исследователь будет специально стремиться включить участников из различных групп меньшинств, таких как раса или религия, исходя из их пропорциональности к общей численности населения, как указано выше. Таким образом, стратифицированное обследование может претендовать на то, чтобы быть более репрезентативным для населения, чем обследование простой случайной выборки или систематической выборки.
Причины использования стратифицированной выборки вместо простой случайной выборки включают:
Если плотность населения сильно различается в пределах региона, стратифицированная выборка гарантирует, что оценки могут быть сделаны с одинаковой точностью в различных частях региона и что сравнения субрегионов могут быть выполнены с одинаковой статистической мощностью. Например, в Онтарио при обследовании, проводимом по всей провинции, может использоваться более крупная фракция выборки на менее населенном севере, поскольку разница в численности населения между севером и югом настолько велика, что фракция выборки, основанная на выборке провинции в целом, может привести к сбор лишь нескольких данных с севера.
Стратифицированная выборка бесполезна, когда совокупность не может быть полностью разделена на непересекающиеся подгруппы. Было бы неправильным применением этого метода сделать размеры выборки подгрупп пропорциональными количеству данных, доступных от подгрупп, вместо того, чтобы масштабировать размеры выборки до размеров подгрупп (или их дисперсий, если известно, что они значительно различаются, например, с помощью F Test ). Считается, что данные, представляющие каждую подгруппу, имеют одинаковую важность, если предполагаемые различия между ними требуют стратифицированной выборки. Если дисперсии подгрупп значительно различаются и данные необходимо стратифицировать по дисперсии, невозможно одновременно сделать размер выборки каждой подгруппы пропорциональным размеру подгруппы в общей совокупности. Чтобы узнать об эффективном способе разделения ресурсов выборки между группами, которые различаются по средствам, дисперсии и стоимости, см. «Оптимальное распределение». Проблема стратифицированной выборки в случае неизвестных априорных классов (соотношение субпопуляций во всей популяции) может иметь пагубное влияние на выполнение любого анализа набора данных, например классификации. В этом отношении можно использовать минимаксный коэффициент выборки, чтобы сделать набор данных устойчивым в отношении неопределенности в базовом процессе генерации данных.
Объединение подстратов для обеспечения адекватных чисел может привести к парадоксу Симпсона, когда тенденции, которые действительно существуют в разных группах данных, исчезают или даже меняются местами при объединении групп.
Среднее значение и дисперсия стратифицированной случайной выборки определяются как:
куда,
Обратите внимание, что член ( -) / (), который равен (1 - /), является поправкой на конечную популяцию и должен быть выражен в «единицах выборки». Вышеупомянутая поправка на конечную популяцию дает:
где = / - вес населения страты.
Для стратегии пропорционального распределения размер выборки в каждой страте берется пропорционально размеру страты. Предположим, что в компании есть следующие сотрудники:
и нас просят взять выборку из 40 сотрудников, разделенных по вышеуказанным категориям.
Первый шаг - вычислить процентное соотношение каждой группы от общей суммы.
Это говорит нам о том, что из нашей выборки из 40,
Еще один простой способ без вычисления процента - это умножить размер каждой группы на размер выборки и разделить на общую численность населения (размер всего персонала):