Простая случайная выборка

редактировать

В статистике простая случайная выборка представляет собой подмножество из лиц (выборка ), выбранных из более крупного набора (совокупность ). Каждый человек выбирается случайным образом и полностью случайно, так что каждый человек имеет одинаковую вероятность быть выбранным на любом этапе процесса выборки, и каждое подмножество из k человек имеет одинаковые вероятность быть выбранной для выборки, как и любое другое подмножество из k лиц. Этот процесс и метод известны как простая случайная выборка, и ее не следует путать с систематической случайной выборкой. Простая случайная выборка - это объективный метод исследования.

Простая случайная выборка - это основной тип выборки, поскольку она может быть компонентом других более сложных методов выборки. Принцип простой случайной выборки заключается в том, что каждый объект имеет одинаковую вероятность быть выбранным. Например, предположим, что N студентов колледжа хотят получить билет на баскетбольный матч, но их всего X < N tickets for them, so they decide to have a fair way to see who gets to go. Then, everybody is given a number in the range from 0 to N-1, and random numbers are generated, either electronically or from a table of random numbers. Numbers outside the range from 0 to N-1 are ignored, as are any numbers previously selected. The first X numbers would identify the lucky ticket winners.

В небольших группах населения и часто в больших такая выборка обычно выполняется "без замены », т. е. сознательно избегают выбора какого-либо члена населения более одного раза. Хотя вместо этого может быть проведена простая случайная выборка с заменой, она менее распространена и обычно описывается более полно как простая случайная выборка с заменой . Выборка, выполненная без замены, больше не является независимой, но по-прежнему удовлетворяет заменяемости, поэтому многие результаты остаются в силе. Кроме того, для небольшой выборки из большой совокупности выборка без замены примерно такая же, как выборка с заменой, поскольку вероятность выбора одного и того же человека дважды мала.

Беспристрастный случайный отбор людей важен, так как если бы было отобрано много выборок, средняя выборка точно представляла бы совокупность. Однако это не гарантирует, что конкретная выборка является идеальным представлением генеральной совокупности. Простая случайная выборка просто позволяет сделать внешне достоверные выводы обо всей совокупности на основе выборки.

Концептуально простая случайная выборка - это простейший из методов вероятностной выборки. Для этого требуется полная основа выборки, которая может быть недоступна или невозможна для построения для больших популяций. Даже если имеется полная основа, могут быть возможны более эффективные подходы, если доступна другая полезная информация о единицах в совокупности.

Преимущества заключаются в том, что он не содержит ошибок классификации и требует минимальных предварительных знаний о генеральной совокупности, кроме фрейма. Его простота также позволяет относительно легко интерпретировать данные, собранные таким образом. По этим причинам простая случайная выборка лучше всего подходит для ситуаций, когда имеется не так много информации о совокупности и сбор данных может быть эффективно проведен по случайным образом распределенным элементам, или когда стоимость выборки достаточно мала, чтобы сделать эффективность менее важной, чем простота. Если эти условия не выполняются, лучшим выбором может быть стратифицированная выборка или кластерная выборка.

Содержание

  • 1 Алгоритмы
  • 2 Различие между систематической случайной выборкой и простой случайной выборкой
  • 3 Выборка дихотомической совокупности
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки

Алгоритмы

Было разработано несколько эффективных алгоритмов для простой случайной выборки. Наивный алгоритм - это алгоритм рисования за отрисовкой, в котором на каждом шаге мы удаляем элемент на этом шаге из набора с равной вероятностью и помещаем элемент в образец. Продолжаем, пока не получим образец желаемого размера k {\ displaystyle k}k . Недостатком этого метода является то, что он требует произвольного доступа в наборе.

Алгоритм выбора-отклонения, разработанный Fan et al. в 1962 г. требуется однократный проход данных; однако это последовательный алгоритм, требующий знания общего количества элементов n {\ displaystyle n}n , что недоступно в сценариях потоковой передачи.

Очень простой алгоритм случайной сортировки был доказан Сантером в 1977 году. Алгоритм просто присваивает случайное число, полученное из равномерного распределения (0, 1) {\ displaystyle (0,1)}(0, 1) в качестве ключа к каждому элементу, затем сортирует все элементы с помощью ключа и выбирает самые маленькие k {\ displaystyle k}k элементов.

Дж. Виттер в 1985 г. предложил алгоритмы отбора проб коллектора, которые широко используются. Этот алгоритм не требует заранее знать размер совокупности n {\ displaystyle n}n и использует постоянное пространство.

Случайная выборка также может быть ускорена путем выборки из распределения промежутков между выборками и пропуска промежутков.

Различие между систематической случайной выборкой и простой случайной выборкой

Рассмотрим школу с 1000 учениками и предположим, что исследователь хочет выбрать 100 из них для дальнейшего изучения. Все их имена можно положить в корзину, а затем вытащить 100 имен. Мало того, что каждый человек имеет равные шансы быть выбранным, мы также можем легко вычислить вероятность (P) того, что данный человек будет выбран, поскольку мы знаем размер выборки (n) и совокупность (N):

1. В случае, если любой конкретный человек может быть выбран только один раз (т. Е. После выбора человек удаляется из пула выбора):

P = 1 - N - 1 N ⋅ N - 2 N - 1 ⋅ ⋯ - N - n N - (n - 1) = Отмена: 1 - N - n N = n N = 100 1000 = 10% {\ displaystyle {\ begin {align} P = 1 - {\ frac {N-1} {N} } \ cdot {\ frac {N-2} {N-1}} \ cdot \ cdots \ cdot {\ frac {Nn} {N- (n-1)}} \\ [8pt] {\ stackrel {\ текст {Отмена:}} {=}} 1 - {\ frac {Nn} {N}} \\ [8pt] = {\ frac {n} {N}} \\ [8pt] = {\ frac { 100} {1000}} \\ [8pt] = 10 \% \ end {align}}}\ begin {align} P = 1 - \ frac {N-1} {N} \ cdot \ frac {N-2} {N - 1} \ cdot \ cdots \ cdot \ frac {Nn} {N - (n - 1)} \\ [8pt] \ stackrel {\ text {Отмена:}} {=} 1 - \ frac {N - n} N \\ [8pt] = \ frac nN \\ [8pt] = \ frac {100} {1000} \\ [8pt] = 10 \% \ end {align}

2. В случае, если любой выбранный человек возвращается в пул выбора (т. Е. Может быть выбран более одного раза):

P = 1 - (1 - 1 N) n = 1 - (999 1000) 100 = 0,0952 ⋯ ≈ 9,5% {\ displaystyle P = 1- \ left (1 - {\ frac {1} {N}} \ right) ^ {n} = 1- \ left ({\ frac {999} {1000}} \ right) ^ {100} = 0,0952 \ точки \ приблизительно 9,5 \%}P = 1- \ left (1- \ frac {1} {N} \ right) ^ n = 1 - \ left (\ frac {999} {1000} \ right) ^ {100 } = 0,0952 \ точек \ приблизительно 9,5 \%

Это означает, что каждый ученик в школе в любом случае имеет примерно 1 из 10 шансов быть выбранным этим методом. Кроме того, все комбинации из 100 студентов имеют одинаковую вероятность выбора.

Если систематический образец вводится в случайную выборку, это называется «систематической (случайной) выборкой». Примером может служить случай, если к именам учеников в школе будут прикреплены номера от 0001 до 1000, и мы выберем случайную отправную точку, например 0533, а затем выбрал каждое 10-е имя, чтобы получить нашу выборку из 100 (начиная с 0003 после достижения 0993). В этом смысле этот метод аналогичен кластерной выборке, поскольку выбор первой единицы будет определять остаток. Это уже не простая случайная выборка, потому что некоторые комбинации из 100 учащихся имеют большую вероятность выбора, чем другие - например, {3, 13, 23,..., 993} имеет шанс выбора 1/10, а {1, 2, 3,..., 100} не могут быть выбраны этим методом.

Выборка дихотомической совокупности

Если члены совокупности бывают трех видов, скажем «синий», «красный» и «черный», количество красных элементов в выборке заданного размера будет варьироваться в зависимости от выборки и, следовательно, является случайной величиной, распределение которой можно изучить. Это распределение зависит от количества красных и черных элементов в полной популяции. Для простой случайной выборки с заменой распределение является биномиальным распределением. Для простой случайной выборки без замены получается гипергеометрическое распределение.

См. Также

Литература

Внешние ссылки

  • СМИ, связанные с Случайная выборка на Wikimedia Commons
Последняя правка сделана 2021-06-08 02:05:46
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте