Погрешность

редактировать
Эта статья посвящена статистической точности оценок по выборочным опросам. Для ошибок наблюдения см. Ошибка наблюдения. Для получения информации о запасах прочности в инженерии см. Фактор безопасности. Для получения информации о допуске в инженерии см. « Допуск (инженерное дело)». Для одноименного фильма см. Поля ошибок (фильм). Плотность вероятности опросов разного размера, каждый из которых имеет цветовую кодировку, соответствующую его 95% доверительному интервалу (ниже), пределу погрешности (слева) и размеру выборки (справа). Каждый интервал отражает диапазон, в котором можно иметь 95% -ную уверенность в том, что истинный процент может быть найден, при заданном процентном соотношении 50%. Погрешность составляет половина доверительного интервала (кроме того, радиус интервала). Чем больше выборка, тем меньше погрешность. Кроме того, чем меньше заявленный процент от 50%, тем меньше погрешность.

Погрешность является статистической выражающим количествами случайной ошибки выборки в результатах опроса. Чем больше погрешность, тем меньше уверенности в том, что результат опроса будет отражать результат опроса всего населения. Предел погрешности будет положительным, если выборка из генеральной совокупности не полностью выполнена, а показатель результата имеет положительную дисперсию, то есть показатель варьируется.

Термин « предел погрешности» часто используется в контексте, не связанном с обследованием, для обозначения ошибки наблюдения при сообщении измеренных величин. Он также используется в разговорной речи для обозначения количества пространства или степени гибкости, которую можно иметь при достижении цели. Например, его часто используют в спорте комментаторы, когда описывают, сколько точности требуется для достижения цели, очков или результата. Боулинг, используемый в Соединенных Штатах 4,75 дюйма в ширину, и мяч составляет 8,5 дюйма в ширину, поэтому можно сказать, котелок имеет 21,75 дюйма предел ошибки при попытке ударить определенную булавку, чтобы заработать запасной (например, 1 контактный оставаясь на переулке).

СОДЕРЖАНИЕ
  • 1 Концепция
  • 2 Стандартное отклонение и стандартная ошибка
  • 3 Максимальная погрешность при различных уровнях достоверности
  • 4 Конкретные пределы погрешности
  • 5 Сравнение процентов
  • 6 Эффект конечного размера популяции
  • 7 См. Также
  • 8 Примечания
  • 9 ссылки
  • 10 Внешние ссылки
Концепция

Рассмотрим простой да / нет опроса в качестве образца респондентов, отобранных из населения, сообщающих процент от да ответов. Мы хотели бы знать, насколько близок к истинному результат опрос всего населения без необходимости его проведения. Если бы, гипотетически, мы должны были провести опрос среди последующих выборок респондентов (только что отобранных), мы бы ожидали, что эти последующие результаты будут нормально распределены. Погрешность описывает расстояние, в пределах которого определенный процент этих результатов, как ожидается, варьируется от. п {\ displaystyle P} п {\ displaystyle n} N ( п lt;lt; N ) {\ Displaystyle N {\ текст {,}} (п lt;lt; N)} п {\ displaystyle p} п {\ displaystyle p} N {\ displaystyle N} п {\ displaystyle P} п {\ displaystyle n} N {\ displaystyle N} п 1 , п 2 , {\ displaystyle p_ {1}, p_ {2}, \ ldots} п ¯ {\ displaystyle {\ overline {p}}} п ¯ {\ displaystyle {\ overline {p}}}

Согласно правилу 68-95-99,7, мы ожидаем, что 95% результатов будут находиться в пределах примерно двух стандартных отклонений () по обе стороны от истинного среднего. Этот интервал называется доверительным интервалом, а радиус (половина интервала) называется пределом погрешности, что соответствует уровню достоверности 95%. п 1 , п 2 , {\ displaystyle p_ {1}, p_ {2}, \ ldots} ± 2 σ п {\ displaystyle \ pm 2 \ sigma _ {P}} п ¯ {\ displaystyle {\ overline {p}}}

Как правило, на уровне достоверности размер выборки из совокупности, имеющей ожидаемое стандартное отклонение, имеет предел погрешности. γ {\ displaystyle \ gamma} п {\ displaystyle n} σ {\ displaystyle \ sigma}

M О E γ знак равно z γ × σ 2 п {\ displaystyle MOE _ {\ gamma} = z _ {\ gamma} \ times {\ sqrt {\ frac {\ sigma ^ {2}} {n}}}}

где обозначает квантиль (также обычно z-оценку ), а - стандартная ошибка. z γ {\ displaystyle z _ {\ gamma}} σ 2 п {\ displaystyle {\ sqrt {\ frac {\ sigma ^ {2}} {n}}}}

Стандартное отклонение и стандартная ошибка

Мы ожидаем, что нормально распределенные значения   будут иметь стандартное отклонение, которое так или иначе зависит от. Чем меньше, тем шире поле. Это называется стандартной ошибкой. п 1 , п 2 , {\ displaystyle p_ {1}, p_ {2}, \ ldots} п {\ displaystyle n} п {\ displaystyle n} σ п ¯ {\ displaystyle \ sigma _ {\ overline {p}}}

Для единственного результата нашего опроса мы предполагаем, что и все последующие результаты вместе будут иметь дисперсию. п знак равно п ¯ {\ displaystyle p = {\ overline {p}}} п 1 , п 2 , {\ displaystyle p_ {1}, p_ {2}, \ ldots} σ п 2 знак равно п ( 1 - п ) {\ Displaystyle \ sigma _ {P} ^ {2} = P (1-P)}

Стандартная ошибка знак равно σ п ¯ σ п 2 п п ( 1 - п ) п {\ displaystyle {\ text {Стандартная ошибка}} = \ sigma _ {\ overline {p}} \ приблизительно {\ sqrt {\ frac {\ sigma _ {P} ^ {2}} {n}}} \ приблизительно { \ sqrt {\ frac {p (1-p)} {n}}}}

Обратите внимание, что это соответствует дисперсии распределения Бернулли. п ( 1 - п ) {\ displaystyle p (1-p)}

Максимальная погрешность при разных уровнях достоверности
Эмпирическое правило.PNG

Для уровня достоверности существует соответствующий доверительный интервал для среднего значения, то есть интервал, в который значения должны попадать с вероятностью. Точные значения даются функцией квантиля нормального распределения (которое приблизительно соответствует правилу 68-95-99,7). γ {\ displaystyle \ gamma} μ ± z γ σ {\ displaystyle \ mu \ pm z _ {\ gamma} \ sigma} [ μ - z γ σ , μ + z γ σ ] {\ displaystyle [\ mu -z _ {\ gamma} \ sigma, \ mu + z _ {\ gamma} \ sigma]} п {\ displaystyle P} γ {\ displaystyle \ gamma} z γ {\ displaystyle z _ {\ gamma}}

Обратите внимание, что не определено для, то есть не определено, как есть. z γ {\ displaystyle z _ {\ gamma}} | γ | 1 {\ Displaystyle | \ гамма | \ geq 1} z 1,00 {\ displaystyle z_ {1.00}} z 1,10 {\ displaystyle z_ {1.10}}

γ {\ displaystyle \ gamma} z γ {\ displaystyle z _ {\ gamma}} γ {\ displaystyle \ gamma} z γ {\ displaystyle z _ {\ gamma}}
0,68 0,994 457 883 210 0,999 3,290 526 731 492
0,90 1.644 853 626 951 0,9999 3,890 591 886 413
0,95 1,959963984540 0,99999 4,417 173 413 469
0,98 2,326 347 874 041 0,999999 4,891 638 475 699
0,99 2,575 829 303 549 0,9999999 5,326 723 886 384
0,995 2,807 033 768 344 0,99999999 5,730 728 868 236
0,997 2,967 737 925 342 0,999999999 6,109 410 204 869
Логарифмические графики зависимости размера выборки n и уровня достоверности γ. Стрелки показывают, что максимальная погрешность для выборки размером 1000 составляет ± 3,1% при уровне достоверности 95% и ± 4,1% при 99%. Вставная парабола иллюстрирует взаимосвязь между at и at. В примере MOE 95 (0,71) ≈ 0,9 × ± 3,1% ≈ ± 2,8%. M О E γ ( 0,5 ) {\ displaystyle MOE _ {\ gamma} (0,5)}
σ п 2 знак равно п - п 2 {\ displaystyle \ sigma _ {p} ^ {2} = pp ^ {2}} σ п 2 {\ displaystyle \ sigma _ {p} ^ {2}} п знак равно 0,71 {\ displaystyle p = 0,71} σ м а Икс 2 {\ Displaystyle \ sigma _ {макс} ^ {2}} п знак равно 0,5 {\ displaystyle p = 0,5}

Так как при, мы можем произвольно установить, высчитывает, и получить максимальную погрешность для при заданном уровне доверительной и размер выборки, даже до того, что фактические результаты. С участием Максимум σ п 2 знак равно Максимум п ( 1 - п ) знак равно 0,25 {\ Displaystyle \ макс \ сигма _ {P} ^ {2} = \ макс P (1-P) = 0,25} п знак равно 0,5 {\ displaystyle p = 0,5} п знак равно п ¯ знак равно 0,5 {\ displaystyle p = {\ overline {p}} = 0,5} σ п {\ displaystyle \ sigma _ {P}} σ п ¯ {\ displaystyle \ sigma _ {\ overline {p}}} z γ σ п ¯ {\ displaystyle z _ {\ gamma} \ sigma _ {\ overline {p}}} п {\displaystyle P} γ {\ displaystyle \ gamma} п {\ displaystyle n} п знак равно 0,5 , п знак равно 1013 {\ displaystyle p = 0,5, n = 1013}

M О E 95 ( 0,5 ) знак равно z 0,95 σ п ¯ z 0,95 σ п 2 п знак равно 1,96 0,25 п знак равно 0,98 / п знак равно ± 3.1 % {\ displaystyle MOE_ {95} (0,5) = z_ {0,95} \ sigma _ {\ overline {p}} \ приблизительно z_ {0,95} {\ sqrt {\ frac {\ sigma _ {P} ^ {2}} { n}}} = 1,96 {\ sqrt {\ frac {.25} {n}}} = 0,98 / {\ sqrt {n}} = \ pm 3,1 \%}
M О E 99 ( 0,5 ) знак равно z 0,99 σ п ¯ z 0,99 σ п 2 п знак равно 2,58 0,25 п знак равно 1,29 / п знак равно ± 4.1 % {\ displaystyle MOE_ {99} (0,5) = z_ {0.99} \ sigma _ {\ overline {p}} \ приблизительно z_ {0.99} {\ sqrt {\ frac {\ sigma _ {P} ^ {2}} { n}}} = 2,58 {\ sqrt {\ frac {.25} {n}}} = 1,29 / {\ sqrt {n}} = \ pm 4,1 \%}

Кроме того, полезно для любых заявленных M О E 95 {\ displaystyle MOE_ {95}}

M О E 99 знак равно z 0,99 z 0,95 M О E 95 1.3 × M О E 95 {\ displaystyle MOE_ {99} = {\ frac {z_ {0.99}} {z_ {0.95}}} MOE_ {95} \ примерно в 1,3 \ раза больше MOE_ {95}}
Конкретные пределы погрешности

Если опрос дает несколько процентных результатов (например, опрос, измеряющий одно предпочтение с несколькими вариантами ответов), результат, наиболее близкий к 50%, будет иметь наибольшую погрешность. Обычно именно это число указывается как предел погрешности для всего опроса. Представьте себе отчеты об опросах как п {\ displaystyle P} п а , п б , п c {\ displaystyle p_ {a}, p_ {b}, p_ {c}} 71 % , 27 % , 2 % , п знак равно 1013 {\ displaystyle 71 \%, 27 \%, 2 \%, n = 1013}

M О E 95 ( п а ) знак равно z 0,95 σ п а ¯ 1,96 п а ( 1 - п а ) п знак равно 0,89 / п знак равно ± 2,8 % {\ displaystyle MOE_ {95} (P_ {a}) = z_ {0,95} \ sigma _ {\ overline {p_ {a}}} \ приблизительно 1,96 {\ sqrt {\ frac {p_ {a} (1-p_ { a})} {n}}} = 0,89 / {\ sqrt {n}} = \ pm 2,8 \%} (как на рисунке выше)
M О E 95 ( п б ) знак равно z 0,95 σ п б ¯ 1,96 п б ( 1 - п б ) п знак равно 0,87 / п знак равно ± 2,7 % {\ displaystyle MOE_ {95} (P_ {b}) = z_ {0,95} \ sigma _ {\ overline {p_ {b}}} \ приблизительно 1,96 {\ sqrt {\ frac {p_ {b} (1-p_ { b})} {n}}} = 0,87 / {\ sqrt {n}} = \ pm 2,7 \%}
M О E 95 ( п c ) знак равно z 0,95 σ п c ¯ 1,96 п c ( 1 - п c ) п знак равно 0,27 / п знак равно ± 0,8 % {\ displaystyle MOE_ {95} (P_ {c}) = z_ {0,95} \ sigma _ {\ overline {p_ {c}}} \ приблизительно 1,96 {\ sqrt {\ frac {p_ {c} (1-p_ { c})} {n}}} = 0,27 / {\ sqrt {n}} = \ pm 0,8 \%}

Когда данный процент приближается к крайним значениям 0% или 100%, его погрешность приближается к ± 0%.

Сравнение процентов

Представьте себе отчеты об опросах с несколькими вариантами ответов как. Как описано выше, предел погрешности сообщили для опроса, как правило, быть, а ближе всего к 50%. Популярное понятие статистической связи или статистической ничьей, однако, касается не точности отдельных результатов, а точности ранжирования результатов. Что в первую очередь? п {\ displaystyle P} п а , п б , п c {\ displaystyle p_ {a}, p_ {b}, p_ {c}} 46 % , 42 % , 12 % , п знак равно 1013 {\ displaystyle 46 \%, 42 \%, 12 \%, n = 1013} M О E 95 ( п а ) {\ displaystyle MOE_ {95} (P_ {a})} п а {\ displaystyle p_ {a}}

Если бы, гипотетически, мы должны были провести опрос среди последующих выборок респондентов (недавно отобранных) и сообщить результат, мы могли бы использовать стандартную ошибку разницы, чтобы понять, как ожидается падение. Для этого нам нужно применить сумму отклонений, чтобы получить новую дисперсию,, п {\ displaystyle P} п {\ displaystyle n} N {\ displaystyle N} п ш знак равно п а - п б {\ displaystyle p_ {w} = p_ {a} -p_ {b}} п ш 1 , п ш 2 , п ш 3 , {\ displaystyle p_ {w_ {1}}, p_ {w_ {2}}, p_ {w_ {3}}, \ ldots} п ш ¯ {\ displaystyle {\ overline {p_ {w}}}} σ п ш 2 {\ displaystyle \ sigma _ {P_ {w}} ^ {2}}

σ п ш 2 знак равно σ п а - п б 2 знак равно σ п а 2 + σ п б 2 - 2 σ п а , п б знак равно п а ( 1 - п а ) + п б ( 1 - п б ) + 2 п а п б {\ displaystyle \ sigma _ {P_ {w}} ^ {2} = \ sigma _ {P_ {a} -P_ {b}} ^ {2} = \ sigma _ {P_ {a}} ^ {2} + \ sigma _ {P_ {b}} ^ {2} -2 \ sigma _ {P_ {a}, P_ {b}} = p_ {a} (1-p_ {a}) + p_ {b} (1- p_ {b}) + 2p_ {a} p_ {b}}

где является ковариационной из и. σ п а , п б знак равно - п а п б {\ displaystyle \ sigma _ {P_ {a}, P_ {b}} = - P_ {a} P_ {b}} п а {\ displaystyle P_ {a}} п б {\ displaystyle P_ {b}}

Таким образом (после упрощения),

Стандартная ошибка разницы знак равно σ ш ¯ σ п ш 2 п знак равно п а + п б - ( п а - п б ) 2 п знак равно 0,029 , п ш знак равно п а - п б {\ displaystyle {\ text {Стандартная ошибка разницы}} = \ sigma _ {\ overline {w}} \ приблизительно {\ sqrt {\ frac {\ sigma _ {P_ {w}} ^ {2}} {n} }} = {\ sqrt {\ frac {p_ {a} + p_ {b} - (p_ {a} -p_ {b}) ^ {2}} {n}}} = 0,029, P_ {w} = P_ {a} -P_ {b}}
M О E 95 ( п а ) знак равно z 0,95 σ п а ¯ ± 3.1 % {\ displaystyle MOE_ {95} (P_ {a}) = z_ {0.95} \ sigma _ {\ overline {p_ {a}}} \ приблизительно \ pm {3.1 \%}}
M О E 95 ( п ш ) знак равно z 0,95 σ ш ¯ ± 5,8 % {\ displaystyle MOE_ {95} (P_ {w}) = z_ {0,95} \ sigma _ {\ overline {w}} \ приблизительно \ pm {5,8 \%}}

Обратите внимание, что это предполагает, что это значение близко к постоянному, то есть респонденты, выбирающие либо A, либо B, почти никогда не выберут C (обеспечивая и близкую к совершенно отрицательной корреляции). При более близком соперничестве трех или более вариантов выбор правильной формулы для становится более сложным. п c {\ displaystyle P_ {c}} п а {\ displaystyle P_ {a}} п б {\ displaystyle P_ {b}} σ п ш 2 {\ displaystyle \ sigma _ {P_ {w}} ^ {2}}

Эффект конечного размера популяции

Приведенные выше формулы для погрешности предполагают, что существует бесконечно большая совокупность, и, следовательно, не зависят от размера совокупности, а только от размера выборки. Согласно теории выборки, это предположение разумно, когда доля выборки мала. Предел погрешности для конкретного метода выборки по существу одинаков, независимо от того, является ли исследуемая популяция размером школы, города, штата или страны, если доля выборки мала. N {\ displaystyle N} п {\ displaystyle n}

В случаях, когда доля выборки больше (на практике более 5%), аналитики могут скорректировать допустимую погрешность, используя поправку на конечную совокупность, чтобы учесть дополнительную точность, полученную при выборке гораздо большего процента генеральной совокупности. FPC можно рассчитать по формуле

FPC знак равно N - п N - 1 {\ displaystyle \ operatorname {FPC} = {\ sqrt {\ frac {Nn} {N-1}}}}

... и так, если бы опрос проводился более чем 24%, скажем, электората в 300 000 избирателей п {\ displaystyle P}

M О E 95 ( 0,5 ) знак равно z 0,95 σ п ¯ 0,98 72 , 000 знак равно ± 0,4 % {\ displaystyle MOE_ {95} (0,5) = z_ {0,95} \ sigma _ {\ overline {p}} \ приблизительно {\ frac {0,98} {\ sqrt {72,000}}} = \ pm 0,4 \%}
M О E 95 F п C ( 0,5 ) знак равно z 0,95 σ п ¯ N - п N - 1 0,98 72 , 000 300 , 000 - 72 , 000 300 , 000 - 1 знак равно ± 0,3 % {\ displaystyle MOE_ {95_ {FPC}} (0,5) = z_ {0,95} \ sigma _ {\ overline {p}} {\ sqrt {\ frac {Nn} {N-1}}} \ приблизительно {\ frac { 0,98} {\ sqrt {72 000}}} {\ sqrt {\ frac {300 000–72 000} {300 000–1}}} = \ pm 0,3 \%}

Интуитивно, для соответствующего большого, N {\ displaystyle N}

Lim п 0 N - п N - 1 1 {\ displaystyle \ lim _ {n \ to 0} {\ sqrt {\ frac {Nn} {N-1}}} \ приблизительно 1}
Lim п N N - п N - 1 знак равно 0 {\ displaystyle \ lim _ {n \ to N} {\ sqrt {\ frac {Nn} {N-1}}} = 0}

В первом случае она настолько мала, что не требует коррекции. В последнем случае опрос фактически превращается в перепись, а ошибка выборки становится спорной. п {\ displaystyle n}

Смотрите также
Примечания
использованная литература
  • Судман, Сеймур и Брэдберн, Норман (1982). Задавая вопросы: Практическое руководство по разработке анкеты. Сан-Франциско: Джосси Басс. ISBN   0-87589-546-8
  • Воннакотт, Т.Х. и Р.Дж. Воннакотт (1990). Вводная статистика (5-е изд.). Вайли. ISBN   0-471-61518-8.
внешние ссылки
Последняя правка сделана 2023-03-21 03:30:06
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте