Биномиальное распределение

редактировать
Вероятное распределение
Биномиальное распределение
Вероятностная функция масс Функция массы вероятности для биномиального распределения
Кумулятивная функция распределения Кумулятивная функция распределения для биномиального
ОбозначениеB (n, p) {\ displaystyle B (n, p)}B (n, p)
Параметрыn ∈ {0, 1, 2,…} {\ displaystyle n \ in \ {0,1,2, \ ldots \ }}{\ displaystyle n \ in \ {0,1,2, \ ldots \}} - количество испытаний. p ∈ [0, 1] {\ displaystyle p \ in [0,1]}{\ displaystyle p \ in [0,1]} - вероятность успеха для каждого испытания. q = 1 - p {\ displaystyle q = 1-p}{\ displaystyle q = 1-p}
Поддержка k ∈ {0, 1,…, n} {\ displaystyle k \ in \ {0,1, \ ldots, n \}}{\ displaystyle k \ in \ {0,1, \ ldots, n \}} - успешных
PMF (nk) pkqn - k {\ displaystyle {\ binom {n} {k}} p ^ {k} q ^ {nk} }{\ displaystyle {\ binom {n} {k}} p ^ {k} q ^ {nk}}
CDF I q (n - k, 1 + k) {\ displaystyle I_ {q} (nk, 1 + k)}{\ displaystyle I_ {q} (nk, 1 + k)}
Среднее np {\ displaystyle np}np
Медиана ⌊ np ⌋ {\ displaystyle \ lfloor np \ rfloor}\ lfloor np \ rfloor или ⌈ np ⌉ {\ displaystyle \ lceil np \ rceil}\ lceil np \ rceil
Режим ⌊ (n + 1) п ⌋ {\ displaystyle \ lfloor (n + 1) p \ rfloor}\ lfloor (n + 1) p \ rfloor или ⌈ (n + 1) п ⌉ - 1 {\ displaystyle \ lceil (n + 1) p \ rceil -1 }{\ displaystyle \ lceil (n + 1) p \ rceil -1}
дисперсия npq {\ displaystyle npq}{\ displaystyle npq}
асимметрия q - pnpq {\ displaystyle {\ frac {qp} {\ sqrt {npq}}}}{\ displaystyle {\ frac {qp} {\ sqrt {npq}}}}
Пример. эксцесс 1-6 pqnpq {\ displaystyle {\ frac {1-6pq} {npq}}}{\ displaystyle {\ frac {1-6pq} {npq}}}
Энтропия 1 2 log 2 ⁡ (2 π enpq) + O (1 n) {\ displaystyle {\ frac {1} {2}} \ log _ {2} (2 \ pi enpq) + O \ left ({\ frac {1} {n}} \ right)}{\ displaystyle {\ frac {1} {2}} \ log _ {2} (2 \ pi enpq) + O \ left ({\ frac {1} {n}} \ right)} . в шэннонах. Для нац використовуйте в журнале натуральный логарифм.
MGF (q + pet) n {\ displaystyle (q + pe ^ {t}) ^ {n}}{\ отображает tyle (q + pe ^ {t}) ^ {n}}
CF (q + peit) n {\ displaystyle (q + pe ^ {it})) ^ {n}}{\ displaystyle (q + pe ^ {it}) ^ {n}}
PGF G (z) = [q + pz] n {\ displaystyle G (z) = [q + pz] ^ {n}}{\ displaystyle G (z) = [q + pz] ^ {n}}
Информация Фишера gn (p) = npq {\ displaystyle g_ {n} (p) = {\ frac {n} {pq}}}{\ displaystyle g_ {n} (p) = {\ frac {n} {pq}}} . (для фиксированное n {\ displaystyle n}n )
Биномиальное распределение для p = 0,5 {\ displaystyle p = 0,5}p = 0, 5 . с n и k, как в треугольнике Паскаля.. Вероятность того, что мяч в ящике Гальтона с 8 слоями (n = 8) оказывается в центральном контейнере (k = 4), это 70/256 {\ displaystyle 70/256}70/256 .

В теории вероятностей и статистика, биномиальное распределение с предусмотренными для n и p - это дискретное распределение вероятностей количества успехов в исходных n независимые эксперименты, каждый из которых задает вопрос «да - нет», и у каждого свой логический -значный результат : успех / да / истина / одинвероятностью p) или неудача /no /ложь / ноль (с вероятностью q = 1 - p). Единичный эксперимент с успехом / неудачей также называется испытанием Бернулли или экспериментом Бернулли, последовательность транзакций называется процесс Бернулли ; для одного испытания, т.е. n = 1, биномиальное распределение является распределением Бернулли. Биномиальное использование популярного биномиального теста статистической значимости.

. Биномиальное распределение часто используется для моделирования количества успехов в выборке размера n, нарисованной с заменой из совокупности размера N. Если выборка выполняется без замены, выборки не являются независимыми, поэтому результирующее распределение является гипергеометрическим распределением, а не биномиальным. Однако для N, намного большего, чем n, биномиальное распределение используется как широко используется.

Содержание

  • 1 Определения
    • 1.1 Вероятностная функция масс
    • 1.2 Пример
    • 1.3 Кумулятивная функция распределения
  • 2 Свойства
    • 2.1 Ожидаемое значение и дисперсия
    • 2.2 Высшие моменты
    • 2.3 Режим
    • 2.4 Медиана
    • 2.5 Границы хвоста
  • 3 Статистический вывод
    • 3.1 Оценка параметров
    • 3.2 Доверительные интервалы
      • 3.2.1 Метод Вальда
      • 3.2.2 Метод Агрести - Коулла
      • 3.2.3 Метод арксинуса
      • 3.2.4 Метод Уилсона (оценка)
      • 3.2.5 Сравнение
  • 4 Связанные распределения
    • 4.1 Суммы биномов
    • 4.2 Соотношение двух биномиальных распределений
    • 4.3 Условные биномы
    • 4.4 Распределение Бернулли
    • 4.5 Биномиальное распределение Пуассона
    • 4.6 Нормальное приближение
    • 4.7 Пуассоновское приближение
    • 4.8 Предельные распределения
    • 4.9 Бета-распределение
  • 5 Вычислительные методы
    • 5.1 Генерация биномиальных случайных величин
  • 6 История
  • 7 См.
  • 8 Ссылки
  • 9 Дополнительная литература
  • 10 Внешние ссылки

Определения

Вероятностная функция массы

В общем, если случайная величина X следует биномиальному распределению с применением n и p ∈ [0,1], мы пишем X ~ B (n, p). вероятностных масс :

f (k, n, p) = Pr (k; n, p) = Pr (X = k) = (nk) pk ( 1 - п) N - К {\ Displaystyle е (к, п, р) = \ Pr (к; п, р) = \ Pr (X = к) = {\ binom {п} {к}} р ^ { k} (1-p) ^ {nk}}{\ displaystyle f (k, n, p) = \ Pr (k; n, p) = \ Pr ( Икс = к) = {\ binom {n} {k}} p ^ {k} (1-p) ^ {nk}}

для k = 0, 1, 2,..., n, где

(nk) = n! к! (п - к)! {\ displaystyle {\ binom {n} {k}} = {\ frac {n!} {k! (nk)!}}}{\ displaystyle {\ binom {n} {k}} = {\ frac {n!} {К! (Nk)!}}}

- это биномиальный коэффициент, отсчет и название распространения. Формулу можно понять следующим образом. k успехов произойдет с вероятностью p и n - k отказов произойдет с вероятностью (1 - p). Однако k успешных результатов могут иметь место в любом месте среди n испытаний, и существует (nk) {\ displaystyle {\ binom {n} {k}}}{\ binom {n} {k}} различных способов распределения k успехов в последовательности из п испытаний.

При создании справочных таблиц для вероятностей биномиального распределения обычно таблица заполняется до n / 2 значений. Это связано с тем, что для k>n / 2 вероятность может быть вычислена путем его дополнения как

f (k, n, p) = f (n - k, n, 1 - p). {\ displaystyle f (k, n, p) = f (nk, n, 1-p).}f (k, n, p) = f (nk, n, 1-p).

Рассматривая выражение f (k, n, p) как функция от k, существует значение k, которое максимизирует это. Это значение k можно найти, вычислив

f (k + 1, n, p) f (k, n, p) = (n - k) p (k + 1) (1 - p) {\ displaystyle {\ гидроразрыв {f (k + 1, n, p)} {f (k, n, p)}} = {\ frac {(nk) p} {(k + 1) (1-p)}}}{\ frac {f (k + 1, n, p)} {f (к, n, p)}} = {\ гидроразрыва {(nk) p} {(k + 1) (1-p)}}

и сравнивая его с 1. Всегда существует целое число M, удовлетворяющее

(n + 1) p - 1 ≤ M < ( n + 1) p. {\displaystyle (n+1)p-1\leq M<(n+1)p.}(n + 1) p-1 \ leq M <(n + 1) p.

f (k, n, p) монотонно возрастает для k < M and monotone decreasing for k>M, за исключением случая, когда (n + 1) p является целым числом. В этом случае есть два значения, для которых является максимальным: (n + 1) p и (n + 1) p - 1. M наиболее вероятным исходом (то есть наиболее вероятным, хотя это все еще может быть маловероятным в целом.) испытаний Бернулли и называется режимом .

Пример

Предположим, смещенная монета выпадает орлом с вероятностью 0,3 при подбрасывании. Вероятность увидеть ровно 4 решки за 6 бросков составляет

f (4, 6, 0,3) = (6 4) 0,3 4 (1 - 0,3) 6-4 = 0,059535. {\ displaystyle f (4,6,0.3) = {\ binom {6} {4}} 0,3 ^ {4} (1-0,3) ^ {6-4} = 0,059535.}{\ displaystyle f (4,6,0,3) = {\ binom {6} {4}} 0,3 ^ {4} ( 1-0,3) ^ {6-4} = 0,059535.}

Кумулятивная функция распределения

Кумулятивная функция распределения может быть выражена как:

F (k; n, p) = Pr (X ≤ k) = ∑ i = 0 ⌊ k ⌋ (ni) pi (1 - п) N - я, {\ Displaystyle F (к; п, р) = \ Pr (X \ Leq k) = \ сумма _ {я = 0} ^ {\ lfloor k \ rfloor} {п \ выбрать я} p ^ {i} (1-p) ^ {ni},}{\ displaystyle F (k; n, p) = \ Pr (X \ leq k) = \ sum _ {i = 0} ^ {\ lfloor k \ rfloor} {n \ choose i} p ^ {i} (1-p) ^ {ni},}

где ⌊ k ⌋ {\ displaystyle \ lfloor k \ rfloor}\ lfloor к \ rfloor - это " этаж "под k, т.е. наибольшее целое число, меньшее или равное k.

Его также можно представить в терминах регуляризованной неполной бета-функции следующим образом:

F (k; n, p) = Pr (X ≤ k) = I 1 - p ( n - k, k + 1) знак равно (n - k) (nk) ∫ 0 1 - ptn - k - 1 (1 - t) kdt. {\ Displaystyle {\ begin {align} F (k; n, p) = \ Pr (X \ leq k) \\ = I_ {1-p} (nk, k + 1) \\ = (nk) {п \ выбрать k} \ int _ {0} ^ {1-p} t ^ {nk-1} (1-t) ^ {k} \, dt. \ end {align}}}{\ begin {выровнено} F (k; n, p) = \ Pr (X \ leq k) \\ = I_ {1 -p} (nk, k + 1) \\ = (nk) {n \ выберите k} \ int _ {0} ^ {1-p} t ^ {nk-1} (1-t) ^ {k} \, dt. \ конец {выровнено}}

который эквивалентна кумулятивной функции распределения F-распределения :

F (k; n, p) = FF -распределение (x = 1 - ppk + 1 n - k; d 1 = 2 (n - k), d 2 = 2 (k + 1)). {\ displaystyle F (k; n, p) = F_ {F {\ text {-distribution}}} \ left (x = {\ frac {1-p} {p}} {\ frac {k + 1} { nk}}; d_ {1} = 2 (nk), d_ {2} = 2 (k + 1) \ right).}{\ displaystyle F (k; n, p) = F_ {F {\ text {-распределение}}} \ left (x = {\ frac {1-p} {p}} {\ frac {k + 1} {nk}}; d_ {1} = 2 (nk), d_ {2} = 2 (к + 1) \ справа).}

Некоторые границы в замкнутом виде для кумулятивной функции распределения представлены ниже.

Свойства

Ожидаемое значение и дисперсия

Если X ~ B (n, p), то есть X - биномиально распределенная случайная величина, n - общее количество экспериментов, а p - вероятность того, что каждый эксперимент даст успешный результат, то ожидаемое значение X составляет:

E ⁡ [X] = np. {\ displaystyle \ operatorname {E} [X] = np.}{\ displaystyle \ operatorname {E} [X] = np.}

Это следует из линейности ожидаемого значения и того факта, что X - это сумма n идентичных случайных величин Бернулли, каждая из которых имеет ожидаемое значение p. Другими словами, если X 1,…, X n {\ displaystyle X_ {1}, \ ldots, X_ {n}}X_1, \ ldots, X_n являются идентичными (и независимыми) случайными величинами Бернулли с параметром p, тогда Икс = Икс 1 + ⋯ + Икс n {\ displaystyle X = X_ {1} + \ cdots + X_ {n}}{\ displaystyle X = X_ {1} + \ cdots + X_ {n} } и

E ⁡ [X] = E ⁡ [X 1 + ⋯ + X n] = E ⁡ [X 1] + ⋯ + E ⁡ [X n] = p + ⋯ + p = np. {\ displaystyle \ operatorname {E} [X] = \ operatorname {E} [X_ {1} + \ cdots + X_ {n}] = \ operatorname {E} [X_ {1}] + \ cdots + \ operatorname { E} [X_ {n}] = p + \ cdots + p = np.}{\ displaystyle \ operatorname {E} [X] = \ operatorname {E} [X_ {1} + \ cdots + X_ {n} ] = \ operatorname {E} [X_ {1}] + \ cdots + \ operatorname {E} [X_ {n}] = p + \ cdots + p = np.}

дисперсия :

Var ⁡ (X) = np (1 - p). {\ displaystyle \ operatorname {Var} (X) = np (1-p).}{\ displaystyle \ opera torname {Var} (X) = np (1-p).}

Это аналогично следует из факта, что дисперсия суммы независимых случайных величин является суммой дисперсий.

Высшие моменты

Первые 6 центральных моментов задаются как

μ 1 = 0, μ 2 = np (1 - p), μ 3 = np (1 - p) (1 - 2 p), μ 4 = np (1 - p) (1 + (3 n - 6) p (1 - p)), μ 5 = np (1 - p) (1-2 p) (1 + (10 n - 12) p (1 - p)), μ 6 = np (1 - p) (1 - 30 p (1 - p) (1 - 4 p (1 - p)) + 5 np (1 - п) (5 - 26 п (1 - п)) + 15 п 2 п 2 (1 - п) 2). {\ displaystyle {\ begin {align} \ mu _ {1} = 0, \\\ mu _ {2} = np (1-p), \\\ mu _ {3} = np (1- p) (1-2p), \\\ mu _ {4} = np (1-p) (1+ (3n-6) p (1-p)), \\\ mu _ {5} = np (1-p) (1-2p) (1+ (10n-12) p (1-p)), \\\ mu _ {6} = np (1-p) (1-30p (1- p) (1-4p (1-p)) + 5np (1-p) (5-26p (1-p)) + 15n ^ {2} p ^ {2} (1-p) ^ {2}). \ end {align}}}{\ displaystyle {\ begin {align} \ mu _ {1} = 0, \\\ mu _ {2} = np (1-p), \\\ mu _ {3 } = np (1-p) (1-2p), \\\ mu _ {4} = np (1-p) (1+ (3n-6) p (1-p)), \\\ mu _ {5} = np (1-p) (1-2p) (1+ (10n-12) p (1-p)), \\\ mu _ {6} = np (1-p) (1-30p (1-p) (1-4p (1-p)) + 5np (1-p) (5-26p (1-p)) + 15n ^ {2} p ^ {2} (1- п) ^ {2}). \ end {align}}}

Режим

Обычно режим биномиального распределения B (n, p) равенство ⌊ (n + 1) p ⌋ {\ displaystyle \ lfloor (n + 1) p \ rfloor}\ lfloor (n + 1) p \ rfloor , где ⌊ ⋅ ⌋ {\ displaystyle \ lfloor \ cdot \ rfloor}\ lfloor \ cdot \ rfloor - это функция этажа. Однако, когда (n + 1) p является целым числом и p не равно 0, ни 1, распределение имеет два режима: (n + 1) p и (n + 1) p - 1. Когда p равно 0 или 1 режим будет 0 и n соответственно. Эти случаи можно резюмировать следующим образом:

mode = {⌊ (n + 1) p ⌋, если (n + 1) p равно 0 или нецелое число, (n + 1) p и (n + 1) p - 1 если (n + 1) p ∈ {1,…, n}, n, если (n + 1) p = n + 1. {\ displaystyle {\ text {mode}} = {\ begin {cases} \ lfloor ( n +1) \, p \ rfloor {\ text {if}} (n + 1) p {\ text {0 или нецелое число}}, \\ (n + 1) \, p \ {\ text {и }} \ (n + 1) \, p-1 {\ text {if}} (n + 1) p \ in \ {1, \ dots, n \}, \\ n {\ text {if} } (n + 1) p = n + 1. \ end {ases}}}{\ text {mode}} = {\ begin {cases} \ lfloor (n + 1) \, p \ rfloor {\ text {if}} ( n + 1) p {\ text {0 или нецелое число}}, \\ (n + 1) \, p \ {\ text {and}} \ (n + 1) \, p-1 {\ text { if}} (n + 1) p \ in \ {1, \ dots, n \}, \\ n {\ text {if}} (n + 1) п знак равно N + 1. \ end {case} }

Доказательство: Пусть

f (k) = (nk) pkqn - k. {\ displaystyle f (k) = {\ binom {n} {k}} p ^ {k} q ^ {nk}.}{\ displaystyle f (k) = {\ binom {n} {k}} p ^ {к} q ^ {nk}.}

Для p = 0 {\ displaystyle p = 0}p = 0 только f (0) {\ displaystyle f (0)}f (0) имеет ненулевое значение с f (0) = 1 {\ displaystyle f (0) = 1}е (0) = 1 . Для p = 1 {\ displaystyle p = 1}п = 1 находим f (n) = 1 {\ displaystyle f (n) = 1}f (n) = 1 и е (к) знак равно 0 {\ displaystyle f (k) = 0}f (k) = 0 для k ≠ n {\ displaystyle k \ neq n}k \ neq n . Это доказывает, что режим равен 0 для p = 0 {\ displaystyle p = 0}p = 0 и n {\ displaystyle n}n для p = 1. {\ displaystyle p = 1}п = 1 .

Пусть 0 < p < 1 {\displaystyle 00 <p <1 . Мы находим

е (к + 1) е (к) = (n - k) p (k + 1) (1 - p) {\ displaystyle {\ frac {f (k + 1)} {f (k)}} = {\ frac {(nk) p} {(k + 1) (1-p)}}}{\ frac {f (k + 1)} {е (k)}} = {\ frac {(nk) p} {(k + 1) (1-p)}} .

Отсюда следует

k>(n + 1) p - 1 ⇒ f (k + 1) < f ( k) k = ( n + 1) p − 1 ⇒ f ( k + 1) = f ( k) k < ( n + 1) p − 1 ⇒ f ( k + 1)>е (к) {\ displaystyle {\ begin {align} k>(n + 1) p-1 \ Rightarrow f (k + 1) f (k) \ end {выравнивается}}}{\displaystyle {\begin{aligned}k>(n + 1) p-1 \ Rightarrow f (k + 1) <f(k)\\k=(n+1)p-1\Rightarrow f(k+1)=f(k)\\k<(n+1)p-1\Rightarrow f(k+1)>f (k) \ end {align}}}

Итак, когда (n + 1) p - 1 {\ displaystyle (n + 1) p-1}(n + 1) p-1 является целым числом, тогда (n + 1) p - 1 {\ displaystyle (n + 1) p-1}(n + 1) p-1 и (n + 1) p {\ displaystyle (n + 1) p}(n + 1) p - это режим. В случае, если (n + 1) p - 1 ∉ Z {\ displaystyle (n + 1) p-1 \ notin \ mathbb {Z}}(n + 1) p- 1 \ notin \ mathbb {Z} , тогда только ⌊ (n + 1) p - 1 ⌋ + 1 = ⌊ (n + 1) p ⌋ {\ displaystyle \ lfloor (n + 1) p-1 \ rfloor + 1 = \ lfloor (n + 1) p \ rfloor}\ lfloor (n + 1) p-1 \ rfloor + 1 = \ lfloor (n + 1) p \ rfloor - это мода.

Медиана

В общем, здесь нет единственной формула для нахождения медианы для биномиального распределения, и она может даже быть неуникальной. Однако было получено несколько специальных результатов:

  • Если np - целое число, то среднее, медиана и мода совпадают и равны np.
  • Любая медиана m должна лежать в интервале ⌊np⌋ ≤ m ≤ ⌈Np⌉.
  • Медиана может находиться слишком далеко от среднего: | м - нп | ≤ min {ln 2, max {p, 1 - p}}.
  • Медиана уникальна и равна m = round (np), когда | м - нп | ≤ min {p, 1 - p} (кроме случая, когда p = 1/2 и n нечетно).
  • Когда p = 1/2 и n нечетно, любое число m в интервале 1/2 (n - 1) ≤ m ≤ 1/2 (n + 1) - медиана биномиального распределения. Если p = 1/2 и n четно, то m = n / 2 - уникальная медиана.

.

Границы хвоста

Для k ≤ np верхние границы могут быть получены для нижнего хвоста кумулятивной функции распределения F (k; n, p) = Pr (X ≤ k) {\ displaystyle F (k ; n, p) = \ Pr (X \ leq k)}F (к; n, p) = \ Pr (X \ leq k) , вероятность что есть не более k успехов. <Времен Pr (X ≥ K) = F (n - K; n, 1 - p) {\ displaystyle \ Pr (X \ geq k) = F (nk; n, 1-p)}{\ displaystyle \ Pr (X \ geq k) = F (nk; n, 1-p)} , эти границы можно также рассматривать как границы верхнего хвоста кумулятивной функции распределения при k ≥ np.

Неравенство Хёффдинга дает простую оценку

F (k; n, p) ≤ exp ⁡ (- 2 n (p - kn) 2), {\ displaystyle F (k; n, p) \ leq \ exp \ left (-2n \ left (p - {\ frac {k} {n}} \ right) ^ {2} \ right), \!}{\ displaystyle F (k; n, p) \ Leq \ exp \ left (-2n \ left (p - {\ frac {k} {n}} \ right) ^ {2} \ right), \!}

, что, однако, не очень плотно. В частности, для p = 1 мы имеем, что F (k; n, p) = 0 (для фиксированного k, n с k < n), but Hoeffding's bound evaluates to a positive constant.

Более точная оценка может быть получена из границы Чернова :

F (К ; N, п) ≤ ехр ⁡ (- ND (кн ∥ п)) {\ Displaystyle F (к; п, р) \ Leq \ ехр \ влево (-nD \ влево ({\ гидроразрыва {k} {п}} \ parallel p \ right) \ right)}{\ displaystyle F (k; n, p) \ leq \ exp \ left (-nD \ left ({\ frac {k} {n}} \ parallel p \ right) \ right)}

где D (a || p) - относительная энтропия между a-монетой и p-монетой (т.е. между монетой Бернулли (a) и распределение Бернулли (p)):

D (a ∥ p) = (a) журнал ⁡ ap + (1 - a) log ⁡ 1 - a 1 - p. {\ displaystyle D (a \ parallel p) = ( а) \ log {\ frac {a} {p}} + (1-a) \ log {\ frac {1-a} {1-p}}. \!}{\ displaystyle D (a \ parallel p) = (a) \ log {\ frac {a} {p}} + (1-a) \ log {\ frac { 1-а} {1-р}}. \!}

Асимптотически эта граница достаточно плотно; подробнее см.

Можно также получить нижнюю границу хвоста F (k; n, p) {\ displaystyle F (k; n, p)}{\ displaystyle F (k; n, p)} , известное как антиконцентрационные границы. биномиальный коэффициент формулой Стирлинга, можно показать, что

F (k; n, p) ≥ 1 8 nkn (1 - kn) exp ⁡ (- n D (kn ∥ п)), {\ Displayst yle F (к; п, р) \ geq {\ гидроразрыва {1} {\ sqrt {8n {\ tfrac {k} {n}} (1 - {\ tfrac {k} {n}})}}} \ exp \ left (- nD \ left ({\ frac {k} {n}} \ parallel p \ right) \ right),}{\ displaystyle F (k; n, p) \ geq {\ frac {1} {\ sqrt {8n {\ tfrac {k} {n}} (1 - {\ tfrac {k} {n}})}}} \ exp \ left (-nD \ left ({\ frac { k} {n}} \ параллельно p \ right) \ right),}

что подразумевает более простую, но более слабую оценку

F (k; n, p) ≥ 1 2 n ехр ⁡ (- n D (knp)). {\ Displaystyle F (к; n, p) \ geq {\ frac {1} {\ sqrt {2n}}} \ exp \ left (-nD \ left ({\ frac {k} {n}} \ parallel p \ right) \ right).}{\ displaystyle F (k; n, p) \ geq {\ frac {1} {\ sqrt {2n}}} \ exp \ left (-nD \ left ({\ frac {k} {n}} \ parallel p \ right) \ right). }

Для p = 1/2 и k ≥ 3n / 8 для четного n знаменатель можно сделать постоянным:

F (k; n, 1 2) ≥ 1 15 ехр ⁡ (- 16 п (1 2 - изн) 2). {\ Displaystyle F (к; n, {\ tfrac {1} {2}}) \ geq {\ frac {1} {15}} \ exp \ left (-16n \ left ({\ frac {1} {2 }} - {\ frac {k} {n}} \ right) ^ {2} \ right). \!}{\ displaystyle F (k; n, {\ tfrac {1} {2}}) \ geq {\ frac {1} {15}} \ exp \ left (-16n \ left ({\ frac {1} {2}} - {\ frac { k} {n}} \ right) ^ {2} \ right). \!}

Статистический вывод

Оценка параметров

Когда n равно, параметр p можно оценить, используя успехов: p ^ = xn. {\ displaystyle {\ widehat {p}} = {\ frac {x} {n}}.}{\ displaystyle {\ widehat {p}} = {\ frac {x} {n}}.} Эта оценка находится с использованием оценки максимальной правдоподобия, а также метода моментов. Оценка несмещена и равномерно с минимальной дисперсией, что доказано с помощью теоремы Леманна - Шеффе, поскольку она основана на минимально достаточном и полная статистика (например: x). Он также согласован как по вероятности, так и по MSE.

Замкнутая форма Байесовская оценка для p также существует при использовании Бета-распределения в качестве конъюгировать предыдущее распределение. При использовании общей бета ⁡ (α, β) {\ displaystyle \ operatorname {Beta} (\ alpha, \ beta)}{\ displaystyle \ operatorname { Бета} (\ альфа, \ бета)} в качестве априорной оценки апостериорного среднего составляет: pb ^ = x + α n + α + β {\ displaystyle {\ widehat {p_ {b}}} = {\ frac {x + \ alpha} {n + \ alpha + \ beta}}}{\ displaystyle {\ widehat {p_ {b}}} = {\ frac {x + \ alpha} {п + \ альфа + \ бета}}} . Байесовская оценка асимптотически эффективна и по мере приближения размера выборки к бесконечности (n → ∞) приближается к решению MLE. Байесовская оценка смещена (насколько зависит от априорных значений), допустима и согласована по вероятности.

Для особого случая использования стандартного равномерного распределения в качестве неинформативного априорного распределения (Бета ⁡ (α = 1, β = 1) = U (0, 1) {\ displaystyle \ operatorname {Beta} (\ alpha = 1, \ beta = 1) = U (0,1)}{\ displaystyle \ operatorname {Beta} (\ alpha = 1, \ beta = 1) = U (0,1)} ), апостериорная оценка среднего становится pb ^ = x + 1 n + 2 {\ displaystyle {\ widehat {p_ {b}}} = {\ frac {x + 1} {n + 2}}}{\ displaystyle {\ widehat {p_ {b}}} = {\ frac {x + 1} {n + 2}}} (апостериорный режим должен просто вести к стандартная) оценка. Этот метод правилом называется, которое было введено в 18 веке Пьером-Симоном Лапласом.

при оценке p с очень редкими событиями и малым n (например, если x = 0), то использование стандартным оценки приводит к p ^ = 0, {\ displaystyle {\ widehat {p}} = 0,}{\ displaystyle {\ widehat {p}} = 0,} что иногда нереально и нежелательно. В таких случаях различные альтернативные оценки. Один из способов - использовать байесовский оценщик, который приводит к следующему: pb ^ = 1 n + 2 {\ displaystyle {\ widehat {p_ {b}}} = {\ frac {1} {n + 2}}}{\ displaystyle {\ widehat {p_ {b}}} = {\ frac {1} {n + 2}}} ). Другой метод - использовать верхнюю границу доверительного интервала, полученную с помощью правил трех : p правило 3 ^ = 3 n {\ displaystyle {\ widehat {p_ {\ text {правило) 3}}}} = {\ frac {3} {n}}}{\ displaystyle {\ widehat {p _ {\ text {rule of 3}}}} = {\ frac {3} {n} }} )

Доверительные интервалы

Даже для довольно больших значений n фактическое распределение среднего значения значительно ненормальный. Из-за этой проблемы было предложено несколько методов оценки доверительных интервалов.

В приведенных ниже уравнениях для доверительных интервалов переменные имеют следующее значение:

  • n1- количество успехов из n, общее количество испытаний
  • p ^ = n 1 n {\ displaystyle {\ widehat {p \,} } = {\ frac {n_ {1}} {n}}}{\ displaystyle {\ widehat {p \,}} = {\ frac {n_ {1}} {n}}} - доля успехов
  • z {\ displaystyle z}zявляется 1-1 2 α { \ displaystyle 1 - {\ tfrac {1} {2}} \ alpha}{\ displaystyle 1 - {\ tfrac {1} {2}} \ альфа} квантиль стандартного нормального распределения (т. е. пробит ), что соответствует цели последовательность ошибок α {\ displaystyle \ alpha}\ alpha . Например, для уровня достоверности 95% ошибка α {\ displaystyle \ alpha}\ alpha = 0,05, поэтому 1–1 2 α {\ displaystyle 1 - {\ tfrac {1} { 2}} \ alpha}{\ displaystyle 1 - {\ tfrac {1} {2}} \ альфа} = 0,975 и z {\ displaystyle z}z= 1,96.

метод Вальда

p ^ ± zp ^ (1 - п ^) п. {\ displaystyle {\ widehat {p \,}} \ pm z {\ sqrt {\ frac {{\ widehat {p \,}} (1 - {\ widehat {p \,}})} {n}}}.}{\ displaystyle {\ widehat {p \,}} \ pm z {\ sqrt {\ frac {{\ widehat {p \,}} (1- {\ widehat {p \,}})} {n}} }.}
A Может быть добавлена ​​поправка на непрерывность 0,5 / н.

Метод Агрести - Коулла

p ~ ± zp ~ (1 - p ~) n + z 2. {\ displaystyle {\ tilde {p}} \ pm z {\ sqrt {\ frac {{\ tilde { p}} (1 - {\ tilde {p}})} {n + z ^ {2}}}}.}{\ displaystyle {\ tilde {p}} \ pm z {\ sqrt {\ frac {{\ tilde {p}} (1 - {\ тильда {p}})} {n + z ^ {2 }}}}.}
Здесь оценка p изменена до
p ~ = n 1 + 1 2 z 2 n + Z 2 {\ Displaystyle {\ тильда {p}} = {\ frac {n_ {1} + {\ frac {1} {2}} z ^ {2}} {n + z ^ {2}}}}{\ displaystyle {\ tilde {p}} = {\ frac {n_ {1} + {\ frac {1}) {2}} z ^ {2}} {n + z ^ {2}}}}

Метод арксинуса

sin 2 ⁡ (arcsin ⁡ (p ^) ± z 2 n). {\ displaystyle \ sin ^ {2} \ left (\ arcsin \ left ({\ sqrt {\ widehat {p \,}}} \ right) \ pm {\ frac {z} {2 {\ sqrt {n}} }} \ right).}{\ displaystyle \ sin ^ {2} \ left (\ arcsin \ left ({\ sqrt {\ widehat {p \,}}} \ right) \ pm {\ frac {z} {2 {\ sqrt {n}}}} \ right).}

Метод Вильсона (оценка)

Обозначения в приведенной ниже формуле отличаются от предыдущих формул в двух отношениях:

  • Во-первых, z x имеет несколько иная интерпретация в формуле ниже: она имеет свое обычное значение «x-й квантиль стандартного нормального распределения», а не является сокращением для «(1 - x) -го квантиля».
  • Во-вторых, в этой формуле не используется знак «плюс-минус» для определения двух границ. Вместо этого можно использовать z = z α / 2 {\ displaystyle z = z _ {\ alpha / 2}}{\ displaystyle z = z _ {\ alpha / 2}} , чтобы получить нижнюю границу, или использовать z = z 1 - α / 2 {\ displaystyle z = z_ {1- \ alpha / 2}}{\ displaystyle z = z_ {1- \ alpha / 2}} , чтобы получить верхнюю границу. Например: для уровня достоверности 95% ошибка α {\ displaystyle \ alpha}\ alpha = 0,05, поэтому нижнюю границу можно получить, используя z = z α / 2 = z 0,025 = - 1.96 {\ displaystyle z = z _ {\ alpha /2}=z_{0.025}=-1.96}{\ displaystyle z = z _ {\ alpha / 2} = z_ {0,025} = - 1,96 } , а верхнюю границу можно получить, используя z = z 1 - α / 2 знак z 0,975 = 1,96 {\ displaystyle z = z_ {1- \ alpha /2}=z_{0.975}=1.96}{\ displaystyle z = z_ {1- \ alpha / 2} = z_ {0,975} = 1,96} .
p ^ + z 2 2 n + zp ^ (1 - p ^) n + z 2 4 n 2 1 + z 2 n {\ displaystyle {\ frac {{\ widehat {p \,}} + {\ frac {z ^ {2}} {2n}} + z {\ sqrt {{\ frac { {{ \ widehat {p \,}} (1 - {\ widehat {p \,}})} {n}} + {\ frac {z ^ {2}} {4n ^ {2}}}}}} {1 + {\ frac {z ^ {2}} {n}}}}}{\ displaystyle {\ frac {{\ widehat {p \,}} + {\ frac {z ^ {2}} {2n}} + z {\ sqrt {{\ frac {{\ widehat {p \,}} (1 - {\ widehat {p \,}})} {n }} + {\ frac {z ^ {2}} {4n ^ {2}}}}}} {1 + {\ frac {z ^ {2}} {n}}}}}

Сравнение

Точный (Клоппер – Пирсон ) метод является наиболее консервативным.

Метод Вальда, хотя его обычно рекомендуют в учебниках, является наиболее предвзятым.

Связанные распределения

Суммы биномов

Если X ~ B (n, p) и Y ~ B (m, p) - независимые биномиальные переменные с той же вероятностью p, то X + Y снова является биномиальной переменной; его распределение: Z = X + Y ~ B (n + m, p):

P ⁡ (Z = k) = ∑ i = 0 k [(ni) pi (1 - p) n - i] [( mk - i) pk - i (1 - p) m - k + i] = (n + mk) pk (1 - p) n + m - k {\ displaystyle {\ begin {align} \ operatorname {P} ( Z = k) = \ sum _ {i = 0} ^ {k} \ left [{\ binom {n} {i}} p ^ {i} (1-p) ^ {ni} \ right] \ left [{\ binom {m} {ki}} p ^ {ki} (1-p) ^ {m-k + i} \ right] \\ = {\ binom {n + m} {k}} p ^ {k} (1-p) ^ {n + mk} \ end {align}}}{\ begin {align} \ operatorname {P} (Z = k) = \ сумма _ {я = 0} ^ {k} \ left [{\ binom {n} {i}} p ^ {i} (1-p) ^ {ni} \ right] \ left [{\ binom {m} {ki}} p ^ {ki} (1-p) ^ {mk + i} \ right] \\ = {\ binom {n + m} {k}} p ^ {k} (1-p) ^ {n + mk} \ end {align}}

Однако, если X и Y не имеют одинаковой вероятности p, тогда дисперсия суммы будет меньше чем дисперсия биномиальной переменной, распределенной как B (n + m, p ¯). {\ displaystyle B (n + m, {\ bar {p}}). \,}B (n + m, {\ bar {p}}). \,

Соотношение двух биномиальных распределений

Этот результат был впервые получен Кацем и соавторами в 1978 году.

Пусть X ~ B (n, p 1) и Y ~ B (m, p 2) независимы. Пусть T = (X / n) / (Y / m).

Тогда log (T) приблизительно нормально распределен со средним log (p 1/p2) и дисперсией ((1 / p 1) - 1) / n + ((1 / p 2) - 1) / м.

Условные двучлены

Если X ~ B (n, p) и Y | X ~ B (X, q) (условное распределение Y, заданное X), тогда Y - простая биномиальная случайная величина с распределением Y ~ B (n, pq).

Например, представьте, что вы бросаете n мячей в корзину U X и отбрасываете попавшие шары в другую корзину U Y. Если p - это вероятность попасть в U X, то X ~ B (n, p) - это количество шаров, попавших в U X. Если q - вероятность попасть в U Y, то количество шаров, попавших в U Y, равно Y ~ B (X, q) и, следовательно, Y ~ B (n, pq).

[Доказательство]

Поскольку X ∼ B (n, p) {\ displaystyle X \ sim B (n, p)}{\ displaystyle X \ sim B (n, p)} и Y ∼ B (X, q) {\ displaystyle Y \ sim B (X, q)}{\ displaystyle Y \ sim B (X, q)} по закону полной вероятности ,

Pr [Y = m] = ∑ k = mn Pr [Y = m ∣ Икс знак равно К] Pr [Икс = К] = ∑ К = mn (nk) (км) pkqm (1 - p) n - k (1 - q) k - m {\ displaystyle {\ begin {выровнено} \ Pr [Y = m] = \ sum _ {k = m} ^ {n} \ Pr [Y = m \ mid X = k] \ Pr [X = k] \\ [2pt] = \ sum _ {k = m} ^ {n} {\ binom {n} {k}} {\ binom {k} {m}} p ^ {k} q ^ {m} (1-p) ^ {nk} (1-q) ^ {km} \ end {align}}}{\ displaystyle {\ begin {align} \ Pr [ Y = m] = \ sum _ {k = m} ^ {n} \ Pr [Y = m \ mid X = k] \ Pr [X = k] \\ [2pt] = \ sum _ {k = m} ^ {n} {\ binom {n} {k}} {\ binom {k} {m}} p ^ {k} q ^ {m} (1-p) ^ {nk} (1-q) ^ {km} \ end {align}}}

Поскольку (nk) (km) = (nm) (n - mk - m), {\ displaystyle {\ tbinom {n} {k}} {\ tbinom {k} {m}} = {\ tbinom {n} {m}} {\ tbinom {nm} {km}},}{\ displaystyle {\ tbinom {n} {k}} {\ tbinom {k} {m}} = {\ tbinom {n} {m}} {\ tbinom {нм} {км}},} уравнение выше может быть выражено как

Pr [Y = м] знак равно ∑ К знак равно mn (нм) (n - mk - m) pkqm (1 - p) n - k (1 - q) k - m {\ displaystyle \ Pr [Y = m] = \ sum _ {k = m} ^ {n} {\ binom {n} {m}} {\ binom {nm} {km}} p ^ {k} q ^ {m} (1-p) ^ {nk} ( 1-q) ^ {km}}{\ displaystyle \ Pr [Y = m] = \ sum _ {k = m} ^ {n} {\ binom {n} {m}} {\ binom {нм} {км}} p ^ {k} q ^ {m} (1-p) ^ {nk} (1-q) ^ {km}}

Ф акторинг pk = pmpk - m {\ displaystyle p ^ {k} = p ^ {m} p ^ {km}}{\ displaystyle p ^ {k} = p ^ {m} p ^ {km}} и извлечение всех т erms, которые не зависят от k {\ displaystyle k}к из суммы, теперь дает

Pr [Y = m] = (nm) pmqm (∑ k = mn (n - mk - m) pk - m (1 - p) n - k (1 - q) k - m) = (nm) (pq) m (∑ k = mn (n - mk - m) (p (1 - q))) к - м (1 - п) n - к) {\ Displaystyle {\ begin {выровнено} \ Pr [Y = m] = {\ binom {n} {m}} p ^ {m} q ^ { m} \ left (\ sum _ {k = m} ^ {n} {\ binom {nm} {km}} p ^ {km} (1-p) ^ {nk} (1-q) ^ {km} \ right) \\ [2pt] = {\ binom {n} {m}} (pq) ^ {m} \ left (\ sum _ {k = m} ^ {n} {\ binom {nm} {km }} \ left (p (1-q) \ right) ^ {km} (1-p) ^ {nk} \ right) \ end {align}}}{\ displaystyle {\ begin {align} \ Pr [Y = m] = {\ binom {n} {m}} p ^ {m } q ^ {m} \ left (\ sum _ {k = m} ^ {n} {\ binom {nm} {km}} p ^ {km} (1-p) ^ {nk} (1-q) ^ {km} \ right) \\ [2pt] = {\ binom {n} {m}} (pq) ^ {m} \ left (\ sum _ {k = m} ^ {n} {\ binom { nm} {km}} \ left (p (1 -q) \ right) ^ {km} (1-p) ^ {nk} \ right) \ end {align}}}

После замены i = k - m {\ displaystyle i = km}{\ displaystyle i = km} в приведенном выше выражении мы получаем

Pr [Y = m] = (nm) (pq) m (∑ i = 0 n - m (n - mi) (p - pq) я (1 - p) n - m - i) {\ displaystyle \ Pr [Y = m] = {\ binom {n} {m}} (pq) ^ {m} \ left (\ sum _ {i = 0} ^ {nm} {\ binom {nm} {i}} (p-pq) ^ {i} (1-p) ^ {nmi} \ right)}{\ displaystyle \ Pr [Y = m] = {\ binom {n} {m}} (pq) ^ {m} \ left (\ sum _ {i = 0} ^ {nm} {\ binom {nm} {i}} (p-pq) ^ {i } (1-p) ^ {nmi} \ right)}

Обратите внимание, что сумма ( в скобках) равно (p - pq + 1 - p) n - m {\ displaystyle (p-pq + 1-p) ^ {nm}}{\ displaystyle (p-pq + 1 -p) ^ {nm}} по биномиальной теореме. Подставляя это в finally, получаем

Pr [Y = m] = (nm) (pq) m (p - pq + 1 - p) n - m = (nm) (pq) m (1 - pq) n - m {\ displaystyle {\ begin {align} \ Pr [Y = m] = {\ binom {n} {m}} (pq) ^ {m} (p-pq + 1-p) ^ {nm} \\ [4pt] = {\ binom {n} {m}} (pq) ^ {m} (1-pq) ^ {nm} \ end {align}}}{\ displaystyle {\ begin {выровнено} \ Pr [Y = m] = {\ binom {n} {m}} (pq) ^ {m} (p-pq + 1-p) ^ {nm} \\ [4pt] = {\ binom {n} {m }} (pq) ^ {m} (1-pq) ^ {nm} \ end {align}}}

и, следовательно, Y ∼ B ( n, pq) {\ displaystyle Y \ sim B (n, pq)}{\ displaystyle Y \ sim B (n, pq)} по желанию.

Распределение Бернулли

Распределение Бернулли является частным случаем биномиального распределения, где n = 1. Символически X ~ B (1, p) имеет то же значение, что и X ~ Бернулли (р). И наоборот, любое биномиальное распределение B (n, p) является распределением суммы n испытаний Бернулли, Бернулли (p), каждое с одинаковой вероятностью p.

Бином Пуассона распределение

Биномиальное распределение является частным случаем биномиального распределения Пуассона, или, которое представляет собой распределение суммы n независимых неидентичных испытаний Бернулли B (p i).

Нормальное приближение

Биномиальная функция массы вероятности и нормальное приближение функции плотности вероятности для n = 6 и p = 0,5

Если n достаточно велико, то перекос распределения не слишком велик. В этом случае разумное приближение к B (n, p) дает нормальное распределение

N (np, np (1 - p)), {\ displaystyle {\ mathcal {N}} (np, \, np (1-p)),}{\ displaystyle {\ mathcal {N}} (np, \, np (1-p)),}

и это базовое приближение может быть улучшено простым способом с помощью подходящей коррекции непрерывности. приближение обычно улучшается с увеличением n (не менее 20) и лучше, когда p не близко к 0 или 1. Различные эмпирические правила могут использоваться, чтобы решить, достаточно ли n, а p достаточно далеко от крайних значений нуля или единицы:

  • Одно правило состоит в том, что для n>5 нормальное приближение является адекватным, если абсолютное значение асимметрии строго меньше 1/3; то есть, если
| 1-2 шт. | n p (1 - p) = 1 n | 1 - p p - p 1 - p | < 1 3. {\displaystyle {\frac {|1-2p|}{\sqrt {np(1-p)}}}={\frac {1}{\sqrt {n}}}\left|{\sqrt {\frac {1-p}{p}}}-{\sqrt {\frac {p}{1-p}}}\,\right|<{\frac {1}{3}}.}{\ displaystyle {\ frac {| 1-2p |} {\ sqrt {np (1-p)}}} = {\ frac {1} {\ sqrt {n}}} \ left | {\ sqrt {\ frac {1 -p} {p}}} - {\ sqrt {\ frac {p} {1-p}}} \, \ right | <{\ frac {1} {3}}.}
  • Более строгое правило гласит, что нормальное приближение подходит только в том случае, если все в пределах 3 стандартных отклонений от его среднего находится в пределах диапазона возможных значений; то есть, только если
μ ± 3 σ = n p ± 3 n p (1 - p) ∈ (0, n). {\ displaystyle \ mu \ pm 3 \ sigma = np \ pm 3 {\ sqrt {np (1-p)}} \ in (0, n).}{\ displaystyle \ mu \ pm 3 \ sigma = np \ pm 3 {\ sqrt {np (1-p)}} \ in (0, n).}
Это правило трех стандартных отклонений эквивалентно следующие условия, которые также подразумевают первое правило выше.
n>9 (1 - p p) и n>9 (p 1 - p). {\ displaystyle n>9 \ left ({\ frac {1-p} {p}} \ right) \ quad {\ text {and}} \ quad n>9 \ left ({\ frac {p} {1- p}} \ right).}{\displaystyle n>9 \ left ({\ frac {1-p} {p}} \ right) \ quad {\ text {and}} \ quad n>9 \ left ( {\ frac {p} {1-p}} \ right).}
[Доказательство]

Правило np ± 3 np (1 - p) ∈ (0, n) {\ displaystyle np \ pm 3 {\ sqrt {np ( 1-p)}} \ in (0, n)}{\ displaystyle np \ pm 3 { \ sqrt {np (1-p)}} \ in (0, n)} полностью эквивалентно запросу, что

np - 3 np (1 - p)>0 и np + 3 np (1 - p) < n. {\displaystyle np-3{\sqrt {np(1-p)}}>0 \ quad {\ text {and}} \ quad np + 3 {\ sqrt {np (1-p)}} {\displaystyle np-3{\sqrt {np(1-p)}}>0 \ quad {\ text {and}} \ quad np + 3 {\ sqrt {np (1-p)}} <n.}

Перемещение членов дает:

np>3 np (1 - p) и n (1 - p)>3 np (1 - p). { \ displaystyle np>3 {\ sqrt {np (1-p)}} \ quad {\ text {and}} \ quad n (1-p)>3 {\ sqrt {np (1-p)}}.}.{\displaystyle np>3 {\ sqrt {np (1-p)}} \ quad {\ text {and}} \ quad n (1-p)>3 {\ sqrt {np (1-p)}}.}

Начиная с 0 < p < 1 {\displaystyle 00 <p <1 , мы можем применить квадратную степень и разделить на соответствующие коэффициенты np 2 {\ displaystyle np ^ {2 }}{\ displaystyle np ^ {2}} и n (1 - p) 2 {\ displaystyle n (1-p) ^ {2}}{\ displaystyle n (1-p) ^ {2}} , чтобы получить желаемые условия:

n>9 (1 - pp) и n>9 (p 1 - p). {\ displaystyle n>9 \ left ({\ frac {1-p} {p}} \ right) \ quad {\ text {and}} \ quad n>9 \ left ({\ frac {p} {1- p}} \ right).}{\displaystyle n>9 \ left ({\ frac {1-p} {p}} \ right) \ quad {\ text {and}} \ quad n>9 \ left ( {\ frac {p} {1-p}} \ right).}

Обратите внимание, что эти условия автоматически подразумевают, что n>9 {\ displaystyle n>9}{\ displaystyle n>9} . С другой стороны, снова примените квадратный корень и разделите на 3,

n 3>1 - p p>0 и n 3>p 1 - p>0. {\ displaystyle {\ frac {\ sqrt {n}} {3}}>{\ sqrt {\ frac {1-p} {p}}}>0 \ quad {\ text {и}} \ quad {\ frac {\ sqrt {n}} {3}}>{\ sqrt {\ frac {p} {1-p}}}>0.}{\displaystyle {\frac {\sqrt {n}}{3}}>{\ sqrt {\ frac {1-p} { p}}}>0 \ quad {\ text {and}} \ quad {\ frac {\ sqrt {n}} {3}}>{\ sqrt {\ frac {p} {1-p}}}>0.}

Вычитание второго набора неравенств из первого дает:

n 3>1 - pp - p 1 - p>- n 3; {\ displaystyle {\ frac {\ sqrt {n}} {3}}>{\ sqrt {\ frac {1-p} {p}}} - {\ sqrt {\ frac {p} {1-p}}}>- {\ frac {\ sqrt {n}} {3}};}{\displaystyle {\frac {\sqrt {n}}{3}}>{\ sqrt {\ frac {1-p} {p}}} - {\ sqrt {\ frac {p} {1-p}}}>- {\ frac {\ sqrt {n}} {3} };}

и так желаемое первое правило удовлетворяется,

| 1 - p p - p 1 - p | < n 3. {\displaystyle \left|{\sqrt {\frac {1-p}{p}}}-{\sqrt {\frac {p}{1-p}}}\,\right|<{\frac {\sqrt {n}}{3}}.}{\ displaystyle \ left | {\ sqrt {\ frac {1-p} {p}}} - {\ sqrt {\ frac {p} {1-p}}} \, \ right | <{\ frac {\ sqrt {n}} {3}}.}
  • Another commonly used rule is that both values n p {\displaystyle np}np and n ( 1 − p) {\displaystyle n(1-p)}{\ displaystyle n (1-p)} must be greater than or equal to 5. However, the specific number varies from source to source, and depends on how good an approximation one wants. In particular, if one uses 9 instead of 5, the rule implies the results stated in the previous paragraphs.
[Proof]

Assume that both values n p {\displaystyle np}np and n ( 1 − p) {\displaystyle n(1-p)}{\ displaystyle n (1-p)} are greater than 9. Since 0 < p < 1 {\displaystyle 0{\ displaystyle 0 <p <1} , we easily have that

n p ≥ 9>9 ( 1 − p) and n ( 1 − p) ≥ 9>9 p. {\displaystyle np\geq 9>9(1-p)\quad {\text{and}}\quad n(1-p)\geq 9>9p.}{\ displaystyle np \ geq 9>9 (1-p) \ quad {\ text {and}} \ quad n (1-p) \ geq 9>9p.}

We only have to divide now by the respective factors p {\displaystyle p}p and 1 − p {\displaystyle 1-p}1-p , to deduce the alternative form of the 3-standard-deviation rule:

n>9 ( 1 − p p) and n>9 ( p 1 − p). {\displaystyle n>9\left({\frac {1-p}{p}}\right)\quad {\text{and}}\quad n>9\left({\frac {p}{1-p}}\right).}{\ displaystyle n>9 \ lef t ({\ frac {1-p} {p}} \ right) \ quad {\ text {and}} \ quad n>9 \ left ({\ frac {p} {1-p}} \ right). }

The following is an example of applying a continuity correction. Suppose one wishes to calculate Pr(X ≤ 8) for a binomial random variable X. If Y has a distribution given by the normal approximation, then Pr(X ≤ 8) is approximated by Pr(Y ≤ 8.5). The addition of 0.5 is the continuity correction; the uncorrected normal approximation gives considerably less accurate results.

This approximation, known as de Moivre–Laplace theorem, is a huge time-saver when undertaking calculations by hand (exact calculations with large n are very onerous); historically, it was the first use of the normal distribution, introduced in Abraham de Moivre 's book The Doctrine of Chances in 1738. Nowadays, it can be seen as a consequence of the central limit theorem since B(n, p) is a sum of n independent, identically distributed Bernoulli variables with parameter p. This fact is the basis of a hypothesis test, a "proportion z-test", for the value of p using x/n, the sample proportion and estimator of p, in a common test statistic.

For example, suppose one randomly samples n people out of a large population и спросите их, согласны ли они с определенным утверждением. Доля согласных, конечно, будет зависеть от выборки. Если бы группы из n человек отбирались повторно и действительно случайным образом, пропорции следовали бы приблизительному нормальному распределению со средним значением, равным истинной пропорции p согласия в популяции, и со стандартным отклонением σ = p (1 - p) n { \ displaystyle \ sigma = {\ sqrt {\ frac {p (1-p)} {n}}}}{\ displaystyle \ sigma = {\ sqrt {\ frac {p (1-p)} {n}}}}

приближение Пуассона

Биномиальное распределение сходится к распределению Пуассона поскольку количество попыток стремится к бесконечности, в то время как произведение np остается фиксированным или по крайней мере p стремится к нулю. Следовательно, распределение Пуассона с параметром λ = np можно использовать в качестве приближения к B (n, p) биномиального распределения, если n достаточно велико, а p достаточно мало. Согласно двум практическим правилам, это приближение является хорошим, если n ≥ 20 и p ≤ 0,05, или если n ≥ 100 и np ≤ 10.

Относительно точности пуассоновского приближения см. Novak, гл. 4 и ссылки в нем.

Предельные распределения

X - npnp (1 - p) { \ displaystyle {\ frac {X-np} {\ sqrt {np (1-p)}}}}{ \ frac {X-np} {\ sqrt {np (1-p)}}}
приближается к нормальному распределению с ожидаемым значением 0 и дисперсией 1. Этот результат иногда свободно формулируют, говоря, что распределение X является асимптотически нормальным с ожидаемым значением np и дисперсией np (1 - p). Этот результат является частным случаем центральной предельной теоремы.

Бета-распределение

Биномиальное распределение и бета-распределение - разные взгляды на одну и ту же модель повторных испытаний Бернулли. Биномиальное распределение - это PMF k успехов при независимых событиях, каждой с вероятностью успеха p. Математически, когда α = k + 1 и β = n - k + 1, бета-распределение и биномиальное распределение связаны коэффициентами n + 1:

Бета ⁡ (p; α; β) = (n + 1) Бином ⁡ ( к; n; p) {\ displaystyle \ operatorname {Beta} (p; \ alpha; \ beta) = (n + 1) \ operatorname {Binom} (k; n; p)}{\ displaystyle \ operatorname {Beta} (p; \ alpha; \ beta) = (n + 1) \ operatorname {Binom} (k; n; p)}

Бета-распределение также предоставит семейство априорных распределений вероятностей для биномиальных распределений в байесовском выводе :

P (p; α, β) = p α - 1 (1 - p) β - 1 B (α, β). {\ Displaystyle P (p; \ alpha, \ beta) = {\ frac {p ^ {\ alpha -1} (1-p) ^ {\ beta -1}} {\ mathrm {B} (\ alpha, \ beta)}}.}{\ displaystyle P (п; \ alpha, \ beta) = {\ frac {p ^ {\ alpha -1} (1-p) ^ {\ beta -1}} {\ mathrm {B} (\ alpha, \ beta)}}.}

При одинаковом априорном распределении апостериорное распределение вероятности успеха при независимых событиях с k наблюдаемыми успехами бета-распределением.

Вычислительные методы

Генерация биномиальных случайных величин

Методы генерации случайных чисел, где маргинальное распределение биномиальным распределением, хорошо известны.

Один из способов генерации случайные выборки из биномиального распределения заключается в использовании алгоритма инверсии. Для этого необходимо вычислить вероятность того, что Pr (X = k) для всех значений k от 0 до n. (Эти вероятности должны быть суммированы до значений, близкого к единице, чтобы охватить все пространство генератор отсчетов.) Используя использование псевдослучайных чисел для генерации отсчетов равномерно между 0 и 1, можно преобразовать вычисленные отсчеты на дискретные числа, используя вероятности, вычисленные на первом этапе.

История

Это распределение было получено Джейкобом Бернулли. Он рассмотрел случай, когда p = r / (r + s), где p - вероятность успеха, а r и s - положительные целые числа. Блез Паскаль ранее рассматривал случай, когда p = 1/2.

См. Также

  • значок Портал математики

Ссылки

Дополнительная литература

Внешние ссылки

Викискладе есть медиафайлы, связанные с биномиальным распределением.
Последняя правка сделана 2021-05-12 06:35:52
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте