Мультиномиальное распределение

редактировать
Полиномиальный
Параметры п gt; 0 {\ displaystyle ngt; 0}количество испытаний ( целое число ) вероятности события () п 1 , , п k {\ displaystyle p_ {1}, \ ldots, p_ {k}} Σ п я знак равно 1 {\ displaystyle \ Sigma p_ {i} = 1}
Служба поддержки Икс я { 0 , , п } , я { 1 , , k } , с участием я Икс я знак равно п {\ displaystyle x_ {i} \ in \ {0, \ dots, n \}, \, \, \, \, i \ in \ {1, \ dots, k \}, \, {\ textrm {with} } \ sum _ {i} x_ {i} = n} {\ displaystyle \!}
PMF п ! Икс 1 ! Икс k ! п 1 Икс 1 п k Икс k {\ displaystyle {\ frac {n!} {x_ {1}! \ cdots x_ {k}!}} p_ {1} ^ {x_ {1}} \ cdots p_ {k} ^ {x_ {k}}}
Иметь в виду E ( Икс я ) знак равно п п я {\ displaystyle \ operatorname {E} (X_ {i}) = np_ {i}}
Дисперсия Вар ( Икс я ) знак равно п п я ( 1 - п я ) {\ displaystyle \ operatorname {Var} (X_ {i}) = np_ {i} (1-p_ {i})} Cov ( Икс я , Икс j ) знак равно - п п я п j     ( я j ) {\ displaystyle \ operatorname {Cov} (X_ {i}, X_ {j}) = - np_ {i} p_ {j} ~~ (i \ neq j)}
Энтропия - бревно ( п ! ) - п я знак равно 1 k п я бревно ( п я ) + я знак равно 1 k Икс я знак равно 0 п ( п Икс я ) п я Икс я ( 1 - п я ) п - Икс я бревно ( Икс я ! ) {\ displaystyle - \ log (n!) - n \ sum _ {i = 1} ^ {k} p_ {i} \ log (p_ {i}) + \ sum _ {i = 1} ^ {k} \ сумма _ {x_ {i} = 0} ^ {n} {\ binom {n} {x_ {i}}} p_ {i} ^ {x_ {i}} (1-p_ {i}) ^ {n- x_ {i}} \ log (x_ {i}!)}
MGF ( я знак равно 1 k п я е т я ) п {\ displaystyle {\ biggl (} \ сумма _ {я = 1} ^ {k} p_ {i} e ^ {t_ {i}} {\ biggr)} ^ {n}}
CF ( j знак равно 1 k п j е я т j ) п {\ displaystyle \ left (\ sum _ {j = 1} ^ {k} p_ {j} e ^ {it_ {j}} \ right) ^ {n}} где я 2 знак равно - 1 {\ displaystyle i ^ {2} = - 1}
PGF ( я знак равно 1 k п я z я ) п  для  ( z 1 , , z k ) C k {\ displaystyle {\ biggl (} \ sum _ {i = 1} ^ {k} p_ {i} z_ {i} {\ biggr)} ^ {n} {\ text {for}} (z_ {1}, \ ldots, z_ {k}) \ in \ mathbb {C} ^ {k}}

В теории вероятностей, то мультиномиальная распределение является обобщением биномиального распределения. Например, он моделирует вероятность подсчетов для каждой стороны k- стороннего кубика, брошенного n раз. Для n независимых испытаний, каждое из которых приводит к успеху ровно для одной из k категорий, причем каждая категория имеет заданную фиксированную вероятность успеха, полиномиальное распределение дает вероятность любой конкретной комбинации количества успехов для различных категорий.

Когда k равно 2, а n равно 1, полиномиальное распределение является распределением Бернулли. Когда k равно 2, а n больше 1, это биномиальное распределение. Когда k больше 2, а n равно 1, это категориальное распределение.

Распределение Бернулли моделирует результат одного испытания Бернулли. Другими словами, он моделирует, приведет ли один раз подбрасывание (возможно, смещенной ) монеты либо к успеху (получение головы), либо к неудаче (получение хвоста). Биномиальное распределение обобщает это количество головок от выполнения п независимых щелчков (Бернулли) одной и той же монеты. Полиномиальное распределение моделирует результат n экспериментов, где результат каждого испытания имеет категориальное распределение, например, n раз бросание k- стороннего кубика.

Пусть k - фиксированное конечное число. Математически у нас есть k возможных взаимоисключающих исходов с соответствующими вероятностями p 1,..., p k и n независимых испытаний. Так как k исходов являются взаимоисключающими и один должен произойти, мы имеем p i  ≥ 0 для i  = 1,...,  k и. Тогда, если случайные величины X i указывают, сколько раз результат номер i наблюдался в течение n испытаний, вектор X  = ( X 1,...,  X k) следует полиномиальному распределению с параметрами n и p, где p  = ( p 1,...,  p k). Хотя испытания независимы, их результаты X зависят, потому что они должны быть суммированы до n. я знак равно 1 k п я знак равно 1 {\ Displaystyle \ сумма _ {я = 1} ^ {к} р_ {я} = 1}

СОДЕРЖАНИЕ

  • 1 Определения
    • 1.1 Вероятностная функция масс
    • 1.2 Пример
  • 2 свойства
    • 2.1 Ожидаемое значение и отклонение
    • 2.2 Матричные обозначения
    • 2.3 Визуализация
      • 2.3.1 Как срезы обобщенного треугольника Паскаля
      • 2.3.2 Как полиномиальные коэффициенты
  • 3 Связанные дистрибутивы
  • 4 Статистический вывод
    • 4.1 Тесты эквивалентности полиномиальных распределений
  • 5 Вычислительные методы
    • 5.1 Выборка из полиномиального распределения
    • 5.2 Моделирование из полиномиального распределения
  • 6 Ссылки
    • 6.1 Цитаты
    • 6.2 Источники

Определения

Вероятностная функция масс

Предположим, кто-то проводит эксперимент по извлечению n шаров k разных цветов из мешка, заменяя извлеченные шары после каждого розыгрыша. Шары одного цвета эквивалентны. Обозначим переменную, которая представляет собой количество извлеченных шаров цвета i ( i = 1,..., k), как X i, а через p i обозначим вероятность того, что данное извлечение будет цвета i. Функция массы вероятности этого полиномиального распределения:

ж ( Икс 1 , , Икс k ; п , п 1 , , п k ) знак равно Pr ( Икс 1 знак равно Икс 1  а также   а также  Икс k знак равно Икс k ) знак равно { п ! Икс 1 ! Икс k ! п 1 Икс 1 × × п k Икс k , когда  я знак равно 1 k Икс я знак равно п 0 иначе, {\ displaystyle {\ begin {align} f (x_ {1}, \ ldots, x_ {k}; n, p_ {1}, \ ldots, p_ {k}) amp; {} = \ Pr (X_ {1} = x_ {1} {\ text {and}} \ dots {\ text {and}} X_ {k} = x_ {k}) \\ amp; {} = {\ begin {cases} {\ displaystyle {n! \ over x_ {1}! \ cdots x_ {k}!} p_ {1} ^ {x_ {1}} \ times \ cdots \ times p_ {k} ^ {x_ {k}}}, \ quad amp; {\ текст {когда}} \ sum _ {i = 1} ^ {k} x_ {i} = n \\\\ 0 amp; {\ text {в противном случае}} \ end {case}} \ end {выровнено}}}

для целых неотрицательных чисел x 1,..., x k.

Функция массы вероятности может быть выражена с помощью гамма-функции как:

ж ( Икс 1 , , Икс k ; п 1 , , п k ) знак равно Γ ( я Икс я + 1 ) я Γ ( Икс я + 1 ) я знак равно 1 k п я Икс я . {\ displaystyle f (x_ {1}, \ dots, x_ {k}; p_ {1}, \ ldots, p_ {k}) = {\ frac {\ Gamma (\ sum _ {i} x_ {i} + 1)} {\ prod _ {i} \ Gamma (x_ {i} +1)}} \ prod _ {i = 1} ^ {k} p_ {i} ^ {x_ {i}}.}

Эта форма показывает свое сходство с распределением Дирихле, которое является его сопряженным априорным.

Пример

Предположим, что на трехсторонних выборах в большой стране кандидат A получил 20% голосов, кандидат B получил 30% голосов, а кандидат C получил 50% голосов. Если шесть избирателей выбраны случайным образом, какова вероятность того, что в выборке будет ровно один сторонник кандидата A, два сторонника кандидата B и три сторонника кандидата C?

Примечание. Поскольку мы предполагаем, что число голосующих велико, разумно и допустимо считать вероятности неизменными после того, как избиратель будет выбран для выборки. Технически говоря, это выборка без замены, поэтому правильным распределением является многомерное гипергеометрическое распределение, но распределения сходятся по мере роста населения.

Pr ( А знак равно 1 , B знак равно 2 , C знак равно 3 ) знак равно 6 ! 1 ! 2 ! 3 ! ( 0,2 1 ) ( 0,3 2 ) ( 0,5 3 ) знак равно 0,135 {\ Displaystyle \ Pr (A = 1, B = 2, C = 3) = {\ frac {6!} {1! 2! 3!}} (0,2 ^ {1}) (0,3 ^ {2}) ( 0,5 ^ {3}) = 0,135}

Характеристики

Ожидаемое значение и отклонение

Ожидается, сколько раз исход я наблюдали в течение п испытаний является

E ( Икс я ) знак равно п п я . {\ displaystyle \ operatorname {E} (X_ {i}) = np_ {i}. \,}

Ковариационная матрица выглядит следующим образом. Каждая диагональная запись представляет собой дисперсию биномиально распределенной случайной величины и, следовательно, является

Вар ( Икс я ) знак равно п п я ( 1 - п я ) . {\ displaystyle \ operatorname {Var} (X_ {i}) = np_ {i} (1-p_ {i}). \,}

Недиагональные записи - это ковариации :

Cov ( Икс я , Икс j ) знак равно - п п я п j {\ displaystyle \ operatorname {Cov} (X_ {i}, X_ {j}) = - np_ {i} p_ {j} \,}

для i, j различны.

Все ковариации отрицательны, поскольку при фиксированном n увеличение одного компонента полиномиального вектора требует уменьшения другого компонента.

Когда эти выражения объединяются в матрицу с элементами i, j, результатом является положительно-полуопределенная ковариационная матрица k × k ранга k  - 1. В особом случае, когда k  =  n и где все p i равны, ковариация матрица - это центрирующая матрица. cov ( Икс я , Икс j ) , {\ displaystyle \ operatorname {cov} (X_ {i}, X_ {j}),}

Элементы соответствующей корреляционной матрицы :

ρ ( Икс я , Икс я ) знак равно 1. {\ displaystyle \ rho (X_ {i}, X_ {i}) = 1.}
ρ ( Икс я , Икс j ) знак равно Cov ( Икс я , Икс j ) Вар ( Икс я ) Вар ( Икс j ) знак равно - п я п j п я ( 1 - п я ) п j ( 1 - п j ) знак равно - п я п j ( 1 - п я ) ( 1 - п j ) . {\ displaystyle \ rho (X_ {i}, X_ {j}) = {\ frac {\ operatorname {Cov} (X_ {i}, X_ {j})} {\ sqrt {\ operatorname {Var} (X_ { i}) \ operatorname {Var} (X_ {j})}}} = {\ frac {-p_ {i} p_ {j}} {\ sqrt {p_ {i} (1-p_ {i}) p_ { j} (1-p_ {j})}}} = - {\ sqrt {\ frac {p_ {i} p_ {j}} {(1-p_ {i}) (1-p_ {j})}} }.}

Обратите внимание, что размер выборки выпадает из этого выражения.

Каждый из k компонентов в отдельности имеет биномиальное распределение с параметрами n и p i для соответствующего значения индекса i.

Поддержка из полиномиального распределения является множество

{ ( п 1 , , п k ) N k п 1 + + п k знак равно п } . {\ displaystyle \ {(n_ {1}, \ dots, n_ {k}) \ in \ mathbb {N} ^ {k} \ mid n_ {1} + \ cdots + n_ {k} = n \}. \,}

Количество его элементов

( п + k - 1 k - 1 ) . {\ displaystyle {n + k-1 \ select k-1}.}

Матричные обозначения

В матричных обозначениях

E ( Икс ) знак равно п п , {\ Displaystyle \ OperatorName {E} (\ mathbf {X}) = п \ mathbf {p}, \,}

а также

Вар ( Икс ) знак равно п { диагональ ( п ) - п п Т } , {\ displaystyle \ operatorname {Var} (\ mathbf {X}) = n \ lbrace \ operatorname {diag} (\ mathbf {p}) - \ mathbf {p} \ mathbf {p} ^ {\ rm {T}} \ rbrace, \,}

где p T = вектор-строка, транспонированный вектор-столбец p.

Визуализация

Как срезы обобщенного треугольника Паскаля

Точно так же, как можно интерпретировать биномиальное распределение как (нормализованные) одномерные (1D) срезы треугольника Паскаля, можно также интерпретировать полиномиальное распределение как 2D (треугольные) срезы пирамиды Паскаля или 3D / 4D / + (пирамида- shape) срезы многомерных аналогов треугольника Паскаля. Это показывает интерпретацию диапазона распределения: дискретизированные равносторонние «пирамиды» в произвольной размерности, то есть симплекс с сеткой.

Как полиномиальные коэффициенты

Точно так же, как можно интерпретировать биномиальное распределение как полиномиальные коэффициенты при расширении, можно интерпретировать полиномиальное распределение как коэффициенты при расширении. (Обратите внимание, что, как и в случае биномиального распределения, коэффициенты должны в сумме равняться 1.) Отсюда и произошло название « полиномиальное распределение». ( п + ( 1 - п ) ) п {\ Displaystyle (п + (1-р)) ^ {п}} ( п 1 + п 2 + п 3 + + п k ) п {\ displaystyle (p_ {1} + p_ {2} + p_ {3} + \ cdots + p_ {k}) ^ {n}}

Связанные дистрибутивы

В некоторых областях, таких как обработка естественного языка, категориальные и полиномиальные распределения являются синонимами, и обычно говорят о полиномиальном распределении, когда фактически имеется в виду категориальное распределение. Это связано с тем, что иногда удобно выразить результат категориального распределения как вектор «1 из K» (вектор с одним элементом, содержащим 1, а все остальные элементы содержат 0), а не как целое число. в ассортименте ; в этой форме категориальное распределение эквивалентно полиномиальному распределению по одному испытанию. 1 K {\ displaystyle 1 \ dots K}

Статистические выводы

Тесты эквивалентности для полиномиальных распределений

Цель проверки эквивалентности - установить соответствие между теоретическим полиномиальным распределением и наблюдаемой частотой счета. Теоретическое распределение может быть полностью заданным полиномиальным распределением или параметрическим семейством полиномиальных распределений.

Позвольте обозначить теоретическое полиномиальное распределение и позвольте быть истинным основным распределением. Распределения и считаются эквивалентными, если для параметра расстояния и допуска. Задача проверки эквивалентности - против. Истинное основное распределение неизвестно. Вместо этого наблюдаются частоты подсчета, где - размер выборки. Для отклонения используется тест на эквивалентность. Если можно отклонить, то эквивалентность между и отображается на заданном уровне значимости. Тест эквивалентности для евклидова расстояния можно найти в учебнике Веллека (2010). Тест эквивалентности для общей дистанции вариации разработан в Ostrovski (2017). Точный критерий эквивалентности для конкретного кумулятивного расстояния предложен Фреем (2009). q {\ displaystyle q} п {\ displaystyle p} п {\ displaystyle p} q {\ displaystyle q} d ( п , q ) lt; ε {\ Displaystyle д (р, д) lt;\ varepsilon} d {\ displaystyle d} ε gt; 0 {\ displaystyle \ varepsilongt; 0} ЧАС 0 знак равно { d ( п , q ) ε } {\ Displaystyle H_ {0} = \ {d (p, q) \ geq \ varepsilon \}} ЧАС 1 знак равно { d ( п , q ) lt; ε } {\ Displaystyle H_ {1} = \ {d (p, q) lt;\ varepsilon \}} п {\ displaystyle p} п п {\ displaystyle p_ {n}} п {\ displaystyle n} п п {\ displaystyle p_ {n}} ЧАС 0 {\ displaystyle H_ {0}} ЧАС 0 {\ displaystyle H_ {0}} п {\ displaystyle p} q {\ displaystyle q}

Расстояние между истинным основным распределением и семейством полиномиальных распределений определяется как. Тогда задача проверки эквивалентности задается выражениями и. Расстояние обычно вычисляется с помощью численной оптимизации. Тесты для этого случая недавно были разработаны Островским (2018). п {\ displaystyle p} M {\ Displaystyle {\ mathcal {M}}} d ( п , M ) знак равно мин час M d ( п , час ) {\ displaystyle d (p, {\ mathcal {M}}) = \ min _ {h \ in {\ mathcal {M}}} d (p, h)} ЧАС 0 знак равно { d ( п , M ) ε } {\ displaystyle H_ {0} = \ {d (p, {\ mathcal {M}}) \ geq \ varepsilon \}} ЧАС 1 знак равно { d ( п , M ) lt; ε } {\ Displaystyle H_ {1} = \ {d (p, {\ mathcal {M}}) lt;\ varepsilon \}} d ( п , M ) {\ displaystyle d (p, {\ mathcal {M}})}

Вычислительные методы

Выборка из полиномиального распределения

Во-первых, измените порядок параметров таким образом, чтобы они были отсортированы в порядке убывания (это только для ускорения вычислений и не является строго необходимым). Теперь для каждого испытания возьмите вспомогательную переменную X из равномерного (0, 1) распределения. Результирующий результат - это компонент п 1 , , п k {\ displaystyle p_ {1}, \ ldots, p_ {k}}

j знак равно мин { j { 1 , , k } : ( я знак равно 1 j п я ) - Икс 0 } . {\ displaystyle j = \ min \ left \ {j '\ in \ {1, \ dots, k \}: \ left (\ sum _ {i = 1} ^ {j'} p_ {i} \ right) - X \ geq 0 \ right \}.}

{ X j = 1, X k = 0 для k  ≠  j } - одно наблюдение из полиномиального распределения с и n  = 1. Сумма независимых повторений этого эксперимента представляет собой наблюдение из полиномиального распределения с n, равным количеству такие повторы. п 1 , , п k {\ displaystyle p_ {1}, \ ldots, p_ {k}}

Для моделирования из полиномиального распределения

Для моделирования из полиномиального распределения могут использоваться различные методы. Очень простое решение - использовать однородный генератор псевдослучайных чисел на (0,1). Сначала мы разделим интервал (0,1) на  k подинтервалов, длина которых равна вероятностям k категорий. Затем мы генерируем n независимых псевдослучайных чисел, чтобы определить, в каком из k интервалов они встречаются, и подсчитать количество появлений в каждом интервале.

Пример

Если мы имеем:

Категории 1 2 3 4 5 6
Вероятности 0,15 0,20 0,30 0,16 0,12 0,07
Верхние пределы подынтервалов 0,15 0,35 0,65 0,81 0,93 1,00

Затем с помощью такого программного обеспечения, как Excel, мы можем использовать следующий рецепт:

Ячейки: Ай Би Ci ... Gi
Формулы: Рэнд () = Если ($ Ai lt;0,15; 1; 0) = Если (И ($ Aigt; = 0,15; $ Ai lt;0,35); 1; 0) ... = Если ($ Aigt; = 0,93; 1; 0)

После этого мы будем использовать такие функции, как SumIf, чтобы накапливать наблюдаемые результаты по категориям и вычислять оценочную матрицу ковариации для каждой моделируемой выборки.

Другой способ - использовать дискретный генератор случайных чисел. В этом случае категории должны быть помечены или переименованы числовыми значениями.

В обоих случаях результатом является полиномиальное распределение с k категориями. Это эквивалентно непрерывному случайному распределению для моделирования k независимых стандартизованных нормальных распределений или мультинормальному распределению N (0, I), имеющему k компонентов, одинаково распределенных и статистически независимых.

Поскольку количество всех категорий должно быть суммировано с количеством испытаний, количество категорий всегда имеет отрицательную корреляцию.

Рекомендации

Цитаты

Источники

Последняя правка сделана 2023-03-31 05:17:05
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте