Распределение вероятностей
Распределение ДирихлеФункция плотности вероятности |
Параметры | количество категорий (целое число ). параметры концентрации, где |
---|
Поддержка | где и |
---|
PDF | . где . где |
---|
Среднее | . . (см. функция дигамма ) |
---|
Режим | |
---|
Дисперсия | . где и |
---|
Энтропия | . с определено как для дисперсии, выше. |
---|
В вероятности и статистике, распределение Дирихле (после Питер Густав Лежен Дирихле ), часто обозначаемый , является семейством непрерывных многомерное распределения вероятностей, параметризованные вектором положительных реалов. Это многомерное обобщение бета-распределения , отсюда и его альтернативное название многомерное бета-распределение (MBD) . Распределения Дирихле обычно используются в качестве априорных распределений в байесовской статистике, и фактически распределение Дирихле является сопряженным априорным для категориального распределения и полиномиальное распределение.
Бесконечным распределением распределения Дирихле является процесс Дирихле.
Содержание
- 1 Функция плотности вероятности
- 1.1 Поддержка
- 1.2 Особые случаи
- 2 Свойства
- 2.1 Моменты
- 2.2 Режим
- 2.3 Маржинальные распределения
- 2.4 Сопряжение с категориальным / полиномиальным
- 2.5 Связь с полиномиальным распределением Дирихле
- 2.6 Энтропия
- 2.7 Агрегация
- 2.8 Нейтральность
- 2.9 Характеристическая функция
- 2.10 Неравенство
- 3 Связанные распределения
- 3.1 Сопряженный априор распределения Дирихле
- 4 Приложения
- 5 Генерация случайных чисел
- 5.1 Гамма-распределение
- 5.2 Предельные бета-распределения
- 6 Интуитивная интерпретация параметров
- 6.1 Параметр концентрации
- 6.2 Обрезка струны
- 6.3 Урна Поли
- 7 См. также
- 8 Ссылки
- 9 Внешние ссылки
Функция вероятностной плотности
Показывает, как изменяется логарифм функции плотности при K = 3, когда мы меняем вектор α с α = (0,3, 0,3, 0,3) на (2,0, 2,0, 2,0), сохраняя все индивидуальные
равны друг другу.
Распределение Дирихле порядка K ≥ 2 с предусмотренными α 1,..., α K>0 имеет функция плотности вероятности относительно меры Лебега на евклидовом пространстве R, заданной как
- где принадлежат стандарту симплекс, или другими словами:
Нормализующая константа - это многомерная бета-функция, которая может быть выражена через гамма-функ ция :
Поддержка
Поддержка Дирихле - это набор K-мерных векторов , элементы которых являются действующими числами в интервале (0,1), такие, что , т.е. сумма равна 1. Их можно рассматривать как вероятности K-way категориального события. Другой способ выразить это в том, что область распределения Дирихле сама по себе является набором распределений вероятностей, в частности, набором K-мерных дискретных распределений. Технический термин для обозначения точек набора в поддержке K-мерного распределения Дирихле - это open стандартный (K - 1) -симплекс, который является обобщением треугольник, вложенный в более высокое измерение. Например, при K = 3 опора представляет собой равносторонний треугольник , внедренный под углом вниз в трехмерное пространство с вершинами в точках (1,0,0), (0,1,0) и (0,0, 1), т.е. касание каждой из координатных осей в точке на 1 единицу от начала координат.
Особые случаи
Распространенным частным случаем симметричное распределение Дирихле, где все элементы, составляющие векторные параметры имеют то же значение. Симметричный случай может быть полезен, например, когда требуется приоритет Дирихле над компонентами, но нет предварительных знаний о предпочтении одного компонента перед другими. Все элементы изображения имеют одинаковое значение, симметричное распределение Дирихле может быть параметризовано одним скалярным размером α, называемым параметром концентрации. В терминах α функция плотности имеет вид
Когда α = 1, симметричное распределение Дирихле эквивалентно равномерному распределению по открытому стандарту (K - 1) -симплекс, т.е. он однороден по всем точкам в своей опоре . Это конкретное распределение известно как плоское распределение Дирихле . Значения концентрации выше 1 предпочитают варианты, которые позволяют себе плотные, равномерно распределенные распределения, то есть все значения в образце друг другу. Значения концентрации ниже 1 предпочитают разреженные распределения, то есть большинство значений в пределах одного образца будут близки к 0, а подавляющая часть массы будет сосредоточена в нескольких значениях.
В более общем смысле вектор параметров иногда записывается как произведение из (скаляр ) учитываем α и a (вектор ) где лежит в пределах (K - 1) - симплекс (то есть: его координаты суммируются с единицей). Параметр в этом случае в K раз больше, чем параметр для вышеописанного распределения Дирихле. Эта конструкция используется с тематической системой при обсуждении Процессы Дирих и часто используется в литературе по определенному моделированию.
- ^Если мы определим размер распределения, размер распределения Дирихле с параметром концентрации, будет равномерным распределением на (K - 1) -симплексе.
Свойства
Моменты
Пусть .
Пусть
Тогда
Кроме того, если
Определенная таким образом матрица является сингулярной.
В более общем смысле могут моменты случайных величин, распределенных по Дирихле, быть выражены как
Режим
Режим распределение - это вектор (x 1,..., x K) с
Маржинальные распределения>
предельные распределения - это бета-распределение :
Сопряжение с категориальным / полиномиальным
Распределение Дирихле - это сопряженное предварительное распределение категориального распределения (общее дискретное распределение вероятностей с заданным числом полученных исходов) и полиномиальное распределение (распределение по имеющимся количествам каждой возможной категории в наборе категориально распределенных Наблюдение за вектором n распределения (ве). роятностей, который генерирует точку данных) распределяется как Дирихле, апостериорное распределение параметр также является Дирихле. Интуитивно в таком случае, начиная с того, что мы знаем параметры до наблюдения за точкой данных, мы можем обновить наши знания на основе точки данных и получить новое распределение той же формы, что и старое. Это означает, что мы можем обновлять наши знания о параметрах, добавляя новые наблюдения по одному, не сталкиваясь с математическими трудностями.
Формально это можно выразить следующим образом. Для модели
то имеет место следующее:
Это соотношение используется в байесовской статистике для оценки основного агентства p для категориального распределения с учетом набора из N выборок. Интуитивно мы можем рассматривать вектор hyperprior α как псевдосчет, то есть представление количества наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем счетчики для всех новых наблюдений (вектор c ), чтобы получить апостериорное распределение.
В байесовских моделях смесей и других иерархических байесовских моделях с компонентами распределения качестве Дирихле обычно используются в априорных распределениях для категориальных переменных появляясь в моделях. См. Раздел приложения ниже для стабильной информации.
Связь с полиномиальным распределением Дирихле
В модели, в которой априорное распределение Дирихле помещается на набор категориально-значных наблюдений, маргинальное совместное распределение наблюдений (т. Е. Совместное распределение наблюдений с маргинализованным предыдущим параметром ) полиномиальным распределением Дирихле. Использование таких методов, как выборка Гиббса или вариант байесовской, использует эту модель играет важную роль в иерархических байесовских моделях, которые используются при выполнении вывода по таким моделям. модель, Априорные распределения Дирихле часто не учитываются. См. Статью об этом дистрибутиве для более подробной информации.
Энтропия
Если X является случайной величиной Dir (α), дифференциальная энтропия X (в натуральных единицах ) составляет
где - это дигамма-функция.
Следующая формула для может получить статус дифференциала энтропии выше. Функции времени достаточной статистикой распределения Дирихле, дифференциальные тождества экспоненциальных семейств может быть выбор для аналитического выражения для математического ожидания и состав с ним ковариационной матрицы:
и
где - это функция дигаммы, - это тригамма-функция, а - дельта Кронекера.
Спектр информации Реньи для значений, отличных от задается как
, а энтропия информации является предел как переходит к 1.
Другой связанный интересный показатель - энтропия дискретного категориального (двоичного из K двоичных) вектора с вероятностно-массовым распределением , т.е. . Условная информационная энтропия из , заданная равно
Эта функция - скалярная случайная величина. Если имеет симметричное распределение Дирихле со всеми , ожидаемое значение энтропии (в натуральных единицах ) равно
Агрегация
Если
тогда, если случайные значения сумм индексами i и j исключены из вектора и заменены их суммой,
Это свойство агрегирования может быть получение предельного распределения упомянутый выше.
Нейтралитет
Если , то вектор X называется нейтральным в том смысле, что X K не зависит от где
и аналогично для удаления любого из . Обратите внимание, что любая перестановка X также нейтральна (свойство, которым не обладают взятые из обобщенного распределения Дирихле ).
Объединяя это со своим агрегации, следует, что X j +... + X K не зависит от . Более того, для распределения Дирихле верно, что для , пара , и два вектора и , рассматриваемый как тройка нормализованных случайных векторов, взаимно независимы. Аналогичный результат верен для разбиения индексов {1,2,..., K} на любую другую пару неодноэлементных подмножеств.
Характеристическая функция
Характеристическая функция распределения Дирихле - это конфлюэнтная форма гипергеометрического ряда по Лауричелле. Он задается формулой Филлипс as
где и
Сумма превышает неотрицательные целые числа и . Филлипс далее заявляет, что эта форма «неудобна для численных расчетов» и дает альтернативу в терминах комплексного интеграла по путям :
где L обозначает любой путь в комплексной плоскости, начинающийся в , охватывающий в положительном направлении все особенности подынтегрального выражения и возвращение к .
Неравенство
Функция плотности вероятности играет ключевую роль в многофункциональном неравенстве, которое подразумевает различные границы для распределения Дирихле.
Родственные распределения
Для K независимо распределенных Ga Распределения ММА :
имеем:
Хотя X i s не являются независимыми друг от друга, как видно, они генерируются из набора K независимых случайных величин гамма. К сожалению, поскольку сумма V теряется при формировании X (фактически можно показать, что V стохастически не зависит от X), невозможно восстановить исходные гамма-случайные величины только по этим значениям. Тем не менее, поскольку с независимыми случайными величинами проще работать, эта репараметризация может быть полезна для доказательства свойств распределения Дирихле.
Конъюгированный априор распределения Дирихле
Поскольку распределение Дирихле является экспоненциальным семейным распределением, оно имеет конъюгированный априор. Сопряженный априор имеет вид:
Здесь - вещественный вектор размерности K, а - скалярный параметр. Область ограничена набором параметров, для которых указанная выше ненормализованная функция плотности может быть нормализована. (Необходимое и достаточное) условие:
Свойство сопряжения может быть выражено как
- , если [предшествующее: ] и [наблюдение: ], затем [апостериор: ].
В опубликованной литературе не существует практического алгоритма для эффективного создания образцов с .
Приложения
Распределения Дирихле чаще всего используются в качестве априорного распределения из категориальные переменные или полиномиальные переменные в байесовских смешанных моделях и других иерархических байесовских моделях. (Во многих областях, таких как обработка естественного языка, категориальные переменные часто неточно называют «полиномиальными переменными». Такое использование вряд ли вызовет путаницу, как и в случае распределения Бернулли и биномиальные распределения обычно объединяются.)
Вывод по иерархическим байесовским моделям часто выполняется с использованием выборки Гиббса, и в таком случае обычно используются экземпляры распределения Дирихле. исключил модель, интегрировав случайную величину Дирихле . Это приводит к тому, что различные категориальные переменные, взятые из одной и той же случайной величины Дирихле, становятся коррелированными, и совместное распределение по ним предполагает полиномиальное распределение Дирихле, обусловленное гиперпараметрами распределения Дирихле (концентрация параметры ). Одна из причин для этого состоит в том, что выборка Гиббса для полиномиального распределения Дирихле чрезвычайно проста; см. эту статью для получения дополнительной информации.
Генерация случайных чисел
Гамма-распределение
С источником случайных величин с гамма-распределением можно легко выбрать случайный вектор из K-мерного распределения Дирихле с параметрами . Сначала нарисуйте K независимых случайных выборок из гамма-распределений, каждая с плотность
и затем установите
Доказательство
Соединение распределение определяется по формуле
Затем используется замена переменных, параметризация в терминах and , and performs a change of variables from such that
One must then u se the change of variables formula, in which is the transformation Jacobian.
Writing y explicitly as a function of x, one obtains
The Jacobian now looks like
The determinant can be evaluated by noting that it remains unchanged if multiples of a row are added to another row, and adding each of the first K-1 rows to the bottom row to obtain
which can be expanded about the bottom row to obtain
Substituting for x in the joint pdf and including the Jacobian, one obtains:
Each of the variables and likewise .
Finally, integrate out the extra degree of freedom and one obtains:
Which is equivalent to
- with support
Below is example Python code to draw образец:
params = [a1, a2,..., ak] sample = [random.gammavariate (a, 1) for a in params] sample = [v / sum (sample) for v in sample]
Эта формулировка верна независимо от того, как параметризованы гамма-распределения (форма / масштаб против формы / скорости), потому что они эквивалентны, когда масштаб и коэффициент равны 1,0.
Маржинальные бета-распределения
Менее эффективный алгоритм полагается на одномерные маргинальные и условные распределения, являющиеся бета-версией, и действует следующим образом. Смоделировать из
Затем смоделируйте в следующем порядке. Для смоделировать из
и пусть
Наконец, установите
Эта итеративная процедура близко соответствует интуиции «разрезания строки», описанной ниже.
Ниже приведен пример кода Python для построения образца:
params = [a1, a2,..., ak] xs = [random.betavariate (params [0], sum (params [1: ]))] для j в диапазоне (1, len (params) - 1): phi = random.betavariate (params [j], sum (params [j + 1:])) xs.append ((1 - sum ( xs)) * phi) xs.append (1 - sum (xs))
Интуитивная интерпретация параметров
Параметр концентрации
Распределения Дирихле очень часто используются как предшествующие распределения в Байесовский вывод. Самым простым и наиболее распространенным типом априорного распределения является симметричное распределение Дирихле, в котором все параметры. Это соответствует случаю, когда у вас нет предварительной информации о предпочтении одного компонента перед любым другим. Как описано выше, единственное значение α, на которое устанавливаются все параметры, называется параметром концентрации. Если пространство выборки распределения Дирихле интерпретируется как дискретное распределение вероятностей, то интуитивно параметр можно рассматривать как определяющий, насколько «концентрированная» вероятностная масса образца из распределения Дирихле может быть. При значении намного меньше 1 масса будет сильно сконцентрирована нескольких компонентов, а все остальные почти не будут иметь массы. При значении намного больше 1 масса будет почти одинаково распределена между всеми компонентами. См. Статью о параметре концентрации для дальнейшего обсуждения.
Нарезка струны
Один из примеров использования распределения Дирихле - это если нужно разрезать струны (каждая с начальной длиной 1,0) на K частей с разной длиной, где каждая часть имеет обозначенную среднюю длину, но допускает некоторые различия в относительных размерах деталей. Значения α / α 0 определяют средние длины отрезанных кусков струны, полученные в результате распределения. Дисперсия этого среднего значения обратно пропорциональна α 0.
Рассмотрим урну, содержащую K шариков разных цветов. Изначально урна содержит α 1 шариков цвета 1, α 2 шариков цвета 2 и т. Д. Теперь выполните N розыгрышей из урны, при этом после каждой розыгрыша мяч помещается обратно в урну с дополнительным мячом того же цвета. В пределе, когда приближается к бесконечности, пропорции шаров разного цвета в урне будут распределены как Dir (α 1,..., α K).
Для формального доказательства обратите внимание, что пропорции шары разного цвета образуют ограниченный [0,1] -значный мартингал, следовательно, по теореме о сходимости мартингалов эти пропорции сходятся почти наверняка и в среднем к ограничивающему Чтобы увидеть, что этот ограничивающий вектор имеет вышеупомянутое распределение Дирихле, убедитесь, что все смешанные моменты совпадают.
Каждое извлечение из урны изменяет вероятность извлечения любого цвета из урны в будущем.
См. Также
Ссылки
Внешние