Выборка по важности

редактировать
метод оценки распределения

В статистике выборка по важности общий метод оценки свойств конкретного распределения, имея только выборки, сгенерированные из другого распределения, чем интересующее распределение. Это связано с зонтичной выборкой в вычислительной физике. В зависимости от приложения этот термин может относиться к процессу выборки из этого альтернативного распределения, процессу вывода или тому и другому.

Содержание
  • 1 Базовая теория
  • 2 Применение к вероятностному выводу
  • 3 Применение к моделированию
    • 3.1 Математический подход
    • 3.2 Традиционные методы смещения
      • 3.2.1 Масштабирование
      • 3.2. 2 Перевод
    • 3.3 Влияние сложности системы
    • 3.4 Функция стоимости отклонения
  • 4 См. Также
  • 5 Примечания
  • 6 Ссылки
  • 7 Внешние ссылки
Базовая теория

Пусть X: Ω → R {\ displaystyle X: \ Omega \ to \ mathbb {R}}X: \ Omega \ to {\ mathbb {R}} будет случайной величиной в некотором вероятностном пространстве (Ω, F, P) {\ displaystyle (\ Omega, {\ mathcal {F}}, P)}(\ Omega, {\ mathcal {F}}, P) . Мы хотим оценить ожидаемое значение X при P, обозначенном E [X; P]. Если у нас есть статистически независимые случайные выборки x 1,…, xn {\ displaystyle x_ {1}, \ ldots, x_ {n}}x_ {1}, \ ldots, x_ {n} , сгенерированные в соответствии с P, то эмпирическая оценка E [X; P] равно

E ^ n [X; P] = 1 N ∑ я = 1 nxi {\ displaystyle {\ widehat {\ mathbf {E}}} _ {n} [X; P] = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}}{\ displaystyle {\ widehat {\ mathbf {E}}} _ {n} [X; P] = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}}

, а точность этой оценки зависит от дисперсии X:

var ⁡ [E ^ n; P] = var ⁡ [X; P] n. {\ displaystyle \ operatorname {var} [{\ widehat {\ mathbf {E}}} _ {n}; P] = {\ frac {\ operatorname {var} [X; P]} {n}}.}{\ displaystyle \ operatorname {var} [{\ widehat {\ mathbf {E}}} _ {n}; P] = {\ frac {\ operatorname {var} [X; P]} {n}}. }

Основная идея выборки по важности заключается в выборке состояний из другого распределения, чтобы снизить дисперсию оценки E [X; P], или когда выборка из P затруднена. Для этого сначала выбирается случайная величина L ≥ 0 {\ displaystyle L \ geq 0}L \ geq 0 такая, что E [L; P] = 1 и что P- почти везде L (ω) ≠ 0 {\ displaystyle L (\ omega) \ neq 0}L (\ omega) \ neq 0 . С помощью переменной L мы определяем вероятность P (L) {\ displaystyle P ^ {(L)}}{\ displaystyle P ^ {(L)}} , которая удовлетворяет

E [X; P] = E [X L; P (L)]. {\ displaystyle \ mathbf {E} [X; P] = \ mathbf {E} \ left [{\ frac {X} {L}}; P ^ {(L)} \ right].}{\ mathbf {E}} [X; P] = {\ mathbf {E}} \ left [{\ frac {X} {L}}; P ^ {{(L)}} \ right].

Переменная Таким образом, X / L будет выбираться под P для оценки E [X; P], как указано выше, и эта оценка улучшается, когда var ⁡ [XL; P (L)] < var ⁡ [ X ; P ] {\displaystyle \operatorname {var} \left[{\frac {X}{L}};P^{(L)}\right]<\operatorname {var} [X;P]}\ operatorname {var} \ left [{\ frac {X} {L}}; P ^ {{(L)}} \ right] <\ operatorname {var} [X; P] .

Когда X имеет постоянный знак над Ω, наилучшей переменной L явно будет L ∗ = X E [X; P] ≥ 0 {\ displaystyle L ^ {*} = {\ frac {X} {\ mathbf {E} [X; P]}} \ geq 0}L ^ {*} = {\ frac {X} {{\ mathbf {E}} [X; P]}} \ geq 0 , так что X / L * искомой константы E [X; P] и единственной выборки под P достаточно, чтобы дать ее значение. К сожалению, мы не можем сделать этот выбор, потому что E [X; P] - это именно то значение, которое мы ищем! Однако этот наилучший теоретический случай L * дает нам представление о том, что делает выборка по важности:

∀ a ∈ R, P (L ∗) (X ∈ [a; a + da]) = ∫ ω ∈ {X ∈ [a ; a + d a]} X (ω) E [X; P] d P (ω) = 1 E [X; P] a P (X ∈ [a; a + da]) {\ displaystyle {\ begin {выровнено} \ forall a \ in \ mathbb {R}, \; P ^ {(L ^ {*})} (X \ in [a; a + da]) = \ int _ {\ omega \ in \ {X \ in [a; a + da] \}} {\ frac {X (\ omega)} {E [X; P]}} \, dP (\ omega) \\ [6pt] = {\ frac {1} {E [X; P]}} \; a \, P (X \ in [a; a + da]) \ end {align}}}{\ displaystyle {\ begin {align} \ forall a \ in \ mathbb {R}, \; P ^ {(L ^ {*})} (X \ in [a; a + da]) = \ int _ {\ omega \ in \ {X \ in [a; a + da] \}} {\ frac {X (\ omega)} {E [X; P]}} \, dP (\ omega) \\ [6pt] = {\ frac {1} {E [X; P]}} \; a \, P (X \ in [a; a + da]) \ end {выровнено }}}

вправо, a P (X ∈ [a; a + da]) {\ displaystyle a \, P (X \ in [a; a + da]) }a \, P (X \ in [a; a + da]) - один из бесконечно малых элементов, которые в сумме составляют E [X; P]:

E [X; P] знак равно ∫ a = - ∞ + ∞ a P (X ∈ [a; a + da]) {\ displaystyle E [X; P] = \ int _ {a = - \ infty} ^ {+ \ infty} a \, P (X \ in [a; a + da])}E [X; P] = \ int _ {{a = - \ infty}} ^ {{+ \ infty}} a \, P (X \ in [a; a + da])

следовательно, хорошее изменение вероятности P в выборке важности перераспределит закон X, так что частоты его выборок будут отсортированы непосредственно в соответствии с их весами в E [X; P]. Отсюда и название «выборка по важности».

Выборка по важности часто используется как интегратор Монте-Карло. Когда P {\ displaystyle P}P - равномерное распределение, а Ω = R {\ displaystyle \ Omega = \ mathbb {R}}\ Omega = {\ mathbb {R}} , E[X; P] соответствует интеграл действительной функции X: R → R {\ displaystyle X: \ mathbb {R} \ to \ mathbb {R}}X: {\ mathbb {R}} \ to {\ mathbb {R}} .

Применение для вероятностного вывода

Такие методы часто используются для оценивать апостериорные плотности или ожидания в задачах оценки состояния и / или параметров в вероятностных моделях, которые слишком сложно обрабатывать аналитически, например, в байесовских сетях.

Применение для моделирования

Выборка по важности - это метод уменьшения дисперсии, который можно использовать в методе Монте-Карло. Идея выборки по важности заключается в том, что определенные значения входных случайных величин в моделировании оказывают большее влияние на оцениваемый параметр, чем другие. Если эти "важные" значения подчеркиваются путем более частой выборки, то дисперсия оценщика может быть уменьшена. Следовательно, основная методология выборки по важности заключается в выборе распределения, которое «поощряет» важные ценности. Такое использование «смещенного» распределения приведет к смещению оценки, если оно применяется непосредственно в моделировании. Однако выходные данные моделирования взвешиваются для корректировки использования смещенного распределения, и это гарантирует, что новая оценка выборки важности будет несмещенной. Вес задается отношением правдоподобия, то есть производной Радона – Никодима истинного основного распределения по отношению к смещенному распределению моделирования.

Фундаментальной проблемой при реализации моделирования выборки по важности является выбор смещенного распределения, которое поощряет важные области входных переменных. Выбор или разработка хорошего предвзятого распределения - это «искусство» выборки по важности. Наградой за хорошее распространение может быть огромная экономия времени выполнения; Наказанием за плохое распределение может быть более длительное время выполнения, чем для общего моделирования методом Монте-Карло без выборки по важности.

Считаем X {\ displaystyle X}X образцом и f (X) g (X) {\ displaystyle {\ frac {f (X)} {g (X)}}}{\ frac {f (X)} { g (X)}} - отношение правдоподобия, где f {\ displaystyle f}f - функция плотности (массы) вероятности желаемого распределения и g {\ displaystyle g}g - функция плотности вероятности (массы) смещения / предложения / распределения выборки. Тогда проблему можно охарактеризовать, выбрав распределение выборки g {\ displaystyle g}g , которое минимизирует дисперсию масштабированной выборки:

g ∗ = min g var g ⁡ (X f ( X) g (X)). {\ displaystyle g ^ {*} = \ min _ {g} \ operatorname {var} _ {g} \ left (X {\ frac {f (X)} {g (X)}} \ right).}{\ displaystyle g ^ {*} = \ min _ {g} \ operatorname {var} _ {g} \ lef t (X {\ frac {f (X)} {g (X)}} \ right).}

Можно показать, что следующее распределение минимизирует указанную выше дисперсию:

g ∗ (X) = | X | f (X) ∫ | х | е (х) д х. {\ displaystyle g ^ {*} (X) = {\ frac {| X | f (X)} {\ int | x | f (x) \, dx}}.}{\ displaystyle g ^ {*} (X) = {\ frac {| X | f (X)} {\ int | x | f (x) \, dx}}.}

Обратите внимание, что когда X ≥ 0 {\ displaystyle X \ geq 0}Икс \ geq 0 , эта дисперсия становится 0.

Математический подход

Рассмотрите возможность оценки вероятности с помощью моделирования pt {\ displaystyle p_ {t} \,}p_ {t} \, события X ≥ t {\ displaystyle X \ geq t}{\ displaystyle X \ geq t} , где X {\ displaystyle X}X - случайная величина с распределением F {\ displaystyle F}F и функцией плотности вероятности f (x) = F ′ (x) {\ displaystyle f (x) = F '(x) \,}f(x)=F'(x)\,, где штрих означает производную. A K {\ displaystyle K}K -length независимая и идентично распределенная последовательность (iid) X i {\ displaystyle X_ {i} \,}X_ { i} \, генерируется из распределения F {\ displaystyle F}F и числа kt {\ displaystyle k_ {t}}k_ {t} случайных величин, которые лежат выше порога t {\ displaystyle t}t . Случайная величина kt {\ displaystyle k_ {t}}k_ {t} характеризуется биномиальным распределением

P (kt = k) = (K k) ptk (1 - pt) K - k, k = 0, 1,…, K. {\ Displaystyle P (k_ {t} = k) = {K \ select k} p_ {t} ^ {k} (1-p_ {t}) ^ {Kk}, \, \ quad \ quad k = 0, 1, \ dots, K.}P (k_ {t} = k) = {K \ choose k} p_ {t} ^ {k} (1-p_ {t}) ^ {{Kk}}, \, \ quad \ quad k = 0,1, \ dots, K.

Можно показать, что E ⁡ [kt / K] = pt {\ displaystyle \ operatorname {E} [k_ {t} / K] = p_ {t}}\ operatorname {E} [k_ {t} / K] = p_ {t} и var ⁡ [kt / K] = pt (1 - pt) / K {\ displaystyle \ operatorname {var} [k_ {t} / K] = p_ {t} (1- p_ {t}) / K}\ operatorname {var} [k_ {t} / K] = p_ {t} (1-p_ {t}) / K , поэтому в пределе K → ∞ {\ displaystyle K \ to \ infty}K \ to \ infty мы можем получить pt { \ Displaystyle p_ {t}}p_ {t} . Обратите внимание, что дисперсия низкая, если p t ≈ 1 {\ displaystyle p_ {t} \ приблизительно 1}p_ {t} \ приблизительно 1 . Выборка по важности связана с определением и использованием альтернативной функции плотности f ∗ {\ displaystyle f _ {*} \,}е _ {*} \, (для X {\ displaystyle X}X ), обычно называемую плотностью смещения, для имитационного эксперимента. Эта плотность позволяет событию X ≥ t {\ displaystyle {X \ geq t \}}{X \ geq t \} происходить чаще, поэтому длины последовательности K {\ displaystyle K}K становится меньше для данной дисперсии оценки. В качестве альтернативы, для данного K {\ displaystyle K}K использование плотности смещения приводит к меньшей дисперсии, чем у традиционной оценки Монте-Карло. Из определения pt {\ displaystyle p_ {t} \,}p_ {t} \, , мы можем ввести f ∗ {\ displaystyle f _ {*} \,}е _ {*} \, как ниже.

pt = E [1 (X ≥ t)] = ∫ 1 (x ≥ t) f (x) f ∗ (x) f ∗ (x) dx = E ∗ [1 (X ≥ t) W (X)] {\ Displaystyle {\ begin {выровнено} p_ {t} = {E} [1 (X \ geq t)] \\ [6pt] = \ int 1 (x \ geq t) {\ frac {f (x)} {f _ {*} (x)}} f _ {*} (x) \, dx \\ [6pt] = E _ {*} [1 (X \ geq t) W (X)] \ end {выровнено}}}{\ displaystyle {\ begin {align} p_ {t} = {E} [1 (X \ geq t)] \\ [ 6pt] = \ int 1 (x \ geq t) {\ frac {f (x)} {f _ {*} (x)}} f _ {*} (x) \, dx \\ [6pt] = E_ {*} [1 (X \ geq t) W (X)] \ end {align}}}

где

W (⋅) ≡ е (⋅) f * (⋅) {\ displaystyle W (\ cdot) \ Equiv {\ frac {f (\ cdot)} {f _ {* } (\ cdot)}}}W (\ cdot) \ Equiv {\ frac {f (\ cdot)} {f _ {*} (\ cdot)}}

- это отношение правдоподобия, которое называется весовой функцией. Последнее равенство в приведенном выше уравнении мотивирует оценку

p ^ t = 1 K ∑ i = 1 K 1 (X i ≥ t) W (X i), X i ∼ f ∗ {\ displaystyle {\ hat {p }} _ {t} = {\ frac {1} {K}} \, \ sum _ {i = 1} ^ {K} 1 (X_ {i} \ geq t) W (X_ {i}), \, \ quad \ quad X_ {i} \ sim f _ {*}}{\ hat p} _ {t} = {\ frac {1} {K}} \, \ sum _ {{i = 1}} ^ {K} 1 (X_ {i} \ geq t) W (X_ {i}), \, \ quad \ quad X_ {i} \ sim f _ {*}

Это беспристрастный оценщик выборки важности pt {\ displaystyle p_ {t} \,}p_ {t} \, . То есть процедура оценки заключается в создании i.i.d. выборки из f * {\ displaystyle f _ {*} \,}е _ {*} \, и для каждой выборки, превышающей t {\ displaystyle t \,}t \, , оценка увеличивается на вес W {\ displaystyle W \,}W \, , оцениваемый по выборочному значению. Результаты усредняются по K {\ displaystyle K \,}K \, испытаниям. Легко показать, что дисперсия оценки выборки важности составляет

var ∗ ⁡ p ^ t = 1 K var ∗ ⁡ [1 (X ≥ t) W (X)] = 1 K {E ∗ [1 (X ≥ t) 2 W 2 (X)] - pt 2} = 1 K {E [1 (X ≥ t) W (X)] - pt 2} {\ displaystyle {\ begin {align} \ operatorname {var} _ { *} {\ widehat {p}} _ {t} = {\ frac {1} {K}} \ operatorname {var} _ {*} [1 (X \ geq t) W (X)] \\ [ 5pt] = {\ frac {1} {K}} \ left \ {{E _ {*}} [1 (X \ geq t) ^ {2} W ^ {2} (X)] - p_ {t} ^ {2} \ right \} \\ [5pt] = {\ frac {1} {K}} \ left \ {{E} [1 (X \ geq t) W (X)] - p_ {t} ^ {2} \ right \} \ end {align}}}{\ displaystyle {\ begin {align} \ operatorname {var} _ {*} {\ widehat {p}} _ {t} = {\ frac {1} {K}} \ operatorname {var} _ {*} [1 (X \ geq t) W (X)] \\ [5pt] = {\ frac {1} {K}} \ left \ {{E _ {*}} [1 (X \ geq t) ^ {2} W ^ { 2} (X)] - p_ {t} ^ {2} \ right \} \\ [5pt] = {\ frac {1} {K}} \ left \ {{E} [1 (X \ geq t) W (X)] - p_ {t} ^ {2} \ right \} \ end {align}}}

Теперь задача выборки по важности фокусируется на определении плотности смещения f ∗ {\ displaystyle f _ {*} \,}е _ {*} \, таким образом, что дисперсия оценки выборки важности меньше дисперсии общей оценки Монте-Карло. Для некоторой функции плотности смещения, которая минимизирует дисперсию и при определенных условиях уменьшает ее до нуля, она называется оптимальной функцией плотности смещения.

Традиционные методы смещения

Хотя существует много видов методов смещения, следующие два метода наиболее широко используются в приложениях выборки по важности.

Масштабирование

Смещение вероятностной массы в область события X ≥ t {\ displaystyle {X \ geq t \}}{X \ geq t \} путем положительного масштабирования случайной величины X {\ displaystyle X \,}X \, с числом больше единицы приводит к увеличению дисперсии (также среднего) функции плотности. Это приводит к более тяжелому хвосту плотности, что приводит к увеличению вероятности события. Масштабирование, вероятно, является одним из первых известных методов смещения, широко используемым на практике. Он прост в реализации и обычно обеспечивает консервативный выигрыш от моделирования по сравнению с другими методами.

При выборке важности путем масштабирования плотность моделирования выбирается как функция плотности масштабированной случайной величины a X {\ displaystyle aX \,}aX \, , где обычно a>1 {\ displaystyle a>1}a>1 для оценки вероятности хвоста. По преобразованию

f ∗ (x) = 1 af (xa) {\ displaystyle f _ {*} (x) = {\ frac {1} {a} } f {\ bigg (} {\ frac {x} {a}} {\ bigg)} \,}f _ {*} (x) = {\ frac {1} {a}} f {\ bigg (} {\ frac {x} {a}} {\ bigg)} \,

и весовая функция

W (x) = af (x) f (x / a) {\ displaystyle W (x) = a {\ frac {f (x)} {f (x / a)}} \,}W (x) = a {\ frac {f (x)} {f (x / a)}} \,

Хотя масштабирование сдвигает вероятностную массу в желаемую область события, оно также увеличивает массу дополнительная область X < t {\displaystyle XX <t \, , что нежелательно. Если X {\ displaystyle X \,}X \, является суммой n {\ displaystyle n \,}n \, random переменных, распространение массы происходит в n {\ displaystyle n \,}n \, размерном пространстве е. Следствием этого является уменьшение коэффициента важности выборки для увеличения n {\ displaystyle n \,}n \, , и это называется эффектом размерности. Современная версия выборки важности путем масштабирования, например, так называемая сигма-масштабированная выборка (SSS), при которой выполняется множественный анализ методом Монте-Карло (MC) с различными коэффициентами масштабирования. В отличие от многих других высокодоходных методов оценки (таких как WCD для наихудшего случая) SSS не сильно страдает от проблемы размерности. Кроме того, адресация нескольких выходов MC не приводит к снижению эффективности. С другой стороны, как WCD, SSS разработан только для гауссовых статистических переменных, и в отличие от WCD, метод SSS не предназначен для обеспечения точных статистических углов. Еще один недостаток SSS состоит в том, что работа MC с большими масштабными коэффициентами может стать затруднительной, например. грамм. из-за проблем сходимости модели и симулятора. Кроме того, в SSS мы сталкиваемся с сильным компромиссом смещения и дисперсии: используя большие масштабные коэффициенты, мы получаем довольно стабильные результаты урожайности, но чем больше масштабные коэффициенты, тем больше ошибка смещения. Если преимущества SSS не имеют большого значения для интересующего приложения, то часто другие методы более эффективны.

Перенос

Другой простой и эффективный метод смещения использует перенос функции плотности (и, следовательно, случайной величины), чтобы поместить большую часть ее вероятностной массы в область редких событий. Трансляция не страдает от эффекта размерности и успешно использовалась в нескольких приложениях, связанных с моделированием систем цифровой связи. Часто это дает лучший эффект моделирования, чем масштабирование. При смещении путем перевода плотность моделирования определяется как

f * (x) = f (x - c), c>0 {\ displaystyle f _ {*} (x) = f (xc), \ quad c>0 \,}f_{*}(x)=f(x-c),\quad c>0 \,

где c {\ displaystyle c \,}c \, - величина сдвига, которую следует выбирать для минимизации дисперсии оценки выборки важности.

Влияние сложности системы

Фундаментальная проблема с выборкой по важности состоит в том, что проектирование хороших смещенных распределений усложняется по мере увеличения сложности системы. Сложные системы - это системы с большой памятью, поскольку сложная обработка нескольких входных данных намного проще Эта размерность или память могут вызвать проблемы по трем причинам:

В принципе, идеи выборки по важности остаются прежними в этих ситуациях, но дизайн становится намного сложнее. Успешный подход к решению этой проблемы состоит в том, чтобы разбить моделирование на несколько более мелких, более четко определенных подзадач. Затем для решения каждой из более простых подзадач используются стратегии выборки по важности. Примерами методов для прерывания моделирования являются моделирование условий и событий ошибки (EES) и регенеративное моделирование.

Функция стоимости отклонения

Дисперсия - не единственная возможная функция стоимости для моделирования, и другие функции стоимости, такие как среднее абсолютное отклонение, используются в различных статистических Приложения. Тем не менее, дисперсия является основной функцией затрат, рассматриваемой в литературе, вероятно, из-за использования дисперсии в доверительных интервалах и в показателе эффективности σ MC 2 / σ IS 2 {\ displaystyle \ sigma _ {MC} ^ {2} / \ sigma _ {IS} ^ {2} \,}\ sigma _ {{ MC}} ^ {2} / \ sigma _ {{IS}} ^ {2} \, .

Связанная проблема заключается в том, что отношение σ MC 2 / σ IS 2 {\ displaystyle \ sigma _ {MC} ^ {2} / \ sigma _ {IS} ^ {2} \,}\ sigma _ {{ MC}} ^ {2} / \ sigma _ {{IS}} ^ {2} \, переоценивает экономию времени выполнения из-за выборки важности, поскольку не включает дополнительное время вычислений, необходимое для вычисления весовая функция. Следовательно, некоторые люди оценивают чистое улучшение времени выполнения различными способами. Возможно, более серьезные накладные расходы на выборку по важности связаны со временем, затраченным на разработку и программирование техники и аналитическое получение желаемой весовой функции.

.

См. Также
Внешние ссылки
Последняя правка сделана 2021-05-23 12:28:55
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте