Закон больших чисел

редактировать
Теорема о вероятности и статистике Иллюстрация закона больших чисел с использованием конкретной серии бросков одного умереть. По мере увеличения количества бросков в этом прогоне среднее значение всех результатов приближается к 3,5. Несмотря на то, что каждый прогон будет показывать отличительную форму при небольшом количестве бросков (слева), при большом количестве бросков (справа) формы будут очень похожими.

В теории вероятности, закон больших чисел (LLN ) - это теорема, которая описывает результат выполнения одного и того же эксперимента большое количество раз. Согласно закону, среднее результатов, полученных в большом количестве испытаний, должно быть близко к ожидаемому значению и будет иметь тенденцию становиться ближе к ожидаемому значению по мере увеличения числа испытаний.

LLN важен, потому что он гарантирует стабильные долгосрочные результаты для средних значений некоторых случайных событий. Например, в то время как казино может потерять деньги за одно вращение колеса рулетки, его прибыль будет иметь тенденцию к предсказуемому проценту на большом количестве вращений. Любая выигрышная серия игрока в конечном итоге будет преодолена параметрами игры. Важно помнить, что закон применяется только (как следует из названия), когда учитывается большое количество наблюдений. Не существует принципа, согласно которому небольшое количество наблюдений будет совпадать с ожидаемым значением или что серия одного значения будет немедленно «уравновешена» другими (см. заблуждение игрока ).

Содержание

  • 1 Примеры
  • 2 Ограничение
  • 3 История
  • 4 Формы
    • 4.1 Слабый закон
    • 4.2 Сильный закон
    • 4.3 Различия между слабым законом и сильным законом
    • 4.4 Единообразный закон больших чисел
    • 4.5 Закон больших чисел Бореля
  • 5 Доказательство слабого закона
    • 5.1 Доказательство с использованием неравенства Чебышева в предположении конечной дисперсии
    • 5.2 Доказательство с использованием сходимости характеристических функций
  • 6 Последствия
  • 7 См. Также
  • 8 Примечания
  • 9 Ссылки
  • 10 Внешние ссылки

Примеры

Например, один бросок честной шестигранной кости дает один чисел 1, 2, 3, 4, 5 или 6, каждое с равной вероятностью . Следовательно, ожидаемое значение среднего бросков будет:

1 + 2 + 3 + 4 + 5 + 6 6 = 3,5 {\ displaystyle {\ frac {1 + 2 + 3 + 4 + 5 + 6} { 6}} = 3.5}{\displaystyle {\frac {1+2+3+4+5+6}{6}}=3.5}

Согласно закону больших чисел, если бросается большое количество шестигранных игральных костей, среднее из их значений (иногда называемое выборочным средним ), вероятно, будет быть близким к 3,5, с увеличением точности по мере того, как бросается больше кубиков.

Из закона больших чисел следует, что эмпирическая вероятность успеха в серии испытаний Бернулли будет сходиться к теоретической вероятности. Для случайной величины Бернулли ожидаемое значение представляет собой теоретическую вероятность успеха, а среднее значение n таких переменных (при условии, что они независимы и одинаково распределены (iid) ) является в точности равным относительная частота.

Например, подбрасывание честной монеты - это испытание Бернулли. Когда честная монета подбрасывается один раз, теоретическая вероятность того, что выпадет орел, равна ⁄ 2. Следовательно, согласно закону больших чисел, доля орлов в "большом" количестве подбрасываний монеты "должна быть" примерно ⁄ 2. В частности, доля голов после n переворотов почти наверняка сходится к ⁄ 2, когда n приближается к бесконечности.

Хотя доля орлов (и решек) приближается к 1/2, почти наверняка абсолютная разница в количестве орлов и решек станет больше по мере того, как количество подбрасываний становится большим. То есть вероятность того, что абсолютная разница является небольшим числом, приближается к нулю, когда количество переворотов становится большим. Кроме того, почти наверняка отношение абсолютной разницы к количеству флипов будет приближаться к нулю. Интуитивно ожидаемая разница растет, но медленнее, чем количество переворотов.

Другим хорошим примером LLN является метод Монте-Карло. Эти методы представляют собой широкий класс вычислительных алгоритмов, которые полагаются на повторяющуюся случайную выборку для получения численных результатов. Чем больше количество повторений, тем лучше приближение. Причина, по которой этот метод важен, в основном заключается в том, что иногда трудно или невозможно использовать другие подходы.

Ограничение

Среднее значение результатов, полученных в результате большого количества испытаний, может быть неверным. сходиться в некоторых случаях. Например, среднее значение n результатов, взятых из распределения Коши или некоторых распределений Парето (α <1) will not converge as n becomes larger; the reason is тяжелые хвосты. Распределение Коши и распределение Парето представляют два случая : распределение Коши не имеет математического ожидания, тогда как математическое ожидание распределения Парето (α <1) is infinite. Another example is where the random numbers equal the касательная угла, равномерно распределенного между -90 ° и + 90 °. медиана равна нулю, но ожидаемого значения не существует, и действительно, среднее значение n таких переменных имеет то же распределение, что и одна такая переменная. Оно не сходится по вероятности к нулю (или любому другому значению), когда n стремится к бесконечности.

История

Диффузия является примером закона больших чисел. Изначально растворенные молекулы находятся на левой стороне барьера (пурпурная линия), а справа нет ни одной. барьер удаляется, и растворенное вещество диффундирует, заполняя весь контейнер.. Вверху: В случае одной молекулы движение кажется совершенно случайным.. Посередине: При большем количестве молекул явно прослеживается тенденция, когда растворенное вещество заполняет контейнер все более и более равномерно, но также наблюдаются случайные колебания.. Внизу: С огромное количество молекул растворенного вещества (слишком много, чтобы увидеть), случайность по существу исчезла: растворенное вещество, кажется, плавно и систематически перемещается из областей с высокой концентрацией в области с низкой концентрацией. В реальных ситуациях химики могут описать диффузию как детерминированное макроскопическое явление (см. законы Фика ), несмотря на его случайную природу.

Итальянский математик Джероламо Кардано (1501–1576) заявлено без доказательств, что точность эмпирической статистики имеет тенденцию улучшаться с увеличением количества испытаний. Затем это было формализовано как закон больших чисел. Специальная форма LLN (для двоичной случайной величины) была впервые доказана Джейкобом Бернулли. Ему потребовалось более 20 лет, чтобы разработать достаточно строгое математическое доказательство, которое было опубликовано в его Ars Conjectandi (Искусство догадываться) в 1713 году. Он назвал это своей «Золотой теоремой», но она стала широко известна как « Теорема Бернулли ". Это не следует путать с принципом Бернулли, названным в честь племянника Якоба Бернулли Даниэля Бернулли. В 1837 г. С.Д. Пуассон далее описал его под названием «la loi des grands nombres» («закон больших чисел»). В дальнейшем он был известен под обоими названиями, но наиболее часто использовался «закон больших чисел».

После того, как Бернулли и Пуассон опубликовали свои исследования, другие математики также внесли свой вклад в уточнение закона, в том числе Чебышев, Марков, Борель, Кантелли и Колмогоров и Хинчин. Марков показал, что закон может применяться к случайной величине, которая не имеет конечной дисперсии при другом более слабом предположении, а Хинчин показал в 1929 году, что если ряд состоит из независимых одинаково распределенных случайных величин, достаточно, чтобы ожидаемое значение существует для выполнения слабого закона больших чисел. Эти дальнейшие исследования привели к появлению двух известных форм LLN. Один из них называется «слабым» законом, а другой - «сильным» законом в отношении двух различных режимов сходимости совокупного выборочного среднего к ожидаемому значению; в частности, как объясняется ниже, сильная форма подразумевает слабую.

Формы

Существуют две разные версии закона больших чисел, которые описаны ниже. Они называются сильным законом больших чисел и слабым законом больших чисел. Заявлено для случая, когда X 1, X 2,... - бесконечная последовательность независимых и одинаково распределенных (iid) интегрируемых по Лебегу случайных величин с ожидаемыми значение E (X 1) = E (X 2) =... = µ, обе версии закона заявляют, что - с виртуальной достоверностью - выборочное среднее

X ¯ N = 1 N (Икс 1 + ⋯ + Икс N) {\ Displaystyle {\ overline {X}} _ {n} = {\ frac {1} {n}} (X_ {1} + \ cdots + X_ { n})}{\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})

сходится к ожидаемому значению

X ¯ n → μ для n → ∞, {\ displaystyle {\ begin {matrix} {} \\ {\ overline {X}} _ {n} \, \ to \, \ mu \ qquad {\ textrm {for}} \ qquad n \ to \ infty, \\ {} \ end {matrix}}}{\displaystyle {\begin{matrix}{}\\{\overline {X}}_{n}\,\to \,\mu \qquad {\textrm {for}}\qquad n\to \infty,\\{}\end{ matrix}}}

(закон. 1)

(Интегрируемость по Лебегу X j означает, что ожидаемое значение E (X j) существует в соответствии с интегрированием Лебега и является конечным. Это не означает, что соответствующая вероятностная мера абсолютно непрерывна относительно меры Лебега.)

На основе предположения о конечной дисперсии Var ⁡ ( Икс я) = σ 2 {\ displaystyle \ operatorname {Var} (X_ {i}) = \ sigma ^ {2}}\operatorname {Var} (X_{i})=\sigma ^{2}(для всех i {\ displaystyle i}i) и отсутствие корреляции между случайными величинами, дисперсия среднего n случайных величин

Var ⁡ (X ¯ n) = Var ⁡ (1 n (X 1 + ⋯ + X n)) = 1 n 2 Var ⁡ (Х 1 + ⋯ + X N) знак равно N σ 2 N 2 знак равно σ 2 N. {\ displaystyle \ operatorname {Var} ({\ overline {X}} _ {n}) = \ operatorname {Var} ({\ tfrac {1} {n}} (X_ {1} + \ cdots + X_ {n })) = {\ frac {1} {n ^ {2}}} \ operatorname {Var} (X_ {1} + \ cdots + X_ {n}) = {\ frac {n \ sigma ^ {2}} {n ^ {2}}} = {\ frac {\ sigma ^ {2}} {n}}.}\operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.

Иногда предположение о конечной дисперсии Var ⁡ (X 1) = Var ⁡ (X 2) =… = σ 2 < ∞ {\displaystyle \operatorname {Var} (X_{1})=\operatorname {Var} (X_{2})=\ldots =\sigma ^{2}<\infty }{\displaystyle \operatorname {Var} (X_{1})=\operatorname {Var} (X_{2})=\ldots =\sigma ^{2}<\infty }является необязательным . Большая или бесконечная дисперсия замедлит сходимость, но LLN все равно сохраняется. Это предположение часто используется, потому что оно упрощает и сокращает доказательства.

Взаимная независимость случайных величин может быть заменена попарной независимостью в обеих версиях закона.

Разница между сильной и слабой версиями связана с утверждается режим конвергенции. Для интерпретации этих режимов см. Сходимость случайных величин.

Слабый закон

Моделирование, иллюстрирующее закон больших чисел. В каждом кадре монета, красная с одной стороны и синяя с другой, переворачивается, и в соответствующий столбец добавляется точка. Круговая диаграмма показывает соотношение красного и синего на данный момент. Обратите внимание на то, что, хотя пропорция вначале значительно меняется, она приближается к 50% по мере увеличения количества испытаний.

слабый закон больших чисел (также называемый законом Хинчина ) утверждает, что выборочное среднее сходится с вероятностью к ожидаемому значению

X ¯ n → P μ, когда n → ∞. {\ displaystyle {\ begin {matrix} {} \\ {\ overline {X}} _ {n} \ {\ xrightarrow {P}} \ \ mu \ qquad {\ textrm {when}} \ n \ to \ infty. \\ {} \ end {matrix}}}{\displaystyle {\begin{matrix}{}\\{\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \qquad {\textrm {when}}\ n\to \infty.\\{}\end{matrix}}}

(закон 2)

То есть для любого положительного числа ε

lim n → ∞ Pr (| X ¯ n - μ |>ε) = 0. {\ displaystyle \ lim _ {n \ to \ infty} \ Pr \! \ Left (\, | {\ overline {X}} _ {n} - \ mu |>\ varepsilon \, \ right) = 0.}\lim _{n\to \infty }\Pr \!\left(\,|{\overline {X}}_{n}-\mu |>\ varepsilon \, \ right) = 0.

Интерпретируя этот результат, слабый закон гласит, что для любого указанного ненулевого поля, независимо от его малого, с достаточно большой выборкой будет очень высокая вероятность того, что среднее значение наблюдения будут близки к ожидаемому значению, то есть в пределах допуска.

Как упоминалось ранее, слабый закон применяется в случае случайных величин iid, но он также применяется и в некоторых других случаях. Например,, дисперсия может быть разной для каждой случайной величины в ряду, сохраняя ожидаемое значение постоянным. Если дисперсии ограничены, то закон применяется, как показано в Чебышев еще в 1867 году. (Если ожидаемые значения изменяются в течение ряда, то мы можем просто применить закон к среднему отклонению от соответствующего Тогда закон гласит, что это сходится по вероятности к нулю.) Фактически, доказательство Чебышева работает до тех пор, пока дисперсия среднего первых n значений стремится к нулю, когда n стремится к бесконечности. В качестве примера предположим, что каждая случайная величина в ряду следует распределению Гаусса со средним нулевым значением, но с дисперсией, равной 2 n / log ⁡ (n + 1) {\ displaystyle 2n / \ log (n + 1)}{\displaystyle 2n/\log(n+1)}, который не ограничен. На каждом этапе среднее значение будет нормально распределенным (как среднее значение набора нормально распределенных переменных). Дисперсия суммы равна сумме дисперсий, которая является асимптотической до n 2 / log ⁡ n {\ displaystyle n ^ {2} / \ log n}{\displaystyle n^{2}/\log n}. Дисперсия среднего поэтому асимптотически равна 1 / log ⁡ n {\ displaystyle 1 / \ log n}{\ displaystyle 1 / \ log n} и стремится к нулю.

Существуют также примеры применения слабого закона, даже если ожидаемое значение не существует.

Сильный закон

Сильный закон больших чисел гласит, что выборочное среднее почти наверняка сходится к ожидаемому значению

X ¯ n → как μ при n → ∞. {\ displaystyle {\ begin {matrix} {} \\ {\ overline {X}} _ {n} \ \ xrightarrow {\ text {as}} \ \ mu \ qquad {\ textrm {when}} \ n \ to \ infty. \\ {} \ end {matrix}}}{\ displaystyle {\ begin { матрица} {} \\ {\ overline {X}} _ {n} \ \ xrightarrow {\ text {as}} \ \ mu \ qquad {\ textrm {when}} \ n \ to \ infty. \\ {} \ end {matrix}}}

(закон. 3)

То есть,

Pr (lim n → ∞ X ¯ n = μ) = 1. {\ displaystyle \ Pr \! \ Left (\ lim _ {n \ to \ infty} {\ overline {X}} _ {n} = \ mu \ right) = 1.}\Pr \!\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1.

Это означает, что вероятность того, что количество попыток n стремится к бесконечности, среднее значение наблюдений сходится к ожидаемому значению, равному единице.

Доказательство сложнее, чем у слабого закона. Этот закон оправдывает интуитивную интерпретацию ожидаемого значения (только для интегрирования Лебега) случайной величины при многократной выборке как «долгосрочное среднее».

Почти наверное сходимость также называется сильной сходимостью случайных величин. Эта версия называется усиленным законом, потому что случайные величины, которые сходятся сильно (почти наверняка), гарантированно сходятся слабо (по вероятности). Однако известно, что слабый закон выполняется в определенных условиях, когда сильный закон не выполняется, и тогда сходимость является только слабой (по вероятности). См. # Различия между слабым законом и усиленным законом.

Усиленный закон больших чисел сам по себе можно рассматривать как частный случай точечной эргодической теоремы.

Сильный закон применяется к независимым одинаково распределенным случайные величины, имеющие ожидаемое значение (например, слабый закон). Это было доказано Колмогоровым в 1930 году. Это применимо и в других случаях. Колмогоров также показал в 1933 году, что если переменные независимы и одинаково распределены, то для того, чтобы среднее почти наверняка сходилось на чем-то (это можно считать еще одним утверждением сильного закона), необходимо, чтобы они имели ожидаемое значение ( и тогда, конечно, среднее почти наверняка сходится на этом).

Если слагаемые независимы, но не распределены одинаково, то

X ¯ n - E ⁡ [X ¯ n] → при 0, {\ displaystyle {\ overline {X}} _ {n} - \ operatorname {E} {\ big [} {\ overline {X}} _ {n} {\ big]} \ {\ xrightarrow {\ text {as}}} \ 0,}{\overline {X}}_{n} -\operatorname {E} {\big [}{\overline {X}}_{n}{\big ]}\ {\xrightarrow {\text{a.s.}}}\ 0,

при условии, что каждый X k имеет конечный второй момент и

∑ k = 1 ∞ 1 k 2 Var ⁡ [X k] < ∞. {\displaystyle \sum _{k=1}^{\infty }{\frac {1}{k^{2}}}\operatorname {Var} [X_{k}]<\infty.}\ sum _ {k = 1} ^ {\ infty} {\ frac {1} {k ^ {2}}} \ operatorname {Var} [X_ {k}] <\ infty.

Это утверждение известно как сильный закон Колмогорова, см., например, Сен и Сингер (1993, теорема 2.3.10).

Пример ряда, в котором применяется слабый закон, но не сильный, - это когда X k равно плюс или минус k / log ⁡ log ⁡ log ⁡ k {\ displaystyle {\ sqrt {k / \ log \ log \ log k}}}{\displaystyle {\sqrt {k/\log \log \log k}}}(начиная с достаточно большого k, чтобы знаменатель был положительным) с вероятностью 1/2 для каждого. Тогда дисперсия X k равна k / log ⁡ log ⁡ log ⁡ k. {\ displaystyle k / \ log \ log \ log k.}{\ displaystyle k / \ log \ log \ log k.} Строгий закон Колмогорова неприменим, потому что частичная сумма в его критерии до k = n асимптотична log ⁡ n / log ⁡ журнал ⁡ журнал ⁡ n {\ displaystyle \ log n / \ log \ log \ log n}{\displaystyle \log n/\log \log \log n}, и это неограничено.

Если мы заменим случайные величины на гауссовские переменные, имеющие такую ​​же дисперсию, а именно k / log ⁡ log ⁡ log ⁡ k, {\ displaystyle {\ sqrt {k / \ log \ log \ log k }},}{\displaystyle {\sqrt {k/\log \log \log k}},}тогда среднее значение в любой точке также будет нормально распределено. Ширина распределения среднего будет стремиться к нулю (асимптотика стандартного отклонения равна 1/2 log ⁡ log ⁡ log ⁡ n {\ displaystyle 1 / {\ sqrt {2 \ log \ log \ log n}}}{\displaystyle 1/{\sqrt {2\log \log \log n}}}), но для данного ε существует вероятность, которая не стремится к нулю с n, в то время как среднее значение через некоторое время после n-го испытания вернется к ε. Поскольку ширина распределения среднего не равна нулю, оно должно иметь положительную нижнюю границу p (ε), что означает, что существует вероятность не менее p (ε) того, что среднее значение достигнет ε после n испытаний. Это произойдет с вероятностью p (ε) / 2 перед некоторым m, зависящим от n. Но даже после m существует вероятность, по крайней мере, p (ε), что это произойдет. (Похоже, это означает, что p (ε) = 1, и среднее значение будет достигать ε бесконечное число раз.)

Различия между слабым законом и сильным законом

Слабый закон гласит что для указанного большого n среднее значение X ¯ n {\ displaystyle {\ overline {X}} _ {n}}{\overline {X}}_{n}, вероятно, будет около μ. Таким образом, остается возможность того, что | X ¯ n - μ |>ε {\ displaystyle | {\ overline {X}} _ {n} - \ mu |>\ varepsilon}|{\overline {X}}_{n}-\mu |>\ varepsilon происходит бесконечное количество раз, хотя и с нечастыми интервалами. (Не обязательно | X ¯ n - μ | ≠ 0 {\ displaystyle | {\ overline {X}} _ {n} - \ mu | \ neq 0}{\ displaystyle | {\ overline {X}} _ {n} - \ mu | \ neq 0} для всех n).

Строгий закон показывает, что это почти наверняка не будет. В частности, это означает, что с вероятностью 1 мы имеем, что для любого ε>0 неравенство | X ¯ n - μ | < ε {\displaystyle |{\overline {X}}_{n}-\mu |<\varepsilon }| {\ overline {X}} _ {n} - \ mu | <\ varepsilon выполняется для всех достаточно больших n.

Сильный закон не выполняется в следующих случаях, но слабый закон выполняется.

1. Пусть X будет экспоненциально распределенной случайной величиной с параметром 1. Случайный переменная sin ⁡ (X) e XX - 1 {\ displaystyle \ sin (X) e ^ {X} X ^ {- 1}}{\ displaystyle \ sin (X) e ^ {X} X ^ {- 1}} не имеет ожидаемого значения согласно интегрированию Лебега, но с использованием условная сходимость и интерпретация Рассматривая интеграл как интеграл Дирихле, который является несобственным интегралом Римана, мы можем сказать:

E (sin ⁡ (X) e XX) = ∫ 0 ∞ sin ⁡ (Икс) exxe - xdx = π 2 {\ displaystyle E \ left ({\ frac {\ sin (X) e ^ {X}} {X}} \ right) = \ \ int _ {0} ^ {\ infty } {\ frac {\ sin (x) e ^ {x}} {x}} e ^ {- x} dx = {\ frac {\ pi} {2}}}{\displaystyle E\left({\frac {\sin(X)e^{X}}{X}}\right)=\ \int _{0}^{\infty }{\frac {\sin(x)e^{x}}{x}}e^{-x}dx={\frac {\pi }{2}}}

2. Пусть x будет геометрическим распределением с вероятностью 0,5. Случайная величина 2 X (- 1) XX - 1 {\ displaystyle 2 ^ {X} (- 1) ^ {X} X ^ {- 1}}{\ displaystyle 2 ^ {X} (- 1) ^ {X} X ^ {- 1}} не имеет ожидаемого значения в общепринятом смысле, поскольку бесконечный ряд не является абсолютно сходящимся, но, используя условную сходимость, мы можем сказать:

E (2 X (- 1) XX) = ∑ 1 ∞ 2 x (- 1) хх 2 - х = - пер ⁡ (2) {\ displaystyle E \ left ({\ frac {2 ^ {X} (- 1) ^ {X}} {X}} \ right) = \ \ sum _ { 1} ^ {\ infty} {\ frac {2 ^ {x} (- 1) ^ {x}} {x}} 2 ^ {- x} = - \ ln (2)}{\ displaystyle E \ left ({\ frac {2 ^ {X} (- 1) ^ { X}} {X}} \ right) = \ \ sum _ {1} ^ {\ infty} {\ frac {2 ^ {x} (- 1) ^ {x}} {x}} 2 ^ {- x } = - \ ln (2)}

3. Если кумулятивная функция распределения случайной величины равна

1 - F (x) = e 2 x ln ⁡ (x), x ≥ e {\ displaystyle 1-F (x) = {\ гидроразрыва {e} {2x \ ln (x)}}, x \ geq e}1-F(x)={\frac {e}{2x\ln(x)}},x\geq e
F (x) = e - 2 x ln ⁡ (- x), x ≤ - e {\ displaystyle F (x) = {\ frac {e} {- 2x \ ln (-x)}}, x \ leq -e}F(x)={\frac {e}{-2x\ln(-x)}},x\leq -e
тогда он не имеет ожидаемого значения, но слабый закон верен.

Единообразный закон больших чисел

Предположим, что f (x, θ) - некоторая функция, определенная для θ ∈ Θ и непрерывная по θ. Тогда для любого фиксированного θ последовательность {f (X 1, θ), f (X 2, θ),...} будет последовательностью независимых и одинаково распределенных случайные величины, такие, что выборочное среднее этой последовательности сходится по вероятности к E [f (X, θ)]. Это поточечная (по θ) сходимость.

Единообразный закон больших чисел устанавливает условия, при которых сходимость происходит равномерно по θ. Если

  1. Θ компактно,
  2. f (x, θ) непрерывно в каждом θ ∈ Θ для почти всех xs и измерима функция x в каждом θ.
  3. существует доминирующая функция d (x) такая, что E [d (X)] < ∞, and
    ‖ f (x, θ) ‖ ≤ d (x) для всех θ ∈ Θ. {\ Displaystyle \ left \ | е (х, \ theta) \ right \ | \ leq d (x) \ quad {\ text {для всех}} \ \ theta \ in \ Theta.}\ left \ | f (x, \ theta) \ right \ | \ leq d (x) \ quad {\ text {для всех}} \ \ theta \ в \ Theta.

Тогда E [f (X, θ)] непрерывно по θ, и

sup θ ∈ Θ ‖ 1 n ∑ i = 1 nf (X i, θ) - E ⁡ [f (X, θ)] ‖ → a. с. 0. {\ displaystyle \ sup _ {\ theta \ in \ Theta} \ left \ | {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} f (X_ {i}, \ theta) - \ operatorname {E} [f (X, \ theta)] \ right \ | {\ xrightarrow {\ mathrm {as}}} \ 0.}\sup _{\theta \in \Theta }\left\|{\frac {1}{n}}\sum _{i=1}^{n}f(X_{i},\theta)-\operatorname {E} [f(X,\theta)]\right\|{\xrightarrow {\mathrm {a.s.} }}\ 0.

Этот результат полезен для получения согласованности большого класса оценок (см. Экстремальная оценка ).

Закон больших чисел Бореля

Закон больших чисел Бореля, названный в честь Эмиля Бореля, гласит, что если эксперимент повторяется большое количество раз, независимо от того, условия, то доля случаев, когда любое указанное событие происходит, приблизительно равна вероятности его возникновения в любом конкретном испытании; чем больше количество повторений, тем лучше приближение. Точнее, если E обозначает рассматриваемое событие, p - вероятность его наступления и N n (E) - количество раз, которое E встречается в первых n испытаниях, то с вероятностью единица

N n (E) n → p при n → ∞. {\ displaystyle {\ frac {N_ {n} (E)} {n}} \ to p {\ text {as}} n \ to \ infty.}{\displaystyle {\frac {N_{n}(E)}{n}}\to p{\text{ as }}n\to \infty.}

Эта теорема делает строгое интуитивное понятие вероятности как относительная частота возникновения события в долгосрочной перспективе. Это частный случай любого из нескольких более общих законов больших чисел в теории вероятностей.

Неравенство Чебышева. Пусть X будет случайной величиной с конечным ожидаемым значением μ и конечной ненулевой дисперсией σ. Тогда для любого действительного числа k>0,

Pr (| X - μ | ≥ k σ) ≤ 1 k 2. {\ displaystyle \ Pr (| X- \ mu | \ geq k \ sigma) \ leq {\ frac {1} {k ^ {2}}}.}\Pr(|X-\mu |\geq k\sigma)\leq {\frac {1}{k^{2}}}.

Доказательство слабого закона

Учитывая X 1, X 2,... бесконечную последовательность iid случайных величин с конечным ожидаемым значением E (X 1) = E (X 2) =... = μ < ∞, we are interested in the convergence of the sample average

X ¯ n = 1 n (X 1 + ⋯ + X n). {\ displaystyle {\ overline {X}} _ {n} = {\ tfrac {1} {n}} (X_ {1} + \ cdots + X_ {n}).}{\ overline { X}} _ {n} = {\ tfrac {1} {n}} (X_ {1} + \ cdots + X_ {n}).

Слабый закон больших чисел утверждает:

Теорема :X ¯ n → P μ, когда n → ∞. {\ displaystyle {\ begin {matrix} {} \\ {\ overline {X}} _ {n} \ {\ xrightarrow {P}} \ \ mu \ qquad {\ textrm {when}} \ n \ to \ infty. \\ {} \ end {matrix}}}{\displaystyle {\begin{matrix}{}\\{\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \qquad {\textrm {when}}\ n\to \infty.\\{}\end{matrix}}}

(закон. 2 )

Доказательство с использованием неравенства Чебышева в предположении конечной дисперсии

В этом доказательстве используется предположение о конечной дисперсии Var ⁡ (X i) = σ 2 {\ displaystyle \ operatorname {Var } (X_ {i}) = \ sigma ^ {2}}\operatorname {Var} (X_{i})=\sigma ^{2}(для всех i {\ displaystyle i}i). Независимость случайных величин означает отсутствие корреляции между ними, и мы имеем, что

Var ⁡ (X ¯ n) = Var ⁡ (1 n (X 1 + ⋯ + X n)) = 1 n 2 Var ⁡ (X 1 + ⋯ + X n) знак равно n σ 2 n 2 знак равно σ 2 n. {\ displaystyle \ operatorname {Var} ({\ overline {X}} _ {n}) = \ operatorname {Var} ({\ tfrac {1} {n}} (X_ {1} + \ cdots + X_ {n })) = {\ frac {1} {n ^ {2}}} \ operatorname {Var} (X_ {1} + \ cdots + X_ {n}) = {\ frac {n \ sigma ^ {2}} {n ^ {2}}} = {\ frac {\ sigma ^ {2}} {n}}.}\operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.

Обычное среднее μ последовательности - это среднее значение выборочного среднего:

E (X ¯ n) = μ. {\ displaystyle E ({\ overline {X}} _ {n}) = \ mu.}E ({\ overline {X}} _ {n}) = \ mu.

Использование неравенства Чебышева на X ¯ n {\ displaystyle {\ overline {X} } _ {n}}{\overline {X}}_{n}приводит к

P ⁡ (| X ¯ n - μ | ≥ ε) ≤ σ 2 n ε 2. {\ displaystyle \ operatorname {P} (\ left | {\ overline {X}} _ {n} - \ mu \ right | \ geq \ varepsilon) \ leq {\ frac {\ sigma ^ {2}} {n \ varepsilon ^ {2}}}.}\ operatorname {P} (\ left | {\ overline {X}} _ {n} - \ mu \ right | \ geq \ varepsilon) \ leq {\ frac {\ sigma ^ {2}} {n \ varepsilon ^ {2}}}.

Это может быть использовано для получения следующего:

P ⁡ (| X ¯ n - μ | < ε) = 1 − P ⁡ ( | X ¯ n − μ | ≥ ε) ≥ 1 − σ 2 n ε 2. {\displaystyle \operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|<\varepsilon)=1-\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|\geq \varepsilon)\geq 1-{\frac {\sigma ^{2}}{n\varepsilon ^{2}}}.}\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|<\varepsilon)=1-\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|\geq \varepsilon)\geq 1-{\frac {\sigma ^{2}}{n\varepsilon ^{2}}}.

Когда n приближается к бесконечности, выражение приближается к 1. И по определению сходимости по вероятности, мы получили

X ¯ n → P μ, когда n → ∞. {\ displaystyle {\ begin {matrix} {} \\ {\ overline {X}} _ { n} \ {\ xrightarrow {P}} \ \ mu \ qquad {\ textrm {when}} \ n \ to \ infty. \\ {} \ end {matrix}}}{\displaystyle {\begin{matrix}{}\\{\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \qquad {\textrm {when}}\ n\to \infty.\\{}\end{matrix}}}

(закон. 2 )

Доказательство с использованием сходимости характеристических функций

Согласно теореме Тейлора для комплексных функций, характеристическая функция любой случайной величины X с конечным средним μ, может быть записано как

φ X (t) = 1 + it μ + o (t), t → 0. {\ displaystyle \ varphi _ {X} (t) = 1 + it \ mu + o (t), \ quad t \ rightarrow 0.}\ varphi _ {X} (t) = 1 + it \ mu + о (t), \ quad t \ rightarrow 0.

Все X 1, X 2,... имеют одинаковую характеристическую функцию, поэтому мы просто обозначим это φ X.

Среди основных профи Имеются особенности характеристических функций

φ 1 n X (t) = φ X (tn) и φ X + Y (t) = φ X (t) φ Y (t) {\ displaystyle \ varphi _ {\ frac {1} {n}} X} (t) = \ varphi _ {X} ({\ tfrac {t} {n}}) \ quad {\ text {and}} \ quad \ varphi _ {X + Y } (t) = \ varphi _ {X} (t) \ varphi _ {Y} (t) \ quad}\varphi _{{\frac {1}{n}}X}(t)=\varphi _{X}({\tfrac {t}{n}})\quad {\text{and}}\quad \varphi _{X+Y}(t)=\varphi _{X}(t)\varphi _{Y}(t)\quad , если X и Y независимы.

Эти правила можно использовать для вычисления характеристическая функция X ¯ n {\ displaystyle \ scriptstyle {\ overline {X}} _ {n}}\scriptstyle {\overline {X}}_{n}в терминах φ X:

φ X ¯ n (t) = [φ X (tn)] n = [1 + i μ tn + o (tn)] n → eit μ при n → ∞. {\ displaystyle \ varphi _ {{\ overline {X}} _ {n}} (t) = \ left [\ varphi _ {X} \ left ({t \ over n} \ right) \ right] ^ {n } = \ left [1 + i \ mu {t \ over n} + o \ left ({t \ over n} \ right) \ right] ^ {n} \, \ rightarrow \, e ^ {it \ mu}, \ quad {\ text {as}} \ quad n \ rightarrow \ infty.}\ varphi _ {{ \ overline {X}} _ {n}} (t) = \ left [\ varphi _ {X} \ left ({t \ over n} \ right) \ right] ^ {n} = \ left [1 + i \ mu {t \ over n} + o \ left ({t \ over n} \ right) \ r ight] ^ {n} \, \ rightarrow \, e ^ {it \ mu}, \ quad {\ text {as}} \ quad n \ rightarrow \ infty.

Предел e является характеристической функцией постоянной случайной величины μ, и, следовательно, по теореме Леви о непрерывности X ¯ n {\ displaystyle \ scriptstyle {\ overline {X}} _ {n}}\scriptstyle {\overline {X}}_{n}сходится в распределении к μ:

X ¯ n → D μ для n → ∞. {\ displaystyle {\ overline {X}} _ {n} \, {\ xrightarrow {\ mathcal {D}}} \, \ mu \ qquad {\ text {for}} \ qquad n \ to \ infty.}{\ overline {X}} _ {n} \, {\ xrightarrow {\ mathcal {D}}} \, \ mu \ qquad {\ текст {for}} \ qquad n \ to \ infty.

μ - константа, из которой следует, что сходимость по распределению к μ и сходимость по вероятности к μ эквивалентны (см. Сходимость случайных величин.) Следовательно,

X ¯ n → P μ, когда n → ∞. {\ displaystyle {\ begin {matrix} {} \\ {\ overline {X}} _ {n} \ {\ xrightarrow {P}} \ \ mu \ qquad {\ textrm {when}} \ n \ to \ infty. \\ {} \ end {matrix}}}{\displaystyle {\begin{matrix}{}\\{\overline {X}}_{n}\ {\xrightarrow {P}}\ \mu \qquad {\textrm {when}}\ n\to \infty.\\{}\end{matrix}}}

(закон. 2 )

Это показывает, что выборочное среднее сходится по вероятности к производной характеристической функции в начале координат, пока последняя существует.

Последствия

Закон больших чисел обеспечивает ожидание неизвестного распределения от реализации последовательности, а также любой особенности распределения вероятностей. Применяя закон больших чисел Бореля, можно легко получить функцию массы вероятности. Для каждого события в целевой функции вероятности и масс можно аппроксимировать вероятность возникновения события пропорциональностью того, сколько раз происходит любое указанное событие. Чем больше количество повторов, тем лучше приближение. Что касается непрерывного случая: C = (a - h, a + h] {\ displaystyle C = (ah, a + h]}{\ displaystyle C = (ah, a + h]} , для небольшого положительного h. Таким образом, для большого n :

N n (C) n ≈ p = P (X ∈ C) = ∫ a - ha + hf (x) dx ≈ 2 hf (a) {\ displaystyle {\ frac {N_ {n} (C) } {n}} \ Thickapprox p = P (X \ in C) = \ int _ {ah} ^ {a + h} f (x) dx \ Thickapprox 2hf (a)}{\ displaystyle {\ frac {N_ {n} (C)} {n}} \ Thickapprox p = P (X \ in C) = \ int _ {ах} ^ {а + h}f(x)dx\thickapprox 2hf(a)}

С помощью этого метода можно покрыть всю ось x сеткой (с размером сетки 2h) и получить гистограмму, которая называется гистограммой.

См. также

Примечания

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-26 03:14:27
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте