Независимые и одинаково распределенные случайные величины

редактировать

Важное понятие в вероятности и статистике

В теории вероятностей и статистике, коллекция случайных величин является независимым и одинаково распределенным, если каждая случайная величина имеет то же распределение вероятностей, что и другие, и все они взаимно независимы. Это свойство обычно обозначается как i.i.d. или iid, или IID. Здесь i.i.d. используется, потому что он наиболее распространен.

В теории машинного обучения i.i.d. Для обучающих наборов данных часто делается предположение, что все выборки происходят из одного и того же генерирующего процесса и что генеративный процесс не имеет памяти о прошлых сгенерированных выборках.

Содержание

1 Введение
2 Определение
- 2.1 Определение для двух случайных величин
- 2.2 Определение для более чем двух случайных величин
3 Примеры
4 Обобщения
- 4.1 Заменяемые случайные переменные
- 4.2 Процесс Леви
5 См. также
6 Ссылки
- 6.1 Цитаты
- 6.2 Источники

Введение

В статистике обычно предполагается, что наблюдения в выборке фактически являются идентификаторами. Предположение (или требование), что наблюдения должны быть идентификаторами имеет тенденцию упрощать математику, лежащую в основе многих статистических методов (см. математическая статистика и статистическая теория ). Однако в практических приложениях статистического моделирования предположение может быть или не быть реалистичным. Чтобы частично проверить, насколько реалистично предположение для данного набора данных, можно вычислить корреляцию, нарисовать графики запаздывания или выполнить тест поворотной точки. Обобщения заменяемых случайных величин часто бывает достаточно, и его легче выполнить.

i.i.d. Допущение важно в классической форме центральной предельной теоремы, которая утверждает, что распределение вероятностей суммы (или среднего) i.i.d. переменные с конечной дисперсией приближаются к нормальному распределению.

Часто i.i.d. предположение возникает в контексте последовательностей случайных величин. Тогда «независимый и одинаково распределенный» означает, что элемент в последовательности не зависит от случайных величин, которые были перед ним. Таким образом, i.i.d. последовательность отличается от марковской последовательности, где распределение вероятностей для n-й случайной величины является функцией предыдущей случайной величины в последовательности (для марковской последовательности первого порядка). I.i.d. Последовательность не подразумевает вероятности для всех элементов пространства выборки или пространства событий должны быть одинаковыми. Например, повторные броски загруженных игральных костей приведут к i.i.d. последовательности, несмотря на смещение результатов.

Определение

Определение для двух случайных величин

Предположим, что случайные величины $X {\ displaystyle X}$ $X$ и $Y { \ displaystyle Y}$ $Y$ определены так, чтобы принимать значения в $I ⊆ R {\ displaystyle I \ substeq \ mathbb {R}}$ $I \ substeq {\ mathbb {R}}$ . Пусть $FX (x) = P ⁡ (X ≤ x) {\ displaystyle F_ {X} (x) = \ operatorname {P} (X \ leq x)}$ ${\ displaystyle F_ {X} (x) = \ operatorname {P} (X \ leq x)}$ и $FY (y) = п ⁡ (Y ≤ y) {\ displaystyle F_ {Y} (y) = \ operatorname {P} (Y \ leq y)}$ ${\ displaystyle F_ {Y} (y) = \ operatorname {P} (Y \ leq y)}$ быть кумулятивными функциями распределения из $X {\ displaystyle X}$ $X$ и $Y {\ displaystyle Y}$ $Y$ , соответственно, и обозначают их совместную кумулятивную функцию распределения как $FX, Y (x, y) знак равно п ⁡ (X ≤ x ∧ Y ≤ y) {\ displaystyle F_ {X, Y} (x, y) = \ operatorname {P} (X \ leq x \ land Y \ leq y)}$ ${\ displaystyle F_ {X, Y} (x, y) = \ operatorname {P} (X \ leq x \ land Y \ leq y)}$ .

Две случайные величины $X {\ displaystyle X}$ $X$ и $Y {\ displaystyle Y}$ $Y$ одинаково распределены тогда и только тогда, когда $FX (x) = FY (x) ∀ x ∈ I {\ displaystyle F_ {X} (x) = F_ {Y} (x) \, \ forall x \ in I}$ ${\ displaystyle F_ {X} (x) = F_ {Y} (x) \, \ forall x \ in I}$ .

Две случайные величины $X {\ displaystyle X}$ $X$ и $Y {\ displaystyle Y}$ $Y$ являются независимыми тогда и только тогда, когда $FX, Y (x, y) = FX (x) ⋅ FY (y) ∀ x, y ∈ I {\ displaystyle F_ {X, Y} (x, y) = F_ {X} (х) \ cdot F_ {Y} (y) \, \ forall x, y \ in I}$ ${\ displaystyle F_ {X, Y} (x, y) = F_ {X} (x) \ cdot F_ {Y } (y) \, \ forall x, y \ in I}$ . (См. Далее Независимость (теория вероятности) § Две случайные величины.)

Две случайные величины $X {\ displaystyle X}$ $X$ и $Y { \ displaystyle Y}$ $Y$ являются iid, если они независимы и одинаково распределены, т.е. тогда и только тогда, когда

FX (x) = FY (x) ∀ x ∈ IFX, Y ( Икс, Y) знак равно FX (Икс) ⋅ FY (Y) ∀ Икс, Y ∈ I {\ Displaystyle {\ begin {align} F_ {X} (x) = F_ {Y} (x) \, \ forall x \ in I \\ F_ {X, Y} (x, y) = F_ {X} (x) \ cdot F_ {Y} (y) \, \ forall x, y \ in I \ end {выровнено}} }

{\ displaystyle {\ begin {align} F_ {X} (x) = F_ {Y} (x) \, \ forall x \ in I \\ F_ {X, Y} (x, y) = F_ {X} (x) \ cdot F_ {Y} (y) \, \ forall x, y \ in I \ end {align}}}

(Eq.1)

Определение более чем двух случайных величин

Определение естественным образом распространяется на более чем две случайные величины. Мы говорим, что $n {\ displaystyle n}$ $n$ случайные величины $X 1,…, X n {\ displaystyle X_ {1}, \ ldots, X_ {n}}$ $X_ {1}, \ ldots, X_ {n}$ являются iid, если они независимы (см. Далее Независимость (теория вероятности) # Более двух случайных величин ) и одинаково распределены, т. Е. Тогда и только тогда, когда

FX 1 ( x) = FX k (x) ∀ k ∈ {1,…, n} и ∀ x ∈ IFX 1,…, X n (x 1,…, xn) = FX 1 (x 1) ⋅… ⋅ FX n ( xn) ∀ x 1,…, xn ∈ I {\ displaystyle {\ begin {выровнено} F_ {X_ {1}} (x) = F_ {X_ {k}} (x) \, \ forall k \ in \ {1, \ ldots, n \} {\ text {и}} \ forall x \ in I \\ F_ {X_ {1}, \ ldots, X_ {n}} (x_ {1}, \ ldots, x_ { n}) = F_ {X_ {1}} (x_ {1}) \ cdot \ ldots \ cdot F_ {X_ {n}} (x_ {n}) \, \ forall x_ {1}, \ ldots, x_ {n} \ in I \ end {align}}}

{\ displaystyle {\ begin {выровнено } F_ {X_ {1}} (x) = F_ {X_ {k}} (x) \, \ forall k \ in \ {1, \ ldots, n \} {\ text {and}} \ forall x \ in I \\ F_ {X_ {1}, \ ldots, X_ {n}} (x_ {1}, \ ldots, x_ {n}) = F_ {X_ {1}} (x_ {1}) \ cdot \ ldots \ cdot F_ {X_ {n}} (x_ {n}) \, \ forall x_ {1}, \ ldots, x_ {n} \ in I \ end {align}}}

(Eq.2)

где $FX 1,…, X n (x 1,…, xn) = P ⁡ (X 1 ≤ Икс 1 ∧… ∧ Икс n ≤ xn) {\ displaystyle F_ {X_ {1}, \ ldots, X_ {n}} (x_ {1}, \ ldots, x_ {n}) = \ operatorname {P} (X_ {1} \ leq x_ {1} \ land \ ldots \ land X_ {n} \ leq x_ {n})}$ ${\ displaystyle F_ {X_ {1}, \ ldots, X_ {n}} (x_ {1}, \ ldots, x_ {n}) = \ operatorname {P} (X_ {1} \ leq x_ {1} \ land \ ldots \ land X_ {n} \ leq x_ {n })}$ обозначает совместное совокупное распределение ion функция $X 1,…, X n {\ displaystyle X_ {1}, \ ldots, X_ {n}}$ $X_ {1}, \ ldots, X_ {n}$ .

Примеры

Ниже приведены примеры или применения i.i.d. случайные величины:

Последовательность результатов вращений справедливого или несправедливого колеса рулетки i.i.d. Одним из следствий этого является то, что если шарик рулетки приземляется на «красное», например, 20 раз подряд, следующее вращение будет не более или менее «черным», чем при любом другом вращении (см. Заблуждение игрока ).
Последовательность бросков справедливых или загруженных костей - iid
Последовательность справедливых или несправедливых бросков монеты - iid
В обработка сигналов и обработка изображений понятие преобразования в iid подразумевает две спецификации: часть «id» (id = идентично распределенная) и часть «i.» (i. = независимая):
- (id) уровень сигнала должен быть сбалансирован по оси времени;
- (i.) спектр сигнала должен быть выровнен, то есть преобразован с помощью фильтрации (такой как деконволюция ) в белый шум сигнал (т.е. сигнал, в котором все частоты одинаково присутствуют).

Следующие примеры выборок данных не удовлетворяют предположению iid:

Набор медицинских данных, в котором несколько образцов взяты у нескольких пациентов, очень вероятно, что из одни и те же пациенты могут быть коррелированы.
Выборки, взятые из процессов, зависящих от времени, например, данных переписи за год.

Обобщения

Многие результаты, которые были впервые доказаны при предположении, что случайные переменные iid оказались верными даже при более слабом предположении о распределении.

Обмениваемые случайные величины

Наиболее общее понятие, которое разделяет основные свойства i.i.d. переменные - это заменяемые случайные величины, введенные Бруно де Финетти. Возможность обмена означает, что, хотя переменные не могут быть независимыми, будущие переменные ведут себя как прошлые - формально любое значение конечной последовательности так же вероятно, как любая перестановка этих значений - совместное распределение вероятностей инвариантен относительно симметричной группы .

. Это дает полезное обобщение - например, выборка без замены не является независимой, но может заменяться.

процесс Леви

В стохастическом исчислении i.i.d. Переменные рассматриваются как дискретное время процесс Леви : каждая переменная показывает, насколько одна переменная изменяется от одного момента к другому. Например, последовательность испытаний Бернулли интерпретируется как процесс Бернулли. Можно обобщить это, чтобы включить процессы Леви с непрерывным временем, и многие процессы Леви можно рассматривать как пределы i.i.d. переменные - например, винеровский процесс является пределом процесса Бернулли.

См. Также

Ссылки

Независимые и одинаково распределенные случайные величины

Определение для двух случайных величин

Определение более чем двух случайных величин

Обмениваемые случайные величины

процесс Леви

Цитаты

Источники