В теории вероятностей и статистике, коллекция случайных величин является независимым и одинаково распределенным, если каждая случайная величина имеет то же распределение вероятностей, что и другие, и все они взаимно независимы. Это свойство обычно обозначается как i.i.d. или iid, или IID. Здесь i.i.d. используется, потому что он наиболее распространен.
В теории машинного обучения i.i.d. Для обучающих наборов данных часто делается предположение, что все выборки происходят из одного и того же генерирующего процесса и что генеративный процесс не имеет памяти о прошлых сгенерированных выборках.
В статистике обычно предполагается, что наблюдения в выборке фактически являются идентификаторами. Предположение (или требование), что наблюдения должны быть идентификаторами имеет тенденцию упрощать математику, лежащую в основе многих статистических методов (см. математическая статистика и статистическая теория ). Однако в практических приложениях статистического моделирования предположение может быть или не быть реалистичным. Чтобы частично проверить, насколько реалистично предположение для данного набора данных, можно вычислить корреляцию, нарисовать графики запаздывания или выполнить тест поворотной точки. Обобщения заменяемых случайных величин часто бывает достаточно, и его легче выполнить.
i.i.d. Допущение важно в классической форме центральной предельной теоремы, которая утверждает, что распределение вероятностей суммы (или среднего) i.i.d. переменные с конечной дисперсией приближаются к нормальному распределению.
Часто i.i.d. предположение возникает в контексте последовательностей случайных величин. Тогда «независимый и одинаково распределенный» означает, что элемент в последовательности не зависит от случайных величин, которые были перед ним. Таким образом, i.i.d. последовательность отличается от марковской последовательности, где распределение вероятностей для n-й случайной величины является функцией предыдущей случайной величины в последовательности (для марковской последовательности первого порядка). I.i.d. Последовательность не подразумевает вероятности для всех элементов пространства выборки или пространства событий должны быть одинаковыми. Например, повторные броски загруженных игральных костей приведут к i.i.d. последовательности, несмотря на смещение результатов.
Предположим, что случайные величины и определены так, чтобы принимать значения в . Пусть и быть кумулятивными функциями распределения из и , соответственно, и обозначают их совместную кумулятивную функцию распределения как .
Две случайные величины и одинаково распределены тогда и только тогда, когда .
Две случайные величины и являются независимыми тогда и только тогда, когда . (См. Далее Независимость (теория вероятности) § Две случайные величины.)
Две случайные величины и являются iid, если они независимы и одинаково распределены, т.е. тогда и только тогда, когда
(Eq.1) |
Определение естественным образом распространяется на более чем две случайные величины. Мы говорим, что случайные величины являются iid, если они независимы (см. Далее Независимость (теория вероятности) # Более двух случайных величин ) и одинаково распределены, т. Е. Тогда и только тогда, когда
(Eq.2) |
где обозначает совместное совокупное распределение ion функция .
Ниже приведены примеры или применения i.i.d. случайные величины:
Следующие примеры выборок данных не удовлетворяют предположению iid:
Многие результаты, которые были впервые доказаны при предположении, что случайные переменные iid оказались верными даже при более слабом предположении о распределении.
Наиболее общее понятие, которое разделяет основные свойства i.i.d. переменные - это заменяемые случайные величины, введенные Бруно де Финетти. Возможность обмена означает, что, хотя переменные не могут быть независимыми, будущие переменные ведут себя как прошлые - формально любое значение конечной последовательности так же вероятно, как любая перестановка этих значений - совместное распределение вероятностей инвариантен относительно симметричной группы .
. Это дает полезное обобщение - например, выборка без замены не является независимой, но может заменяться.
В стохастическом исчислении i.i.d. Переменные рассматриваются как дискретное время процесс Леви : каждая переменная показывает, насколько одна переменная изменяется от одного момента к другому. Например, последовательность испытаний Бернулли интерпретируется как процесс Бернулли. Можно обобщить это, чтобы включить процессы Леви с непрерывным временем, и многие процессы Леви можно рассматривать как пределы i.i.d. переменные - например, винеровский процесс является пределом процесса Бернулли.