Для случайных величин , которые определены на вероятностное пространство, совместное распределение вероятностей для является вероятностью распределение, которое дает вероятность того, что каждый из попадает в любой конкретный диапазон или дискретный набор значений, указанных для этой переменной. В случае только двух случайных величин это называется двумерным распределением, но эта концепция обобщается на любое количество случайных величин, давая многомерное распределение .
Совместное распределение вероятностей может быть выражено либо в терминах совместной кумулятивной функции распределения, либо в терминах совместной функции плотности вероятности (в случае непрерывных переменных ) или совместной вероятности функция масс (в случае дискретных переменных). Их, в свою очередь, можно использовать для поиска двух других типов распределений: предельное распределение, дающее вероятности для любой из переменных без ссылки на какие-либо конкретные диапазоны значений для других переменных, и условное распределение вероятностей, дающее вероятности для любого подмножества переменных, обусловленных конкретными значениями остальных переменных.
Предположим, что каждая из двух урн содержит в два раза больше красных шаров, чем синих шаров, и не содержит других, и предположим, что из каждой урны случайным образом выбирается один шар, причем два броска не зависят друг от друга. Пусть и будут дискретными случайными величинами, связанными с результатами розыгрыша из первой и второй урн. соответственно. Вероятность вытащить красный шар из любой из урн составляет 2/3, а вероятность вытащить синий шар - 1/3. Совместное распределение вероятностей можно представить в виде следующей таблицы:
A=Red | A=Blue | P (B) | |
---|---|---|---|
B = Red | ( 2/3) (2/3) = 4/9 | (1/3) (2/3) = 2/9 | 4/9 + 2/9 = 2/3 |
B = Синий | (2/3)(1/3)=2/9 | (1/3) (1/3) = 1/9 | 2/9 + 1/9 = 1/3 |
P (A) | 4/9+2/9=2/3 | 2/9 + 1/9 = 1/3 |
Каждая из четырех внутренних ячеек показывает вероятность конкретной комбинации результатов двух ничьих; эти вероятности являются совместным распределением. В любой одной ячейке вероятность возникновения конкретной комбинации (поскольку ничьи независимы) является произведением вероятности указанного результата для A и вероятности указанного результата для B. Сумма вероятностей в этих четырех ячейках равна 1, как это всегда верно для вероятностных распределений.
Более того, последняя строка и последний столбец дают предельное распределение вероятностей для A и предельное распределение вероятностей для B соответственно. Например, для A первая из этих ячеек дает сумму вероятностей того, что A будет красным, независимо от того, какая вероятность для B в столбце над ячейкой возникает, как 2/3. Таким образом, предельное распределение вероятностей для дает безусловные вероятности на на полях таблицы.
Рассмотрим подбрасывание двух справедливых монет ; пусть и будут дискретными случайными величинами, связанными с результатами первого и второго подбрасывания монеты соответственно. Каждый подбрасывание монеты представляет собой испытание Бернулли и имеет распределение Бернулли. Если на монете отображается «орел», то соответствующая случайная величина принимает значение 1, в противном случае - значение 0. Вероятность каждого из этих исходов равна 1/2, поэтому маргинальные (безусловные) функции плотности равны
Совместная функция массы вероятности и определяет вероятности для каждой пары результатов. Все возможные исходы:
Поскольку каждый результат равновероятно, что совместная функция массы вероятностей станет
Поскольку подбрасывание монеты независимое, шарнир функция массы вероятности является произведением маргиналов:
Рассмотрим результат броска кубика и пусть , если число четное (например, 2, 4 или 6) и в противном случае. Кроме того, пусть , если число простое (например, 2, 3 или 5) и иначе.
1 | 2 | 3 | 4 | 5 | 6 | |
---|---|---|---|---|---|---|
A | 0 | 1 | 0 | 1 | 0 | 1 |
B | 0 | 1 | 1 | 0 | 1 | 0 |
Тогда совместное распределение и , выраженное как функция массы вероятности, равно
Сумма этих вероятностей обязательно равна 1, поскольку вероятность некоторой комбинации и встречается 1.
Рассмотрим производственное предприятие, которое заполняет пластиковые бутылки со стиральным порошком. Измеряется вес каждой бутылки (Y) и объем содержащегося в ней стирального порошка (X).
Если в случайном эксперименте определяется более одной случайной величины, важно различать совместное распределение вероятностей X и Y и распределение вероятностей каждой переменной в отдельности. Индивидуальное распределение вероятностей случайной величины называется ее предельным распределением вероятностей. В общем, маргинальное распределение вероятностей X может быть определено из совместного распределения вероятностей X и других случайных величин.
Если совместная функция плотности вероятности случайной величины X и Y равна , функция предельной плотности вероятности для X и Y равна:
,
, где первый интеграл берется по всем точкам в диапазоне (X, Y), для которых X = x, а второй интеграл по всем точкам в диапазоне (X, Y), для которых Y = y.
Для пары случайных величин совместная кумулятивная функция распределения (CDF) задается как
(Eq.1) |
где правая часть представляет вероятность, что случайная величина принимает значение, меньшее или равное и, что принимает значение, меньшее или равное .
для случайных величин , объединенный CDF задается как
(Eq.2) |
Интерпретация случайных величин как случайного вектора дает более короткое обозначение:
Совместная вероятностная функция масс двух дискретных случайных переменные :
(Eq.3) |
или записано в терминах условного распределения
где - вероятность для при условии, что .
Обобщением предыдущего случая с двумя переменными является совместное распределение вероятностей дискретных случайных величин который равен:
(Уравнение 4) |
или эквивалентно
Это удостоверение известно как цепное правило вероятности.
Поскольку это вероятности, мы имеем в случае двух переменных
, который является обобщением для дискретные случайные величины до
совместная вероятность де Функция nsity для двух непрерывных случайных величин определяется как производная совместной кумулятивной функции распределения (см. Eq.1):
(уравнение 5) |
Это равно:
где и - это условные распределения из с учетом и из задано соответственно, и и - это предельные распределения для и соответственно.
Определение естественным образом распространяется на более чем две случайные величины:
(Eq.6) |
Опять же, поскольку это распределения вероятностей, мы имеем
соответственно
«Плотность смешанного стыка» может быть определена, если одна или несколько случайных величин непрерывны, а другие случайные величины дискретны. С одной переменной каждого типа мы имеем
Один пример ситуации, в которой можно найти непрерывное кумулятивное распределение одной случайной величины и другая случайная переменная, которая является дискретной, возникает, когда кто-то желает использовать логистическую регрессию для прогнозирования вероятности двоичного результата Y, обусловленного значением непрерывно распределенного результата . При нахождении кумулятивного распределения этого двоичного результата необходимо использовать "смешанную" плотность соединений, поскольку входные переменные изначально были определены в таком способ, которым нельзя коллективно присвоить ему ни функцию плотности вероятности, ни функцию массы вероятности. Формально - это функция плотности вероятности относительно показателя продукта на соответствующем поддерживает из и . Затем любое из этих двух разложений можно использовать для восстановления совместной кумулятивной функции распределения:
Определение обобщается на смесь произвольного числа дискретных и непрерывных случайных величин.
Обычно две случайные величины и являются независимыми тогда и только тогда, когда совместная кумулятивная функция распределения удовлетворяет
Две дискретные случайные величины и независимы тогда и только тогда, когда совместная функция масс вероятности удовлетворяет
для все и .
По мере того как количество независимых случайных событий растет, соответствующее значение совместной вероятности быстро уменьшается до нуля, согласно отрицательный экспоненциальный закон.
Аналогично, две абсолютно непрерывные случайные величины независимы тогда и только тогда, когда
для всех и . Это означает, что получение любой информации о значении одной или нескольких случайных величин приводит к условному распределению любой другой переменной, которое идентично ее безусловному (маргинальному) распределению; таким образом, никакая переменная не предоставляет никакой информации ни о какой другой переменной.
Если подмножество переменных является условно зависимым с учетом другого подмножества из них переменных, то функция массы вероятности совместного распределения равна . равно . Следовательно, он может быть эффективно представлен распределениями вероятностей более низкой размерности и . Такие отношения условной независимости могут быть представлены с помощью байесовской сети или функций копул.
Когда две или более случайные величины определены в вероятностном пространстве, полезно опишите, как они различаются вместе; то есть полезно измерить взаимосвязь между переменными. Распространенной мерой связи между двумя случайными величинами является ковариация. Ковариация - это мера линейной связи между случайными величинами. Если связь между случайными величинами является нелинейной, ковариация может не зависеть от этой связи.
Ковариация между случайной величиной X и Y, обозначенная как cov (X, Y), составляет:
Существует еще один показатель взаимосвязи между двумя случайными величинами, который часто легче интерпретировать, чем ковариацию.
Корреляция просто масштабирует ковариацию на произведение стандартного отклонения каждой переменной. Следовательно, корреляция - это безразмерная величина, которую можно использовать для сравнения линейных отношений между парами переменных в разных единицах измерения. Если точки в совместном распределении вероятностей X и Y, которые получают положительную вероятность, имеют тенденцию падать вдоль линии положительного (или отрицательного) наклона, ρ XY находится около +1 (или -1). Если ρ XY равно +1 или -1, можно показать, что точки в совместном распределении вероятностей, которые получают положительную вероятность, попадают точно вдоль прямой линии. Две случайные величины с ненулевой корреляцией называются коррелированными. Подобно ковариации, корреляция - это мера линейной связи между случайными величинами.
Корреляция между случайной величиной X и Y, обозначенная как
Именованные совместные распределения, которые часто встречаются в статистике, включают многомерное нормальное распределение, многомерное стабильное распределение, полиномиальное распределение, отрицательное полиномиальное распределение, многомерное гипергеометрическое распределение и эллиптическое распределение.