Знак ковариации двух случайных величин X и Y
В теории вероятностей и статистика, ковариация - это мера совместной изменчивости двух случайных величин. Если большие значения одной переменной в основном соответствуют большим значениям другой переменной, и то же самое верно для меньших значений (т. Е. Переменные имеют тенденцию показывать аналогичное поведение), ковариация положительная. В противоположном случае, когда большие значения одной переменной в основном соответствуют меньшим значениям другой (т.е. переменные имеют тенденцию показывать противоположное поведение), ковариация отрицательная. Знак ковариации, таким образом, показывает тенденцию в линейной зависимости между переменными. Величину ковариации непросто интерпретировать, поскольку она не нормирована и, следовательно, зависит от величин переменных. нормализованная версия ковариации, коэффициент корреляции , однако, показывает по своей величине силу линейной связи.
Необходимо различать (1) ковариацию двух случайных величин, которая является параметром population , который можно рассматривать как свойство совместное распределение вероятностей, и (2) ковариация выборки, которая помимо того, что служит дескриптором выборки, также служит в качестве оценочного значения параметра совокупности.
Содержание
- 1 Определение
- 1.1 Определение для сложных случайных величин
- 1.2 Дискретные случайные величины
- 2 Пример
- 3 Свойства
- 3.1 Ковариация с самим собой
- 3.2 Ковариация линейных комбинаций
- 3.3 Ковариационная идентичность Хёффдинга
- 3.4 Некоррелированность и независимость
- 3.5 Связь со внутренними продуктами
- 4 Вычисление выборочной ковариации
- 5 Обобщения
- 5.1 Автоковариационная матрица реальных случайных векторов
- 5.2 Кросс-ковариационная матрица реальных случайных векторов
- 6 Численные вычисления
- 7 Комментарии
- 8 Приложения
- 8.1 В генетике и молекулярной биологии
- 8.2 В финансовой экономике
- 8.3 В метеорологических и океанографических данных ассимиляция
- 8.4 В микрометеорологии
- 8.5 В извлечении признаков
- 8.6 В машинном обучении
- 9 См. также
- 10 Ссылки
Определение
Для двух совместно распределенных вещественные -значные случайные величины и с конечными секундами, ковариация определяется как ожидаемое значение (или среднее значение) произведения их отклонений от их индивидуальных ожидаемых значений:
| | (Eq.1) |
где - ожидаемое значение из , также известное как среднее значение . Ковариацию также иногда обозначают как или по аналогии с дисперсией. Используя свойство линейности ожиданий, это можно упростить до ожидаемой стоимости их продукта за вычетом произведения их ожидаемых значений:
но это уравнение подвержен катастрофической отмене (см. раздел о числовых вычислениях ниже).
единицами измерения ковариации являются те из , умноженные на . Напротив, коэффициенты корреляции, которые зависят от ковариации, являются безразмерной мерой линейной зависимости. (Фактически, коэффициенты корреляции можно просто понимать как нормализованную версию ковариации.)
Определение для сложных случайных величин
Ковариация между двумя комплексными случайными величинами определяется как
Обратите внимание на комплексное сопряжение второго фактора в определении.
Дискретные случайные величины
Если пара случайных величин может принимать значения для , с равными вероятностями , тогда ковариация может быть эквивалентно записана в терминах средних и как
Это также может быть эквивалентно выражено, без прямой ссылки на средства, как
В целом, если есть возможных реализаций , а именно , но с возможно неравными вероятностями для , тогда ковариация
Пример
Геометрическая интерпретация примера ковариации. Каждый детеныш oid - это ограничивающая рамка его точки (x, y, f (x, y)), а значения X и Y (пурпурная точка). Ковариация - это сумма объемов красных кубоидов минус синие кубоиды.
Предположим, что и имеют следующую функцию совместной вероятности, в которой шесть центральных ячеек дают дискретные совместные вероятности шести гипотетических реализаций :
| x | | |
---|
5 | 6 | 7 |
---|
y | 8 | 0 | 0,4 | 0,1 | 0,5 |
---|
9 | 0,3 | 0 | 0,2 | 0,5 |
---|
|
| 0,3 | 0,4 | 0,3 | 1 |
---|
может принимать три значения (5, 6 и 7), а может принимать два (8 и 9). Их средние значения равны и . Тогда
Свойства
Ковариация с самим собой
Дисперсия - это особый случай ковариации, при котором две переменные идентичны (то есть, когда одна переменная всегда принимает то же значение, что и другое):
Ковариация линейных комбинаций
Если , , и - случайные величины с действительным знаком, а - константы с действительным знаком., то следующие факты являются следствием определения ковариации:
Для последовательности случайных величин в реальном -значное и константы , мы имеем
тождество ковариации Хёффдинга
Полезное тождество для вычисления ковариации между двумя случайными величинами - тождество ковариации Хёффдинга:
где - совместная кумулятивная функция распределения случайного вектора и - это маргиналы.
Некоррелированность и независимость
Случайные переменные, ковариация которых равна нулю, называются некоррелированными. Точно так же компоненты случайных векторов, ковариационная матрица которых равна нулю в каждой записи за пределами главной диагонали, также называются некоррелированными.
Если и являются независимыми случайными величинами, тогда их ковариация равна нулю. Это следует потому, что при независимости
Обратное, однако, обычно неверно. Например, пусть равномерно распределен в и пусть . Очевидно, что и не являются независимыми, но
В этом случае связь между и является нелинейным, а корреляция и ковариация - это меры линейной зависимости между двумя случайными величинами. Этот пример показывает, что если две случайные величины некоррелированы, это, как правило, не означает, что они независимы. Однако, если две переменные совместно нормально распределены (но не если они просто индивидуально нормально распределены ), некоррелированность подразумевает независимость.
Связь с внутренними продуктами
Многие свойства ковариации можно элегантно выделить, наблюдая, что она удовлетворяет свойствам, аналогичным свойствам внутреннего продукта :
- билинейной : для констант и и случайных величин ,
- симметричный:
- положительный полуопределенный : для всех случайных величин и означает, что - это константа nt почти наверняка.
На самом деле эти свойства подразумевают, что ковариация определяет внутренний продукт по векторному пространству, полученному путем взятия подпространства случайных величин с конечным вторым моментом и идентификации любых двух, которые отличаются на константу. (Это отождествление превращает положительную полуопределенность, приведенную выше, в положительную определенность.) Это фактор-векторное пространство изоморфно подпространству случайных величин с конечным вторым моментом и средним нулем; в этом подпространстве ковариация - это в точности внутреннее произведение L функций с действительными значениями в пространстве выборки.
В результате для случайных величин с конечной дисперсией неравенство
выполняется с помощью неравенства Коши – Шварца.
Доказательство: Если , то тривиально. В противном случае пусть случайная величина
Тогда мы имеем
Вычисление выборочной ковариации
Выборочные ковариации среди переменных на основе наблюдений за каждым из них, взятых из ненаблюдаемой популяции, даются с помощью матрицы с записями
который это оценка ковариации между переменной и переменная .
Выборочное среднее и выборочная ковариационная матрица - это несмещенные оценки для среднего и ковариационная матрица случайного вектора , вектора, j-й элемент которого - одна из случайных величин. Причина, по которой образец ковариационной матрицы имеет в знаменателе , а не по сути, среднее значение генеральной совокупности неизвестно и заменяется выборочным средним . Если известно среднее значение генеральной совокупности , аналогичная несмещенная оценка дается как
- .
Обобщения
Матрица автоковариации вещественных случайных векторов
Для вектора из совместно распределенных случайных величин с конечными секундами, его матрица автоковариации (также известная как матрица дисперсии-ковариации или просто ковариационная матрица ) (также обозначается ) определяется как
Пусть будет случайным вектор с ковариационной матрицей Σ, и пусть A будет матрицей, которая может воздействовать на слева. Ковариационная матрица произведения матрица-вектор A X имеет вид:
Это прямой результат линейности математического ожидания и полезен при применении линейное преобразование, такое как преобразование отбеливания, в вектор.
Матрица кросс-ковариации вещественных случайных векторов
Для реальных случайных векторов и , матрица кросс-ковариаций равна
| | (Eq.2) |
где - транспонировать из t вектор (или матрица) .
The -й элемент эта матрица равна ковариации между i-м скалярный компонент и j-й скалярный компонент . В частности, - это транспонирование of .
Числовое вычисление
Когда , уравнение подвержен катастрофической отмене, когда вычисляется с помощью арифметики с плавающей запятой, поэтому этого следует избегать в компьютерных программах, когда данные не были центрированы ранее. В этом случае следует отдавать предпочтение численно стабильным алгоритмам. Комментарии
Ковариацию иногда называют мерой «линейной зависимости» между двумя параметрами. ndom переменные. Это не означает то же самое, что и в контексте линейной алгебры (см. линейная зависимость ). Когда ковариация нормализована, получается коэффициент корреляции Пирсона, который дает степень согласия для наилучшей возможной линейной функции, описывающей связь между переменными. В этом смысле ковариация - это линейная мера зависимости.
Ковариационная матрица важна для оценки начальных условий, необходимых для запуска моделей прогноза погоды, процедуры, известной как усвоение данных. «Ковариационная матрица ошибок прогноза» обычно строится между возмущениями вокруг среднего состояния (климатологического или ансамблевого). «Ковариационная матрица ошибок наблюдения» построена для представления величины объединенных ошибок наблюдений (по диагонали) и коррелированных ошибок между измерениями (по диагонали). Это пример его широко распространенного применения для фильтрации Калмана и более общего оценки состояния для изменяющихся во времени систем.
Ковариационная матрица используется для определения спектральной изменчивости сигнала.
Ковариационная матрица используется в анализ главных компонентов для уменьшения размерности функций при предварительной обработке данных.
См. Также