В статистике функция отклонения является сглаживающей функцией, которая отображает дисперсия случайной величины как функция ее среднего значения. Функция дисперсии играет большую роль во многих параметрах статистического моделирования. Он является основным компонентом структуры обобщенной линейной модели и инструментом, используемым в непараметрической регрессии, полупараметрической регрессии и функциональном анализе данных. В параметрическом моделировании функции дисперсии принимают параметрическую форму и явно описывают взаимосвязь между дисперсией и средним значением случайной величины. В непараметрической настройке предполагается, что функция дисперсии является сглаженной функцией.
Содержание
- 1 Intuition
- 2 Типа
- 2.1 Обобщенная линейная модель
- 2.1.1 Выведение
- 2.1.2 Пример - нормальный
- 2.1.3 Пример - Бернулли
- 2.1.4 Пример - Пуассон
- 2.1.5 Пример - Гамма
- 2.1.6 Приложение - взвешенные наименьшие квадраты
- 2.1. 7 Приложение - квази-правдоподобие
- 2.2 Непараметрический регрессионный анализ
- 3 Примечания
- 4 Ссылки
- 5 Внешние ссылки
Интуиция
В настройках регрессионной модели цель чтобы установить, существует ли связь между переменной ответа и набором переменных-предикторов. Кроме того, если связь действительно существует, цель состоит в том, чтобы как можно лучше описать эту связь. Основное предположение в линейной регрессии - постоянная дисперсия или (гомоскедастичность), что означает, что разные переменные отклика имеют одинаковую дисперсию своих ошибок на каждом уровне предикторов. Это предположение хорошо работает, когда переменная ответа и переменная предиктора вместе являются нормальными, см. нормальное распределение. Как мы увидим позже, функция дисперсии в настройке Normal является постоянной, однако мы должны найти способ количественной оценки гетероскедастичности (непостоянной дисперсии) в отсутствие совместной нормальности.
Когда вероятно, что ответ следует распределению, которое является членом экспоненциального семейства, обобщенная линейная модель может быть более подходящей для использования, и, более того, когда мы не хотим навязывая параметрическую модель нашим данным, может быть полезен подход непараметрической регрессии. Важность возможности моделирования дисперсии как функции среднего заключается в улучшенном выводе (в параметрической настройке) и оценке функции регрессии в целом для любой настройки.
Функции дисперсии играют очень важную роль в оценке и выводе параметров. Как правило, оценка максимального правдоподобия требует определения функции правдоподобия. Это требование подразумевает, что сначала необходимо указать распределение наблюдаемых переменных отклика. Однако для определения квази-правдоподобия нужно только указать взаимосвязь между средним значением и дисперсией наблюдений, чтобы затем иметь возможность использовать функцию квази-правдоподобия для оценки. Оценка квази-правдоподобия особенно важна полезен при избыточной дисперсии. Чрезмерная дисперсия возникает, когда данные более изменчивы, чем следовало ожидать в противном случае в соответствии с предполагаемым распределением данных.
Таким образом, чтобы гарантировать эффективный вывод параметров регрессии и функции регрессии, необходимо учитывать гетероскедастичность. Функции дисперсии количественно определяют взаимосвязь между дисперсией и средним значением наблюдаемых данных и, следовательно, играют важную роль в оценке и выводе регрессии.
Типы
Функция дисперсии и ее приложения используются во многих областях статистического анализа. Очень важно использовать эту функцию в рамках обобщенных линейных моделей и непараметрической регрессии.
Обобщенной линейной модели
Когда член экспоненциальной семейство, функция дисперсии может быть легко выведена. Общая форма функции дисперсии представлена в контексте экспоненциального семейства, а также в конкретных формах для нормального, Бернулли, Пуассона и гаммы. Кроме того, мы описываем приложения и использование функций дисперсии в оценке максимального правдоподобия и оценки квази правдоподобия.
Деривация
Обобщенная линейная модель (GLM), является обобщением обычного регрессионного анализа, который распространяется на любой член экспоненциального семейства. Это особенно полезно, когда переменная ответа является категориальной, двоичной или подвержена ограничению (например, только положительные ответы имеют смысл). Краткое описание компонентов GLM приведено на этой странице, но для получения более подробной информации см. Страницу обобщенных линейных моделей.
A GLM состоит из трех основных компонентов:
- 1. Случайный компонент: распределение y из экспоненциального семейства,
- 2. Линейный предсказатель:
- 3. Функция связи:
Во-первых, важно вывести пару ключевых свойств экспоненциального семейства.
Любая случайная величина в экспоненциальном семействе имеет функцию плотности вероятности вида
с логарифмической вероятностью,
Здесь - это канонический параметр и интересующий параметр, а - нежелательный параметр, который играет роль в дисперсии. Мы используем Идентичности Бартлетта, чтобы получить общее выражение для функции отклонения . Первый и второй результаты Бартлетта гарантируют, что при подходящих условиях (см. интегральное правило Лейбница ) для функции плотности, зависящей от ,
Эти тождества приводят к простым вычислениям ожидаемого значения и дисперсии любой случайной величины в семействе экспонент .
Ожидаемое значение Y: Принимая первую производную е относительно журнала плотности в форме экспоненциального семейства, описанной выше, мы имеем
Затем, взяв ожидаемое значение и установив его равным нулю, мы получим,
Дисперсия Y: Для вычисления дисперсии мы используем второе тождество Бартлетта,
Теперь у нас есть связь между и , а именно
- и , что позволяет установить связь между и дисперсия,
Обратите внимание, поскольку , то обратимо. Мы выводим функцию дисперсии для нескольких распространенных распределений.
Пример - нормальное
Нормальное распределение - это особый случай, когда функция дисперсии является постоянной. Пусть затем мы помещаем функцию плотности y в форму экспоненциального семейства, описанного выше:
где
Чтобы вычислить функцию дисперсии , сначала мы выражаем как функция от . Затем мы преобразуем в функцию
Следовательно, функция дисперсии постоянна.
Пример - Бернулли
Пусть , тогда мы выражаем плотность распределения Бернулли в экспоненциальной форме семейства,
- logit (p), что дает нам expit
- и
- expit
Это дает нам
Пример - Пуассон
Пусть , тогда мы выражаем плотность Распределение Пуассона в форме экспоненциального семейства,
- , что дает нам
- и
Это дает нам
Здесь мы видим центральное свойство пуассоновских данных: дисперсия равна среднему.
Пример - Гамма
Гамма-распределение и функция плотности могут быть выражены с помощью различных параметризаций. Мы будем использовать форму гаммы с параметрами
Тогда в форме экспоненциального семейства имеем
И мы имеем
Применение - взвешенный метод наименьших квадратов
Очень важным применением функции дисперсии является ее использование для оценки параметров и вывода, когда переменная отклика также имеет требуемую форму экспоненциального семейства как и в некоторых случаях, когда это не так (что мы обсудим в разделе квазивероятность ). Взвешенный метод наименьших квадратов (WLS) является частным случаем обобщенного метода наименьших квадратов. Каждый член в критерии WLS включает вес, который определяет, какое влияние оказывает каждое наблюдение на окончательные оценки параметров. Как и в обычном методе наименьших квадратов, цель состоит в том, чтобы оценить неизвестные параметры в функции регрессии путем нахождения значений для оценок параметров, которые минимизируют сумму квадратов отклонений между наблюдаемыми ответами и функциональной частью модели.
Хотя WLS предполагает независимость наблюдений, он не предполагает равной дисперсии и, следовательно, является решением для оценки параметров при наличии гетероскедастичности. Теорема Гаусса – Маркова и Эйткен демонстрируют, что лучшая линейная несмещенная оценка (СИНИЙ), несмещенная оценка с минимальной дисперсией, имеет каждый вес, равный обратной величине дисперсии измерения.
В рамках GLM наша цель - оценить параметры , где . Следовательно, мы хотели бы минимизировать , и если мы определим матрица весов W как
где определены в предыдущем разделе, это позволяет выполнять итеративно переназначенное методом наименьших квадратов (IRLS) оценку параметров. См. Раздел итеративно взвешенных наименьших квадратов для получения дополнительной информации и выводов.
Также важно отметить, что когда матрица весов имеет описанную здесь форму, минимизируйте выражение также минимизирует расстояние Пирсона. Подробнее см. Корреляция расстояния.
Матрица W выпадает прямо из оценочных уравнений для оценки . Оценка максимального правдоподобия для каждого параметра , требуется
- , где - логарифм правдоподобия.
Глядя на одно наблюдение, мы имеем
Это дает нам
- и отмечая, что
- мы имеем, что
Гессен матрица определяется аналогичным образом и может быть представлена как
Обратите внимание на то, что информация Fisher (FI),
- , допускает асимптотическое приближение
- , и, следовательно, может быть выполнен вывод.
Приложение - квазивероятность
Поскольку большинство функций GLM зависит только от первых двух моментов распределения, а не от всего распределения, квази-правдоподобие можно получить, просто указав функцию связи и функцию дисперсии. То есть нам нужно указать
- - Функция связи:
- - Функция дисперсии:
С указанной функцией дисперсии и функцией связи мы можем разработать в качестве альтернативы логарифмически правдоподобию функция, функция оценки и информация Фишера, квазивероятность, квази-оценка и квазиинформация . Это позволяет сделать полный вывод о .
Квази-правдоподобие (QL)
Хотя это и называется квази-правдоподобием, на самом деле это квази- log - вероятность. КЖ для одного наблюдения:
И поэтому QL для всех n наблюдений составляет
Из QL у нас есть квази-оценка
квази-оценка (QS)
Вспомните функцию оценки, Uдля данных с журналом -правдоподобие равно
Мы получаем квази-оценку аналогичным образом,
Отмечая, что для одного наблюдения оценка составляет
Первые два уравнения Бартлетта удовлетворяются для квази-оценки, а именно
и
Кроме того, квази-оценка линейна в y.
В конечном итоге цель состоит в том, чтобы найти информацию об интересующих параметрах . И QS, и QL фактически являются функциями . Напомним, и , следовательно,
Квазиинформация (QI)
Квазиинформация похожа на Fisher информация,
QL, QS, QI как функции от
QL, QS и QI - все представляют собой строительные блоки для вывода об интересующих параметрах, и поэтому важно выразить QL, QS и QI - все как функции от .
Снова вспоминая, что , мы выводим выражения для QL, QS и QI, параметризованные в .
Квази-правдоподобие в ,
QS как функция от есть здесь re
Где,
Квазиинформационная матрица в равно,
Получение функции оценки и информации позволяет оценивать параметры и делать выводы таким же образом, как описано в Application - взвешенный метод наименьших квадратов.
Непараметрический регрессионный анализ
График рассеяния лет в высшей лиге по сравнению с заработной платой (x 1000 долларов). Линия - это тренд в среднем. График демонстрирует, что дисперсия не является постоянной.
Сглаженная условная дисперсия относительно сглаженного условного среднего. Квадратичная форма указывает на гамма-распределение. Функция дисперсии гаммы: V (
) =
Непараметрическая оценка функция дисперсии и ее важность широко обсуждались в литературе. В непараметрическом регрессионном анализе цель состоит в том, чтобы выразить ожидаемое значение вашей переменной ответа (y ) в виде функция ваших предикторов (X ). То есть мы хотим оценить функцию mean, без параметрической формы. Существует множество форм непараметрических методов сглаживания, помогающих оценить функцию . Интересный подход - также рассмотреть непараметрическую функцию отклонения, . Непараметрическая функция дисперсии позволяет взглянуть на функцию среднего значения, поскольку она связана с функцией дисперсии, и замечать закономерности в данных.
Пример подробно описан на рисунках справа. Целью проекта было определить (среди прочего), влияет ли предсказатель количество лет в высшей лиге (бейсбол) на ответ, зарплата, плеер сделал. Начальная диаграмма разброса данных указывает на то, что данные имеют гетероскедастичность, поскольку дисперсия не является постоянной на каждом уровне предсказателя. Поскольку мы можем визуально обнаружить непостоянную дисперсию, теперь полезно построить график , и посмотрите, указывает ли форма на какое-либо известное распределение. Можно оценить и с использованием общего сглаживания метод. График непараметрической сглаженной функции дисперсии может дать исследователю представление о взаимосвязи между дисперсией и средним значением. Картинка справа показывает квадратичную зависимость между средним значением и дисперсией. Как мы видели выше, функция гамма-дисперсии квадратична в среднем.
Примечания
Ссылки
- МакКаллаг, Питер ; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Лондон: Чепмен и Холл. ISBN 0-412-31760-5.
- Хенрик Мэдсен и Пол Тайрегод (2011). Введение в общие и обобщенные линейные модели. Чепмен и Холл / CRC. ISBN 978-1-4200-9155-7. CS1 maint: ref = harv (ссылка )
Внешние ссылки
- СМИ, связанные с Функция дисперсии в Wikimedia Commons