Коэффициент детерминации

редактировать
Обычный метод наименьших квадратов регрессия закона Окуня. Поскольку линия регрессии не сильно пропускает ни одну из точек, R регрессии относительно высок. Сравнение оценки Тейла – Сена (черный) и простой линейной регрессии (синий) для набора точек с выбросами. Из-за большого количества выбросов ни одна из линий регрессии не соответствует данным хорошо, что измеряется тем фактом, что ни одна из них не дает очень высокого R.

В статистике коэффициент детерминации, обозначаемый R или r и произносимый как «R в квадрате», представляет собой долю дисперсии в зависимой переменной, которая может быть предсказана на основе независимых переменных.

Это статистика, используемая в контексте статистических моделей, основная цель которых - либо прогноз будущих результатов, либо тестирование гипотез на основе другой связанной информации. Он обеспечивает меру того, насколько хорошо наблюдаемые результаты воспроизводятся моделью, на основе доли общей вариации результатов, объясняемой моделью.

Существует несколько определений R, которые лишь иногда эквивалентны. Один класс таких случаев включает случай простой линейной регрессии, где r используется вместо R. Когда включен отрезок , тогда r - это просто квадрат корреляции выборки . коэффициент (т. е. r) между наблюдаемыми результатами и наблюдаемыми значениями предиктора. Если включены дополнительные регрессоры, R представляет собой квадрат коэффициента множественной корреляции. В обоих таких случаях коэффициент детерминации обычно находится в диапазоне от 0 до 1.

Есть случаи, когда вычислительное определение R может давать отрицательные значения, в зависимости от используемого определения. Это может возникнуть, когда прогнозы, которые сравниваются с соответствующими результатами, не были получены в результате процедуры подгонки модели с использованием этих данных. Даже если была использована процедура подгонки модели, R все еще может быть отрицательным, например, когда линейная регрессия проводится без включения точки пересечения или когда для подгонки данных используется нелинейная функция. В случаях, когда возникают отрицательные значения, среднее значение данных лучше соответствует результатам, чем значения подобранной функции, в соответствии с этим конкретным критерием. Поскольку наиболее общее определение коэффициента детерминации также известно как коэффициент эффективности модели Нэша – Сатклиффа, это последнее обозначение предпочтительнее во многих областях, поскольку обозначает показатель согласия, который может варьироваться от От −∞ до 1 (т. Е. Может давать отрицательные значения) с буквой в квадрате сбивает с толку.

При оценке степени соответствия смоделированных (Y pred) и измеренных (Y obs) значений, нецелесообразно основывать это на R линейной регрессии (т.е. Y obs = m · Y pred + b). R количественно определяет степень любой линейной корреляции между Y obs и Y pred, в то время как для оценки согласия следует принимать во внимание только одну конкретную линейную корреляцию: Y obs = 1 · Y pred + 0 (т. Е. Строка 1: 1).

Содержание

  • 1 Определения
    • 1.1 Связь с необъяснимой дисперсией
    • 1.2 Как объяснено, дисперсия
    • 1.3 Квадрат коэффициента корреляции
  • 2 Интерпретация
    • 2.1 В многомерной линейной модели
    • 2.2 Инфляция R
    • 2.3 Предостережения
  • 3 Расширения
    • 3.1 Скорректированный R
    • 3.2 Коэффициент частичной детерминации
    • 3.3 Обобщение и разложение R
    • 3.4 R в логистической регрессии
  • 4 Сравнение с нормой остатков
  • 5 История
  • 6 См. Также
  • 7 Примечания
  • 8 Дополнительная литература

Определения

R 2 = 1 - SS res SS tot {\ displaystyle R ^ {2} = 1 - {\ frac {\ color {blue} {SS _ {\ text {res}}}} {\ color {red} {SS _ {\ text {tot}}}}}}R^{2}=1-{\frac {\color {blue}{SS_{\text{res}}}}{\color {red}{SS_{\text{tot}}}}}. Чем лучше линейная регрессия (справа) соответствует данным по сравнению с простое среднее (на левом графике), чем ближе значение R 2 {\ displaystyle R ^ {2}}R^{2}к 1. Площади синих квадратов представляют собой квадраты остатков относительно к линейной регрессии. Области красных квадратов представляют собой квадраты остатков по отношению к среднему значению.

A набор данных имеет n значений, отмеченных y 1,..., y n (вместе известные как y i или как вектор y = [y 1,..., y n ]), каждый связанный с подобранным (или смоделированным, или прогнозируемым) значением f 1,..., f n (известный как f i, или иногда ŷ i, как вектор f ).

Определите остатки как e i = y i - f i (формируя вектор e ).

Если y ¯ {\ displaystyle {\ bar {y}}}{\bar {y}}- это среднее значение наблюдаемых данных:

y ¯ = 1 n ∑ i = 1 nyi {\ displaystyle {\ bar {y}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} y_ {i}}{\bar {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}

тогда изменчивость набора данных может быть измеряется с помощью двух формул суммы квадратов :

SS tot = ∑ я (yi - y ¯) 2 {\ displaystyle SS _ {\ text {tot}} = \ sum _ {i} (y_ {i} - {\ bar {y}}) ^ {2}}{\displaystyle SS_{\text{tot}}=\sum _{i}(y_{i}-{\bar {y}})^{2}}
SS res = ∑ i (yi - fi) 2 = ∑ iei 2 {\ displaystyle SS _ {\ text {res}} = \ sum _ { i} (y_ {i} -f_ {i}) ^ {2} = \ sum _ {i} e_ {i} ^ {2} \,}{\displaystyle SS_{\text{res}}=\sum _{i}(y_{i}-f_{i})^{2}=\sum _{i}e_{i}^{2}\,}

Наиболее общее определение коэффициента детерминации:

R 2 = 1 - SS res SS tot {\ displaystyle R ^ {2} = 1- {SS _ {\ rm {res}} \ over SS _ {\ rm {tot}}} \,}{\displaystyle R^{2}=1-{SS_{\rm {res}} \over SS_{\rm {tot}}}\,}

В лучшем В этом случае смоделированные значения точно соответствуют наблюдаемым, в результате получается SS res = 0 {\ displaystyle SS _ {\ text {res}} = 0}{\displaystyle SS_{\text{res}}=0}и R 2 = 1 {\ displaystyle R ^ {2} = 1}{\displaystyle R^{2}=1}. Базовая модель, которая всегда предсказывает y ¯ {\ displaystyle {\ bar {y}}}{\bar {y}}, будет иметь R 2 = 0 {\ displaystyle R ^ {2} = 0}{\displaystyle R^{2}=0}. Модели, которые имеют худшие прогнозы, чем этот базовый уровень, будут иметь отрицательную R 2 {\ displaystyle R ^ {2}}R^{2}.

отношение к необъяснимой дисперсии

В общем виде R можно рассматривать как связана с долей необъяснимой дисперсии (FVU), поскольку второй член сравнивает необъяснимую дисперсию (дисперсию ошибок модели) с общей дисперсией (данных):

R 2 = 1 - FVU {\ displaystyle R ^ {2} = 1 - {\ text {FVU}}}{\displaystyle R^{2}=1-{\text{FVU}}}

Как объяснено, дисперсия

Предположим, R = 0,49. Это означает, что 49% изменчивости зависимой переменной было учтено, а остальные 51% изменчивости все еще не учтены. В некоторых случаях общая сумма квадратов равна сумме двух других сумм квадратов, определенных выше,

Если сумма квадратов регрессии, также называемая объясненной суммой квадратов, определяется по формуле:

SS reg = ∑ i (fi - y ¯) 2 {\ displaystyle SS _ {\ text {reg}} = \ sum _ {i} (f_ {i} - {\ bar {y}}) ^ {2}}{\displaystyle SS_{\text{reg}}=\sum _{i}(f_{i}-{\bar {y}})^{2}}

, затем

SS res + SS reg = SS tot {\ displaystyle SS _ {\ text {res}} + SS _ {\ text {reg}} = SS _ {\ text {tot}}}{\displaystyle SS_{\text{res}}+SS_{\text{reg}}=SS_{\text{tot}}}

См. раздел Разделение в общей модели OLS для получения этого результата для одного случая, когда соотношение выполняется. Когда это соотношение действительно выполняется, приведенное выше определение R эквивалентно

R 2 = SS reg SS tot = SS reg / n SS tot / n {\ displaystyle R ^ {2} = {\ frac {SS _ {\ text {reg}}} {SS _ {\ text {tot}}}} = {\ frac {SS _ {\ text {reg}} / n} {SS _ {\ text {tot}} / n}}}{\displaystyle R^{2}={\frac {SS_{\text{reg}}}{SS_{\text{tot}}}}={\frac {SS_{\text{reg}}/n}{SS_{\text{tot}}/n}}}

где n - количество наблюдений (наблюдений) по переменным.

В этой форме R выражается как отношение объясненной дисперсии (дисперсия прогнозов модели, которая равна SS reg / n) к общей дисперсии ( выборочная дисперсия зависимой переменной, которая составляет SS tot / n).

Это разделение суммы квадратов имеет место, например, когда значения модели ƒ i были получены с помощью линейной регрессии. Более мягкое достаточное условие выглядит следующим образом: Модель имеет вид

fi = α ^ + β ^ qi {\ displaystyle f_ {i} = {\ widehat {\ alpha}} + {\ widehat {\ beta}} q_ {i} \,}{\displaystyle f_{i}={\widehat {\alpha }}+{\widehat {\beta }}q_{i}\,}

где q i - произвольные значения, которые могут зависеть или не зависеть от i или других свободных параметров (общий выбор q i = x i - это лишь один частный случай), а оценки коэффициентов α ^ {\ displaystyle {\ widehat {\ alpha}}}{\displaystyle {\widehat {\alpha }}}и β ^ {\ displaystyle {\ widehat {\ beta}}}{\displaystyle {\widehat {\beta }}}получаются путем минимизации остаточной суммы квадратов.

Этот набор условий является важным и имеет ряд последствий для свойств подогнанных остатков и смоделированных значений. В частности, при этих условиях:

f ¯ = y ¯. {\ displaystyle {\ bar {f}} = {\ bar {y}}. \,}{\bar {f}}={\bar {y}}.\,

Коэффициент корреляции в квадрате

В линейных наименьших квадратах множественная регрессия с оценкой член перехвата, R равен квадрату коэффициента корреляции Пирсона между наблюдаемым y {\ displaystyle y}yи смоделированным (предсказанным) f {\ displaystyle f}fзначения данных зависимой переменной.

В линейной регрессии методом наименьших квадратов с членом перехвата и одним объяснителем это также равно квадрату коэффициента корреляции Пирсона зависимой переменной y {\ displaystyle y}yи объясняющая переменная x. {\ displaystyle x.}x.

Его не следует путать с коэффициентом корреляции между двумя оценками, который определяется как

ρ α ^, β ^ = cov ⁡ (α ^, β ^) σ α ^ σ β ^, {\ displaystyle \ rho _ {{\ widehat {\ alpha}}, {\ widehat {\ beta}}} = {\ operatorname {cov} \ left ({\ widehat {\ alpha}}, {\ widehat {\ beta) }} \ right) \ over \ sigma _ {\ widehat {\ alpha}} \ sigma _ {\ widehat {\ beta}}},}{\displaystyle \rho _{{\widehat {\alpha }},{\widehat {\beta }}}={\operatorname {cov} \left({\widehat {\alpha }},{\widehat {\beta }}\right) \over \sigma _{\widehat {\alpha }}\sig ma _{\widehat {\beta }}},}

где ковариация между двумя оценками коэффициентов, а также их стандартные отклонения, получаются из ковариационной матрицы оценок коэффициентов.

В более общих условиях моделирования, когда прогнозируемые значения могут быть сгенерированы из модели, отличной от линейной регрессии наименьших квадратов, значение R может быть вычислено как квадрат коэффициента корреляции между исходные y {\ displaystyle y}yи смоделированные f {\ displaystyle f}fзначения данных. В этом случае значение не является непосредственно мерой того, насколько хороши смоделированные значения, а скорее мерой того, насколько хороший предиктор может быть построен на основе смоделированных значений (путем создания пересмотренного предиктора в форме α + βƒ i). Согласно Эверитту (стр. 78), это употребление является определением термина «коэффициент детерминации»: квадрат корреляции между двумя (общими) переменными.

Интерпретация

R - статистика, которая дает некоторую информацию о степени соответствия модели. В регрессии коэффициент детерминации R является статистической мерой того, насколько хорошо предсказания регрессии соответствуют реальным точкам данных. R, равный 1, указывает на то, что прогнозы регрессии идеально соответствуют данным.

Значения R за пределами диапазона от 0 до 1 могут возникать, когда модель соответствует данным хуже, чем горизонтальная гиперплоскость. Это могло произойти, если была выбрана неправильная модель или по ошибке были применены бессмысленные ограничения. Если используется уравнение 1 Квалсета (это уравнение используется наиболее часто), R может быть меньше нуля. Если используется уравнение 2 Квалсета, R может быть больше единицы.

Во всех случаях, когда используется R, предикторы вычисляются с помощью обычной регрессии наименьших квадратов : то есть путем минимизации SS res. В этом случае R увеличивается по мере увеличения количества переменных в модели (R монотонно увеличивается с количеством включенных переменных - оно никогда не будет уменьшаться). Это иллюстрирует недостаток одного из возможных вариантов использования R, когда можно продолжать добавлять переменные (регрессия кухонной мойки ) для увеличения значения R. Например, если кто-то пытается спрогнозировать продажи модели автомобиля по расходу бензина, цене и мощности двигателя, можно включить такие несущественные факторы, как первая буква названия модели или рост ведущего инженера, занимающегося проектированием. автомобиль, потому что R никогда не будет уменьшаться при добавлении переменных и, вероятно, будет увеличиваться только благодаря случайности.

Это приводит к альтернативному подходу рассмотрения скорректированного R. Объяснение этой статистики почти такое же, как и у R, но оно ухудшает статистику, поскольку в модель включены дополнительные переменные. Для случаев, отличных от аппроксимации обычным методом наименьших квадратов, статистика R может быть рассчитана, как указано выше, и может быть полезной мерой. Если аппроксимация осуществляется с помощью взвешенных наименьших квадратов или обобщенных наименьших квадратов, альтернативные версии R могут быть рассчитаны в соответствии с этими статистическими структурами, в то время как "исходный" R может быть полезен, если он более легко интерпретируется. Значения R могут быть рассчитаны для любого типа прогнозной модели, которая не обязательно должна иметь статистическую основу.

В многомерной линейной модели

Рассмотрим линейную модель с более чем одной независимой переменной в форме

Y i = β 0 + ∑ j = 1 п β J Икс я, J + ε я, {\ Displaystyle Y_ {i} = \ beta _ {0} + \ sum _ {j = 1} ^ {p} \ beta _ {j} X_ {i, j } + \ varepsilon _ {i},}{\displaystyle Y_{i}=\beta _{0}+\sum _{j=1}^{p}\beta _{j}X_{i,j}+\varepsilon _{i},}

где для i-го случая Y i {\ displaystyle {Y_ {i}}}{Y_{i}}- переменная ответа, X я, 1,…, Икс я, p {\ displaystyle X_ {i, 1}, \ dots, X_ {i, p}}X_{{i,1}},\dots,X_{{i,p}}являются p регрессорами, а ε i {\ displaystyle \ varepsilon _ {i}}\varepsilon _{i}- это среднее значение нуля ошибки. Величины β 0,…, β p {\ displaystyle \ beta _ {0}, \ dots, \ beta _ {p}}\beta _{0},\dots,\beta _{p}- неизвестные коэффициенты, значения которых оцениваются с помощью наименьших квадратов. Коэффициент детерминации R является мерой глобального соответствия модели. В частности, R является элементом [0, 1] и представляет долю изменчивости в Y i, которая может быть отнесена к некоторой линейной комбинации регрессоров (объясняющих переменных ) в X.

R часто интерпретируется как доля вариации ответа, «объясняемая» регрессорами в модели. Таким образом, R = 1 указывает, что подобранная модель объясняет всю изменчивость в y {\ displaystyle y}y, в то время как R = 0 указывает на отсутствие «линейной» зависимости (для прямой регрессии это означает, что модель прямой линии - это постоянная линия (наклон = 0, точка пересечения = y ¯ {\ displaystyle {\ bar {y}}}{\bar {y}}) между переменной ответа и регрессорами). Внутреннее значение, такое как R = 0,7, можно интерпретировать следующим образом: «Семьдесят процентов дисперсии в ответной переменной можно объяснить независимыми переменными. Остальные тридцать процентов могут быть отнесены к неизвестным, скрытым переменным или присущая изменчивость ".

Предупреждение, которое применяется к R, как и к другим статистическим описаниям корреляции и ассоциации, состоит в том, что «корреляция не подразумевает причинно-следственную связь ». Другими словами, хотя корреляции могут иногда давать ценные ключи к раскрытию причинно-следственных связей между переменными, ненулевая оценочная корреляция между двумя переменными сама по себе не свидетельствует о том, что изменение значения одной переменной приведет к изменениям в значениях переменных. другие переменные. Например, практика ношения спичек (или зажигалки) коррелирует с заболеваемостью раком легких, но ношение спичек не вызывает рак (в стандартном смысле слова «причина»).

В случае единственного регрессора, подобранного методом наименьших квадратов, R является квадратом коэффициента корреляции продукта Пирсона, связывающего регрессор и переменную отклика. В более общем смысле R - это квадрат корреляции между построенным предиктором и переменной ответа. С более чем одним регрессором R может называться коэффициентом множественной детерминации.

Инфляция R

В регрессии наименьших квадратов с использованием типичных данных R находится на наименее слабо увеличивается с увеличением количества регрессоров в модели. Поскольку увеличение количества регрессоров увеличивает значение R, само по себе R не может использоваться для значимого сравнения моделей с очень разным количеством независимых переменных. Для значимого сравнения двух моделей можно выполнить F-тест на остаточной сумме квадратов, аналогично F-тестам в причинно-следственной связи Грейнджера, хотя это не всегда уместно. Напомним, что некоторые авторы обозначают R как R q, где q - количество столбцов в X (количество пояснителей, включая константу).

Чтобы продемонстрировать это свойство, сначала напомним, что цель линейной регрессии наименьших квадратов составляет

min b SS res (b) ⇒ min b ∑ i (yi - X ib) 2 {\ displaystyle \ min _ {b} SS _ {\ text {res}} (b) \ Rightarrow \ min _ {b} \ sum _ {i} (y_ {i} -X_ {i} b) ^ {2} \,}\min _{b}SS_{{\text{res}}}(b)\Rightarrow \min _{b}\sum _{i}(y_{i}-X_{i}b)^{2}\,

где X i - вектор-строка значений независимых переменных для случая i, а b - вектор-столбец коэффициентов соответствующих элементов X i.

Оптимальное значение цели немного меньше, чем более пояснительное добавляются переменные, и, следовательно, добавляются дополнительные столбцы X {\ displaystyle X}X(пояснительная матрица данных, i-я строка которой X i), потому что менее ограниченные минимизация приводит к оптимальной стоимости, которая немного меньше, чем при более ограниченной минимизации. Учитывая предыдущий вывод и отмечая, что S S t o t {\ displaystyle SS_ {tot}}SS_{{tot}}зависит только от y, свойство неубывания R следует непосредственно из определения выше.

Интуитивно понятная причина того, что использование дополнительной независимой переменной не может снизить R, заключается в следующем: Минимизация SS res {\ displaystyle SS _ {\ text {res}}}SS_{{\text{res}}}эквивалентна максимизации R. Когда добавляется дополнительная переменная, у данных всегда есть возможность присвоить ей оценочный коэффициент, равный нулю, оставив прогнозируемые значения и R без изменений. Единственный способ, которым задача оптимизации даст ненулевой коэффициент, - это улучшить R.

Предостережения

R не указывает, являются ли:

  • независимые переменные причиной изменений в зависимой переменной ;
  • смещение опущенной переменной существует;
  • использовалась правильная регрессия ;
  • наиболее подходящий набор независимых переменных;
  • в данных по независимым переменным присутствует коллинеарность ;
  • модель может быть улучшена путем использования преобразованных версий существующего набора независимых переменных;
  • имеется достаточно точек данных, чтобы сделать твердый вывод.

Расширения

Скорректированный R

Использование скорректированного R (одно общее обозначение R ¯ 2 {\ displaystyle {\ bar {R}} ^ {2}}{\bar R}^{2}, произносится как «R bar в квадрате»; другой - R прил 2 {\ displaystyle R _ {\ text {adj}} ^ {2}}{\displaystyle R_{\text{adj}}^{2}}) представляет собой попытку объяснить феномен R автоматически y и ложно увеличивается, когда в модель добавляются дополнительные независимые переменные. Созданный Анри Тейлом, это модификация R, которая регулирует количество пояснительных терминов в модели (p {\ displaystyle p}p) относительно количества точек данных (n {\ displaystyle n}n). Скорректированное R определяется как

R ¯ 2 = 1 - (1 - R 2) n - 1 n - p - 1 {\ displaystyle {\ bar {R}} ^ {2} = 1- (1-R ^ {2}) {n-1 \ over np-1}}{\displaystyle {\bar {R}}^{2}=1-(1-R^{2}){n-1 \over n-p-1}}

где p - общее количество независимых переменных в модели (не включая постоянный член), а n - размер выборки. Его также можно записать как:

R ¯ 2 = 1 - SS res / df e SS tot / df t {\ displaystyle {\ bar {R}} ^ {2} = {1- {SS _ {\ text { res}} / {\ text {df}} _ {e} \ over SS _ {\ text {tot}} / {\ text {df}} _ {t}}}}{\displaystyle {\bar {R}}^{2}={1-{SS_{\text{res}}/{\text{df}}_{e} \over SS_{\text{tot}}/{\text{df}}_{t}}}}

где df t - это степени свободы n - 1 оценки дисперсии генеральной совокупности зависимой переменной, а df e - это степени свободы n - p - 1 оценки. основной дисперсии ошибки генеральной совокупности.

Скорректированное R может быть отрицательным, и его значение всегда будет меньше или равно значению R. В отличие от R, скорректированное R увеличивается только при увеличении R (из-за включения новой пояснительной переменная) больше, чем можно было бы ожидать увидеть случайно. Если набор объясняющих переменных с заранее определенной иерархией важности вводится в регрессию по одной, при каждом вычислении скорректированного R, уровень, на котором скорректированный R достигает максимума и впоследствии уменьшается, будет регрессией с идеальное сочетание наличия оптимального соответствия без лишних / лишних сроков.

Скорректированный R можно интерпретировать как несмещенную (или менее смещенную) оценку совокупности R, тогда как наблюдаемая выборка R представляет собой положительно смещенную оценку значения совокупности. Скорректированный R более уместен при оценке соответствия модели (дисперсия в зависимой переменной, учитываемой независимыми переменными) и при сравнении альтернативных моделей на этапе выбора характеристик построения модели.

Принцип, лежащий в основе скорректированной статистики R, можно увидеть, переписав обычное R как

R 2 = 1 - VAR res VAR tot {\ displaystyle R ^ {2} = {1 - {{\ textit {VAR}} _ {\ text {res}} \ over {\ textit {VAR}} _ {\ text {tot}}}}}{\displaystyle R^{2}={1-{{\textit {VAR}}_{\text{res}} \over {\textit {VAR}}_{\text{tot}}}}}

где VAR res = SS res / n {\ displaystyle {\ text {VAR}} _ {\ text {res}} = SS _ {\ text {res}} / n}{\displaystyle {\text{VAR}}_{\text{res}}=SS_{\text{res}}/n}и VAR tot = SS tot / n {\ displaystyle {\ text {VAR}} _ {\ text {tot}} = SS _ {\ text {tot}} / n}{\displaystyle {\text{VAR}}_{\text{tot}}=SS_{\text{tot}}/n}- это выборочные дисперсии оцененных остатков и зависимой переменной соответственно, которые можно рассматривать как смещенные оценки дисперсий ошибок генеральной совокупности и зависимой переменной. Эти оценки заменяются статистически несмещенными версиями: VAR res = SS res / (n - p - 1) {\ displaystyle {\ text {VAR}} _ {\ text {res}} = SS _ {\ text {res}} / (np-1)}{\displaystyle {\text{VAR}}_{\text{res}}=SS_{\text{res}}/(n-p-1)}и VAR tot = SS tot / (n - 1) {\ displaystyle {\ text {VAR}} _ {\ text {tot}} = SS _ {\ text {tot}} / (n-1)}{\displaystyle {\text{VAR}}_{\text{tot}}=SS_{\text{tot}}/(n-1)}.

Коэффициент частичной детерминации

Коэффициент частичной детерминации можно определить как долю вариации, которая не может быть объяснена в сокращенной модели, но могут быть объяснены предикторами, указанными в полной (er) модели. Этот коэффициент используется для понимания того, могут ли один или несколько дополнительных предикторов быть полезными в более полностью определенной регрессионной модели.

Вычисление частичного R является относительно простым после оценки двух моделей и создания для них таблиц ANOVA. Расчет частичного R:

SS res, уменьшенный - SS res, full SS res, уменьшенный, {\ displaystyle {\ frac {SS _ {\ text {res, уменьшенный}} - SS _ {\ text {res, full }}} {SS _ {\ text {res, уменьшенный}}}},}{\displaystyle {\frac {SS_{\text{ res, reduced}}-SS_{\text{ res, full}}}{SS_{\text{ res, reduced}}}},}

который аналогичен обычному коэффициенту детерминации:

SS tot - SS res SS tot. {\ displaystyle {\ frac {SS _ {\ text {tot}} - SS _ {\ text {res}}} {SS _ {\ text {tot}}}}.}{\displaystyle {\frac {SS_{\text{tot}}-SS_{\text{res}}}{SS_{\text{tot}}}}.}

Обобщение и разложение R

Как объяснено выше, эвристика выбора модели, такая как критерий Скорректированный R 2 {\ displaystyle R ^ {2}}R^{2}и F-тест, проверяет, R 2 {\ displaystyle R ^ {2}}R^{2}достаточно увеличивается, чтобы определить, следует ли добавить в модель новый регрессор. Если к модели добавлен регрессор, который сильно коррелирован с другими регрессорами, которые уже были включены, то общее R 2 {\ displaystyle R ^ {2}}R^{2}вряд ли увеличится, даже если актуален новый регрессор. В результате вышеупомянутые эвристики будут игнорировать соответствующие регрессоры, когда взаимная корреляция высока.

Геометрическое представление r 2 {\ displaystyle r ^ {2}}r^{2}.

В качестве альтернативы можно разложить обобщенную версию R 2 {\ displaystyle R ^ {2}}R^{2}для количественной оценки уместности отклонения от гипотезы. Как показывает Хорнвег (2018), несколько оценок усадки, такие как байесовская линейная регрессия, гребневая регрессия и (адаптивная) лассо, используют это разложение. из R 2 {\ displaystyle R ^ {2}}R^{2}, когда они постепенно сжимают параметры из неограниченных решений OLS в сторону предполагаемых значений. Давайте сначала определим модель линейной регрессии как

y = X β + ε. {\ displaystyle y = X \ beta + \ varepsilon.}{\displaystyle y=X\beta +\varepsilon.}

Предполагается, что матрица X {\ displaystyle X}Xстандартизирована с Z-оценками и что вектор-столбец y {\ displaystyle y}yцентрируется, чтобы иметь нулевое среднее значение. Пусть вектор-столбец β 0 {\ displaystyle \ beta _ {0}}\beta _{0}относится к предполагаемым параметрам регрессии, а вектор-столбец b {\ displaystyle b}bобозначают расчетные параметры. Затем мы можем определить

R 2 = 1 - (y - X b) ′ (y - X b) (y - X β 0) ′ (y - X β 0). {\ displaystyle R ^ {2} = 1 - {\ frac {(y-Xb) '(y-Xb)} {(yX \ beta _ {0})' (yX \ beta _ {0})}}. }{\displaystyle R^{2}=1-{\frac {(y-Xb)'(y-Xb)}{(y-X\beta _{0})'(y-X\beta _{0})}}.}

R 2 {\ displaystyle R ^ {2}}R^{2}, равное 75%, означает, что точность внутри выборки улучшается на 75%, если оптимизированный по данным b {\ displaystyle b}bрешения используются вместо предполагаемых значений β 0 {\ displaystyle \ beta _ {0}}\beta _{0}. В особом случае, когда β 0 {\ displaystyle \ beta _ {0}}\beta _{0}является вектором нулей, мы получаем традиционный R 2 {\ displaystyle R ^ {2}}R^{2}снова.

Индивидуальный эффект отклонения от гипотезы на R 2 {\ displaystyle R ^ {2}}R^{2}можно вычислить с помощью R ⊗ {\ displaystyle R ^ { \ otimes}}{\displaystyle R^{\otimes }}('R-внешний'). Эта матрица p {\ displaystyle p}p, умноженная на p {\ displaystyle p}p, задается как

R ⊗ = (X ′ y ~ 0) ( X ′ y ~ 0) ′ (X ′ X) - 1 (y ~ 0 ′ y ~ 0) - 1, {\ displaystyle R ^ {\ otimes} = (X '{\ tilde {y}} _ {0}) (X '{\ tilde {y}} _ {0})' (X'X) ^ {- 1} ({\ tilde {y}} _ {0} '{\ tilde {y}} _ {0 }) ^ {- 1},}{\displaystyle R^{\otimes }=(X'{\tilde {y}}_{0})(X'{\tilde {y}}_{0})'(X'X)^{-1}({\tilde {y}}_{0}'{\tilde {y}}_{0})^{-1},}

где y ~ 0 = y - X β 0 {\ displaystyle {\ tilde {y}} _ {0} = yX \ beta _ {0}}{\displaystyle {\tilde {y}}_{0}=y-X\beta _{0}}. Диагональные элементы R ⊗ {\ displaystyle R ^ {\ otimes}}{\displaystyle R^{\otimes }}в сумме дают в точности R 2 {\ displaystyle R ^ {2}}R^{2}. Если регрессоры не коррелированы и β 0 {\ displaystyle \ beta _ {0}}\beta _{0}- вектор нулей, то j th {\ displaystyle j ^ {\ text {th} }}j^\text{th}диагональный элемент R ⊗ {\ displaystyle R ^ {\ otimes}}{\displaystyle R^{\otimes }}просто соответствует r 2 {\ displaystyle r ^ {2}}r^{2}значение между xj {\ displaystyle x_ {j}}x_{j}и y {\ displaystyle y}y. Когда регрессоры xi {\ displaystyle x_ {i}}x_{i}и xj {\ displaystyle x_ {j}}x_{j}коррелированы, R ii ⊗ {\ displaystyle R_ {ii} ^ {\ otimes}}{\displaystyle R_{ii}^{\otimes }}может увеличиться за счет уменьшения R jj ⊗ {\ displaystyle R_ {jj} ^ {\ otimes}}{\displaystyle R_{jj}^{\otimes }}. В результате диагональные элементы R ⊗ {\ displaystyle R ^ {\ otimes}}{\displaystyle R^{\otimes }}могут быть меньше 0 и, в более исключительных случаях, больше 1. Чтобы справиться с такими неопределенностями, несколько оценщиков усадки неявно принимают средневзвешенное значение диагональных элементов R ⊗ {\ displaystyle R ^ {\ otimes}}{\displaystyle R^{\otimes }}, чтобы количественно оценить релевантность отклонения от предполагаемого значения. Щелкните лассо для примера.

R в логистической регрессии

В случае логистической регрессии, которая обычно соответствует максимальной вероятности, существует несколько вариантов псевдо -R.

Один из них - это обобщенное R, первоначально предложенное Cox Snell и независимо от Magee:

R 2 = 1 - (L (0) L (θ ^)) 2 / n {\ displaystyle R ^ { 2} = 1- \ left ({{\ mathcal {L}} (0) \ over {\ mathcal {L}} ({\ widehat {\ theta}})} \ right) ^ {2 / n}}{\displaystyle R^{2}=1-\left({{\mathcal {L}}(0) \over {\mathcal {L}}({\widehat {\theta }})}\right)^{2/n}}

где L (0) {\ displaystyle {\ mathcal {L}} (0)}{\displaystyle {\mathcal {L}}(0)}- вероятность модели только с точкой пересечения, L (θ ^) { \ displaystyle {{\ mathcal {L}} ({\ widehat {\ theta}})}}{\displaystyle {{\mathcal {L}}({\widehat {\theta }})}}- вероятность оценочной модели (т. е. модели с заданным набором оценок параметров) и n размер выборки. Его легко переписать так:

R 2 = 1 - e 2 n (ln ⁡ (L (0)) - ln ⁡ (L (θ ^)) = 1 - e - D / n {\ displaystyle R ^ { 2} = 1-e ^ {{\ frac {2} {n}} (\ ln ({\ mathcal {L}} (0)) - \ ln ({\ mathcal {L}} ({\ widehat {\ theta}}))} = 1-e ^ {- D / n}}{\displaystyle R^{2}=1-e^{{\frac {2}{n}}(\ln({\mathcal {L}}(0))-\ln({\mathcal {L}}({\widehat {\theta }}))}=1-e^{-D/n}}

где D - статистика теста критерия отношения правдоподобия.

Нагелькерке отметил, что он имел следующие свойства:

  1. Это согласуется с классическим коэффициентом детерминации, когда оба могут быть вычислены;
  2. Его значение максимизируется оценкой максимального правдоподобия модели;
  3. Он асимптотически не зависит от размера выборки;
  4. Интерпретация представляет собой долю вариации, объясняемую моделью;
  5. Значения находятся между 0 и 1, где 0 означает, что модель не объясняет никаких вариаций, а 1 означает, что она полностью объясняет наблюдаемое изменение;
  6. У него нет единицы.

Однако в случае логистической модели, где L (θ ^) {\ displaystyle {\ mathcal {L}} ({ \ widehat {\ theta}})}{\displaystyle {\mathcal {L}}({\widehat {\theta }})}не может быть больше 1, R находится между 0 и R max 2 = 1 - (L (0)) 2 / n {\ displaystyle R _ {\ max} ^ {2} = 1- ( {\ mathcal {L}} (0)) ^ {2 / n}}{\displaystyle R_{\max } ^{2}=1-({\mathcal {L}}(0))^{2/n}}: таким образом, Нагелькерке предложил возможность определить масштабированное R как R / R max.

Сравнение с нормой остатков

Иногда норма остатков используется для указания степени соответствия. Этот член вычисляется как квадратный корень из суммы квадратов остатков :

нормы остатков = S S res = ‖ e ‖. {\ displaystyle {\ text {норма остатков}} = {\ sqrt {SS _ {\ text {res}}}} = \ | e \ |.}{\displaystyle {\text{norm of residuals}}={\sqrt {SS_{\text{res}}}}=\|e\|.}

И R, и норма остатков имеют свои относительные достоинства. Для анализа методом наименьших квадратов R изменяется от 0 до 1, при этом большие числа указывают на лучшее соответствие, а 1 представляет собой идеальное соответствие. Норма остатков варьируется от 0 до бесконечности, меньшие числа указывают на лучшее соответствие, а ноль - на идеальное соответствие. Одним из преимуществ и недостатков R является действие члена S S tot {\ displaystyle SS _ {\ text {tot}}}SS_{\text{tot}}для нормализации значения. Если все значения y i умножить на константу, норма остатков также изменится на эту константу, но R останется прежним. В качестве базового примера для линейного метода наименьших квадратов подходит набор данных:

x = 1, 2, 3, 4, 5 y = 1,9, 3,7, 5,8, 8,0, 9,6 {\ displaystyle {\ begin {array } {rcrrrrr} x = 1, 2, 3, 4, 5 \\ y = 1.9, 3.7, 5.8, 8.0, 9.6 \ end {array}}}{\displaystyle {\begin{array}{rcrrrrr}x =1,2,3,4,5\\y=1.9,3.7,5.8,8.0,9.6\end{array}}}

R = 0,998, а норма остатков = 0,302. Если все значения y умножаются на 1000 (например, при изменении префикса SI ), то R остается прежним, но норма остатков = 302.

Другой однопараметрический индикатор соответствия - это RMSE остатков или стандартное отклонение остатков. This would have a value of 0.135 for the above example given that the fit was linear with an unforced intercept.

History

The creation of the coefficient of determination has been attributed to the geneticist Sewall Wright and was first published in 1921.

See also

Notes

Further reading

Последняя правка сделана 2021-05-15 13:48:31
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте