Неполная сумма квадратов

редактировать

В статистике сумма квадратов из-за недостаточного соответствия, или, более кратко, сумма квадратов недостаточного соответствия, является одним из компоненты раздела суммы квадратов остатков в дисперсионном анализе, используемые в числителе в F-тесте нулевой гипотезы, которая говорит, что предложенная модель хорошо подходит. Другой компонент - это сумма квадратов чистой ошибки .

Сумма квадратов чистой ошибки - это сумма квадратов отклонений каждого значения зависимой переменной от среднего значения по всем наблюдениям. разделяя его независимую переменную значение (я). Это ошибки, которых нельзя было бы избежать с помощью какого-либо прогнозного уравнения, которое назначало прогнозируемое значение для зависимой переменной как функцию значения (значений) независимой переменной (переменных). Оставшаяся часть остаточной суммы квадратов объясняется отсутствием соответствия модели, поскольку математически было бы возможно полностью устранить эти ошибки.

Содержание
  • 1 Набросок идеи
  • 2 Математические детали
  • 3 Распределения вероятностей
    • 3.1 Суммы квадратов
    • 3.2 Тестовая статистика
  • 4 См. Также
  • 5 Примечания
Набросок идеи

Для того, чтобы сумма квадратов несовпадения отличалась от суммы квадратов остатков, должно быть более одного значение переменной ответа по крайней мере для одного из значений набора переменных-предикторов. Например, рассмотрите возможность подбора линии

y = α x + β {\ displaystyle y = \ alpha x + \ beta \,}y = \ alpha x + \ beta \,

методом наименьших квадратов. В качестве оценок α и β принимаются значения, которые минимизируют сумму квадратов остатков, то есть сумму квадратов разностей между наблюдаемым значением y и подобранным значением y. Чтобы получить неадекватную сумму квадратов, которая отличается от остаточной суммы квадратов, необходимо наблюдать более одного значения y для каждого из одного или нескольких значений x. Затем «сумму квадратов из-за ошибки», т. Е. Сумму квадратов остатков, разбивают на два компонента:

сумма квадратов из-за ошибки = (сумма квадратов из-за «чистой» ошибки) + (сумма квадратов из-за несовпадения).

Сумма квадратов из-за "чистой" ошибки - это сумма квадратов разностей между каждым наблюдаемым значением y и средним значением всех значений y, соответствующих одному и тому же x- значение.

Сумма квадратов из-за отсутствия соответствия представляет собой взвешенную сумму квадратов разностей между каждым средним значением y, соответствующим одному и тому же значению x и соответствующему подобранному значению y, вес в каждом случае просто количество наблюдаемых значений y для этого значения x. Поскольку свойство регрессии наименьших квадратов состоит в том, что вектор, компоненты которого являются «чистыми ошибками», и вектор компонентов несовпадения ортогональны друг другу, выполняется следующее равенство:

∑ (наблюдаемое значение - подобранное значение) 2 (ошибка) = ∑ (наблюдаемое значение - локальное среднее) 2 (чистая ошибка) + ∑ вес × (локальное среднее - подобранное значение) 2 (несоответствие) {\ displaystyle {\ begin {align} \ sum ({ \ text {наблюдаемое значение}} - {\ text {установленное значение}}) ^ {2} {\ text {(error)}} \\ \ qquad = \ sum ({\ text {наблюдаемое значение}} - { \ text {среднее местное}}) ^ {2} {\ text {(чистая ошибка)}} \\ \ qquad \ qquad {} + \ sum {\ text {weight}} \ times ({\ text {local среднее}} - {\ text {подобранное значение}}) ^ {2} {\ text {(отсутствие соответствия)}} \ end {align}}}{\ displaystyle {\ begin {align} \ sum ({\ text {наблюдаемое значение}} - {\ text {установленное значение}}) ^ {2} {\ text {(error)}} \ \ \ qquad = \ sum ({\ text {наблюдаемое значение}} - {\ text {локальное среднее}}) ^ {2} {\ text {(чистая ошибка)}} \\ \ qquad \ qquad {} + \ sum {\ text {weight}} \ times ({\ text {среднее локальное}} - {\ text {подходящее значение}}) ^ {2} {\ text {(отсутствие соответствия)}} \ end { выровнено}}}

Следовательно, остаточная сумма квадратов была полностью разложена на два компонента.

Математические подробности

Рассмотрите возможность подгонки строки с одной переменной-предиктором. Определите i как индекс каждого из n различных значений x, j как индекс наблюдений переменной ответа для данного значения x и n i как количество значений y, связанных со значением i x. Значение каждого наблюдения переменной ответа может быть представлено как

Y i j = α x i + β + ε i j, i = 1,…, n, j = 1,…, n i. {\ displaystyle Y_ {ij} = \ alpha x_ {i} + \ beta + \ varepsilon _ {ij}, \ qquad i = 1, \ dots, n, \ quad j = 1, \ dots, n_ {i}. }Y _ {{ij}} = \ alpha x_ {i} + \ beta + \ varepsilon _ {{ij}}, \ qquad i = 1, \ dots, n, \ quad j = 1, \ dots, n_ {i}.

Пусть

α ^, β ^ {\ displaystyle {\ widehat {\ alpha}}, {\ widehat {\ beta}} \,}\ widehat \ alpha, \ widehat \ beta \,

будет оценками методом наименьших квадратов ненаблюдаемых параметров α и β на основе наблюдаемых значений x i и Y ij.

Пусть

Y ^ i = α ^ xi + β ^ {\ displaystyle {\ widehat {Y}} _ {i} = {\ widehat {\ alpha}} x_ {i} + {\ widehat {\ beta}} \,}\ widehat Y_ {i} = \ widehat \ alpha x_ {i} + \ widehat \ beta \,

- соответствующие значения переменной ответа. Тогда

ε ^ ij = Y ij - Y ^ i {\ displaystyle {\ widehat {\ varepsilon}} _ {ij} = Y_ {ij} - {\ widehat {Y}} _ {i} \,}\ widehat \ varepsilon _ {{ij}} = Y _ {{ij}} - \ widehat Y_ {i} \,

- это остатки, которые представляют собой наблюдаемые оценки ненаблюдаемых значений члена ошибки ε ij. Из-за характера метода наименьших квадратов весь вектор остатков с

N = ∑ i = 1 nni {\ displaystyle N = \ sum _ {i = 1} ^ {n} n_ {i}}N = \ sum _ {{i = 1}} ^ {n} n_ {i}

скалярные компоненты обязательно удовлетворяют двум ограничениям.

∑ i = 1 n ∑ j = 1 ni ε ^ ij = 0 {\ displaystyle \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} = 0 \,}\ sum _ {{i = 1}} ^ {n} \ sum _ {{j = 1}} ^ {{n_ {i}}} \ widehat \ varepsilon _ { {ij}} = 0 \,
∑ i = 1 n (xi ∑ j = 1 ni ε ^ ij) = 0. {\ displaystyle \ sum _ {я = 1} ^ {n} \ left (x_ {i} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} \ right) = 0. \,}\ sum _ {{i = 1}} ^ {n } \ left (x_ {i} \ sum _ {{j = 1}} ^ {{n_ {i}}} \ widehat \ varepsilon _ {{ij}} \ right) = 0. \,

Таким образом, он ограничен лежать в (N - 2) -мерном подпространстве R, т.е. имеется N - 2 "степеней свободы за ошибку ».

Теперь пусть

Y ¯ i ∙ = 1 ni ∑ j = 1 ni Y ij {\ displaystyle {\ overline {Y}} _ {i \ bullet} = {\ frac {1} {n_ {i}}} \ sum _ {j = 1} ^ {n_ {i}} Y_ {ij}}\ overline {Y} _ {{ i \ bullet}} = {\ frac {1} {n_ {i}}} \ sum _ {{j = 1}} ^ {{n_ {i}}} Y _ {{ij}}

- среднее значение всех значений Y, связанных с i-значением x.

Мы разделим сумму квадратов из-за ошибки на две составляющие:

∑ i = 1 n ∑ j = 1 ni ε ^ ij 2 = ∑ i = 1 n ∑ j = 1 ni (Y ij - Y ^ i) 2 = ∑ i = 1 n ∑ j = 1 ni (Y ij - Y ¯ i ∙) 2 ⏟ (сумма квадратов из-за чистой ошибки) + ∑ i = 1 nni (Y ¯ i ∙ - Y ^ i) 2. ⏟ (сумма квадратов из-за несовпадения) {\ displaystyle {\ begin {align} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} ^ {\, 2} = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} \ left (Y_ {ij } - {\ widehat {Y}} _ {i} \ right) ^ {2} \\ = \ underbrace {\ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} \ left (Y_ {ij} - {\ overline {Y}} _ {i \ bullet} \ right) ^ {2}} _ {\ text {(сумма квадратов из-за чистой ошибки)}} + \ underbrace {\ sum _ {i = 1} ^ {n} n_ {i} \ left ({\ overline {Y}} _ {i \ bullet} - {\ widehat {Y}} _ {i} \ right) ^ {2}.} _ {\ Text {(сумма квадратов из-за несовпадения)}} \ end {align}}}{\ begin {align} \ sum _ {{i = 1}} ^ {n} \ sum _ {{j = 1}} ^ {{n_ {i}}} \ w idehat \ varepsilon _ {{ij}} ^ {{\, 2}} = \ sum _ {{i = 1}} ^ {n} \ sum _ {{j = 1}} ^ {{n_ {i}} } \ left (Y _ {{ij}} - \ widehat Y_ {i} \ right) ^ {2} \\ = \ underbrace {\ sum _ {{i = 1}} ^ {n} \ sum _ {{ j = 1}} ^ {{n_ {i}}} \ left (Y _ {{ij}} - \ overline Y _ {{i \ bullet}} \ right) ^ {2}} _ {{\ text {(сумма квадратов из-за чистой ошибки)}}} + \ underbrace {\ sum _ {{i = 1}} ^ {n} n_ {i} \ left (\ overline Y _ {{i \ bullet}} - \ widehat Y_ { i} \ right) ^ {2}.} _ {{\ text {(сумма квадратов из-за несовпадения)}}} \ end {align}}
Распределения вероятностей

Суммы квадратов

Предположим, что члены ошибки ε ij являются независимыми и нормально распределенными с ожидаемым значением 0 и дисперсией σ. Мы рассматриваем x i как постоянный, а не случайный. Тогда переменные реакции Y i j случайны только потому, что ошибки ε i j случайны.

Из этого можно показать, что если прямолинейная модель верна, то сумма квадратов из-за ошибки, разделенная на дисперсию ошибки,

1 σ 2 ∑ i Знак равно 1 N ∑ J знак равно 1 ni ε ^ ij 2 {\ displaystyle {\ frac {1} {\ sigma ^ {2}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} ^ {\, 2}}{\ frac {1} {\ sigma ^ {2}}} \ sum _ {{i = 1}} ^ {n} \ sum _ {{j = 1}} ^ {{n_ {i}}} \ widehat \ varepsilon _ {{ij}} ^ {{\, 2}}

имеет распределение хи-квадрат с N - 2 степенями свободы.

Более того, учитывая общее количество наблюдений N, количество уровней независимой переменной n и количество параметров в модели p:

  • Сумма квадратов чистой ошибки, деленная на дисперсия ошибки σ имеет распределение хи-квадрат с N - n степенями свободы;
  • сумма квадратов из-за отсутствия подгонки, деленная на дисперсию ошибки σ, имеет распределение хи-квадрат с n - p степеней свободы (здесь p = 2, поскольку в линейной модели есть два параметра);
  • Две суммы квадратов вероятностно независимы.

Тестовая статистика

Отсюда следует, что статистика

F = неподходящая сумма квадратов / степеней свободы сумма квадратов / степеней свободы чистой ошибки = ∑ i = 1 nni (Y ¯ i ∙ - Y ^ i) 2 / (N - п) ∑ я знак равно 1 N ∑ J знак равно 1 NI (Y ij - Y ¯ я ∙) 2 / (N - n) {\ displaystyle {\ begin {align} F = {\ frac {{\ text {неподходящая сумма квадратов}} / {\ text {степеней свободы}}} {{\ text {чистая сумма квадратов ошибок}} / {\ text {degre es of Freedom}}}} \\ [8pt] = {\ frac {\ left. \ sum _ {i = 1} ^ {n} n_ {i} \ left ({\ overline {Y}} _ {i \ bullet} - {\ widehat {Y}} _ {i} \ right) ^ {2} \ right / (np)} {\ left. \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} \ left (Y_ {ij} - {\ overline {Y}} _ {i \ bullet} \ right) ^ {2} \ right / (Nn)}} \ end {выровнено }}}{\ begin {align} F = {\ frac {{\ text {неподходящая сумма квадратов}} / {\ text {степени свободы}}} {{\ text {сумма квадратов чистой ошибки}} / {\ text {степени свободы}}}} \\ [8pt] = {\ frac {\ left. \ Sum _ {{i = 1}} ^ {n} n_ {i} \ left (\ overline Y _ {{i \ bullet}} - \ widehat Y_ {i} \ right) ^ {2} \ right / (np)} {\ left. \ sum _ {{i = 1}} ^ {n} \ sum _ {{j = 1}} ^ {{n_ {i}} } \ left (Y _ {{ij}} - \ overline Y _ {{i \ bullet}} \ right) ^ {2} \ right / (Nn)}} \ end {align}}

имеет F-распределение с соответствующим числом степеней свободы в числителе и знаменателе, при условии, что модель верна. Если модель неверна, то распределение вероятностей знаменателя остается таким, как указано выше, а числитель и знаменатель по-прежнему независимы. Но числитель тогда имеет нецентральное распределение хи-квадрат, и, следовательно, частное в целом имеет нецентральное F-распределение.

. Этот F-статистический показатель используется для проверки нулевая гипотеза о том, что линейная модель верна. Поскольку нецентральное F-распределение стохастически больше, чем (центральное) F-распределение, отвергают нулевую гипотезу, если F-статистика больше критического значения F. Критическое значение соответствует кумулятивной функции распределения F-распределения с x, равным желаемому доверительному уровню, и степеням свободы d 1 = (n - p) и d 2 = (N - n).

Допущения нормального распределения ошибок и независимости могут быть показаны как влекущие за собой, что этот тест на отсутствие соответствия является критерий отношения правдоподобия этой нулевой гипотезы.

См. Также
Примечания
Последняя правка сделана 2021-05-26 10:38:30
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте