Простая линейная регрессия

редактировать
Закон Окуня в макроэкономике является примером простой линейной регрессии. Здесь предполагается, что зависимая переменная (рост ВВП) находится в линейной зависимости от изменений уровня безработицы.

В статистике, простая линейная регрессия - это модель линейной регрессии с единственной независимой переменной. То есть он касается двумерных точек выборки с одной независимой переменной и одной зависимой переменной (обычно координаты x и y в декартовой системе координат ) и находит линейную функцию ( невертикальная прямая ), которая с максимально возможной точностью предсказывает значения зависимой переменной как функцию независимой переменной. Прилагательное просто относится к тому факту, что переменная результата связана с одним предиктором.

Обычно делается дополнительное условие, что следует использовать метод наименьших квадратов (OLS): точность каждого предсказанного значения измеряется его квадратом невязки (расстояние по вертикали между точкой набора данных и подобранной линией), и цель состоит в том, чтобы как можно меньше сумма этих квадратов отклонений. Другие методы регрессии, которые можно использовать вместо обычных наименьших квадратов, включают наименьших абсолютных отклонений (минимизация суммы абсолютных значений остатков) и оценка Тейла – Сена (которая выбирает линию наклон которого представляет собой медиана наклонов, определенных парами точек выборки). Регрессия Деминга (суммарные наименьшие квадраты) также находит линию, которая соответствует набору двумерных точек выборки, но (в отличие от обычных наименьших квадратов, наименьших абсолютных отклонений и регрессии среднего наклона) на самом деле это не пример простой линейной регрессии, потому что она не разделяет координаты на одну зависимую и одну независимую переменные и потенциально может вернуть вертикальную линию как подходящую.

Остальная часть статьи предполагает обычную регрессию наименьших квадратов. В этом случае наклон подобранной линии равен корреляции между y и x, скорректированной на отношение стандартных отклонений этих переменных. Пересечение подобранной линии таково, что линия проходит через центр масс (x, y) точек данных.

Содержание
  • 1 Подгонка линии регрессии
    • 1.1 Интуитивное объяснение
    • 1.2 Простая линейная регрессия без члена пересечения (единственный регрессор)
  • 2 Числовые свойства
  • 3 Свойства на основе модели
    • 3.1 Беспристрастность
    • 3.2 Доверительные интервалы
    • 3.3 Допущение нормальности
    • 3.4 Асимптотическое предположение
  • 4 Числовой пример
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки
Подгонка линии регрессии

Рассмотрим функцию модели

y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}y = \ alpha + \ бета x,

, которая описывает линию с наклоном β и y-пересечение α. В общем, такая взаимосвязь может не соблюдаться в точности для большей части ненаблюдаемой совокупности значений независимых и зависимых переменных; мы называем ненаблюдаемые отклонения от приведенного выше уравнения ошибками. Предположим, мы наблюдаем n пар данных и называем их {(x i, y i), i = 1,..., n}. Мы можем описать лежащую в основе взаимосвязь между y i и x i с использованием этого члена ошибки ε i как

y i = α + β x i + ε i. {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}y_i = \ alpha + \ beta x_i + \ varepsilon_i.

Эта связь между истинными (но ненаблюдаемыми) базовыми параметрами α и β и точками данных называется модель линейной регрессии.

Цель состоит в том, чтобы найти оценочные значения α ^ {\ displaystyle {\ widehat {\ alpha}}}{\ displaystyle {\ widehat {\ alpha}}} и β ^ {\ displaystyle {\ widehat {\ beta}}}{\ displaystyle {\ widehat {\ beta}}} для параметров α и β, которые в некотором смысле обеспечат "наилучшее" соответствие для точек данных. Как упоминалось во введении, в этой статье «наилучшее» соответствие будет пониматься как подход наименьших квадратов : линия, которая минимизирует сумму квадратов остатков ε ^ i {\ displaystyle {\ widehat {\ varepsilon}} _ {i}}{\ displaystyle {\ widehat {\ varepsilon}} _ {i}} (различия между фактическими и прогнозируемыми значениями зависимой переменной y), каждое из которых задается для любых значений параметров-кандидатов α {\ displaystyle \ alpha}\ alpha и β {\ displaystyle \ beta}\ beta ,

ε ^ i = yi - α - β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} - \ alpha - \ beta x_ {i}.}{\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} - \ alpha - \ beta x_ {i}.}

Другими словами, α ^ {\ displaystyle {\ widehat {\ alpha}}}{\ displaystyle {\ widehat {\ alpha}}} и β ^ {\ displaystyle {\ widehat {\ beta}}}{\ displaystyle {\ widehat {\ beta}}} решают следующую задачу минимизации:

Найти min α, β Q (α, β), если Q (α, β) = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n (yi - α - β xi) 2. {\ displaystyle {\ text {Find}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {for}} Q (\ alpha, \ beta) = \ сумма _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i} - \ alpha - \ beta x_ {i}) ^ {2} \.}{\ displaystyle {\ text {Find}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {for}} Q (\ alpha, \ beta) = \ sum _ {i = 1} ^ {n } {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i} - \ alpha - \ beta x_ {i}) ^ { 2} \.}

Расширяя, чтобы получить квадратичное выражение в α {\ displaystyle \ alpha}\ alpha и β, {\ displaystyle \ beta,}\ beta, мы можем получить значения α {\ displaystyle \ alpha}\ alpha и β {\ displaystyle \ beta}\ beta , которые минимизировать целевую функцию Q (эти минимизирующие значения обозначаются α ^ {\ displaystyle {\ widehat {\ alpha}}}{\ displaystyle {\ widehat {\ alpha}}} и β ^ {\ displaystyle {\ widehat {\ beta} }}{\ displaystyle {\ widehat {\ beta}}} ):

α ^ = y ¯ - β ^ x ¯, β ^ = ∑ i = 1 n (xi - x ¯) (yi - y ¯) ∑ i = 1 n (xi - x ¯) 2 = sx, ysx 2 = rxysysx. {\ displaystyle {\ begin {align} {\ widehat {\ alpha}} = {\ bar {y}} - {\ widehat {\ beta}} \, {\ bar {x}}, \\ [5pt] {\ widehat {\ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) (y_ {i } - {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}} \\ [6pt] = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ [5pt] = r_ {xy} {\ frac {s_ {y}} {s_ {x}} }. \\ [6pt] \ end {align}}}{\ displaystyle {\ begin {align} {\ widehat {\ alpha}} = {\ bar {y}} - {\ widehat {\ beta}} \, {\ bar {x}}, \\ [5pt] {\ widehat {\ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) (y_ {i} - {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}} \\ [6pt] = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ [5pt] = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\ [6pt] \ end {align}}}

Здесь мы ввели

Подставив приведенные выше выражения для α ^ {\ displaystyle {\ widehat {\ alpha}}}{\ displaystyle {\ widehat {\ alpha}}} и β ^ {\ displaystyle {\ widehat {\ beta} }}{\ displaystyle {\ widehat {\ beta}}} в

f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}{\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}

дает

f - y ¯ sy = rxyx - x ¯ sx. {\ displaystyle {\ frac {f - {\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x - {\ bar {x}}} {s_ {x}}}.}{\ displaystyle {\ frac {f - {\ bar {y}} } {s_ {y}}} = r_ {xy} {\ frac {x - {\ bar {x}}} {s_ {x}}}.}

Это показывает, что r xy - это наклон линии регрессии для стандартизованных точек данных (и что эта линия проходит через начало координат).

Обобщая нотацию x ¯ {\ displaystyle {\ bar {x}}}{\ bar {x}} , мы можем написать горизонтальную полосу над выражением, чтобы указать среднее значение этого выражения за набор образцов. Например:

x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}{\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}

Это обозначение позволяет нам краткая формула для r xy:

rxy = xy ¯ - x ¯ y ¯ (x 2 ¯ - x ¯ 2) (y 2 ¯ - y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} - {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2 }}} - {\ bar {x}} ^ {2} \ right) \ left ({\ overline {y ^ {2}}} - {\ bar {y}} ^ {2} \ right)}}}.}{\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} - {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2}}} - {\ bar {x}} ^ {2} \ right) \ left ({\ overline {y ^ {2}}} - {\ bar {y }} ^ {2} \ right)}}}.}

Коэффициент детерминации ("R в квадрате") равен rxy 2 {\ displaystyle r_ {xy} ^ {2}}r_ {xy} ^ 2 , когда модель линейна с единственной независимой переменной. См. коэффициент корреляции образца для получения дополнительных сведений.

Интуитивное объяснение

Умножением всех элементов суммирования в числителе на: (xi - x ¯) (xi - x ¯) = 1 {\ displaystyle {\ begin { выровнено} {\ frac {(x_ {i} - {\ bar {x}})} {(x_ {i} - {\ bar {x}})}} = 1 \ end {align}}}{\ displaystyle { \ begin {align} {\ frac {(x_ {i} - {\ bar {x}})} {(x_ {i} - {\ bar {x}})}} = 1 \ end {выравнивается}}} (тем самым не меняя его):

β ^ = ∑ i = 1 n (xi - x ¯) (yi - y ¯) ∑ i = 1 n (xi - x ¯) 2 = ∑ i = 1 n (xi - x ¯) 2 ∗ (yi - y ¯) (xi - x ¯) ∑ я = 1 n (xi - x ¯) 2 {\ displaystyle {\ begin {align} {\ widehat {\ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) (y_ {i} - {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} - {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} - {\ bar {y}})} {(x_ {i} - {\ bar {x}}) }}} {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}} \\ [6pt] \ end {align}}}{\ displaystyle {\ begin {align} {\ widehat {\ бета}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) (y_ {i} - {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} - {\ bar {y}})} {(x_ {i} - {\ bar {x }})}}} {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}} \\ [6pt] \ end {align}} }

Мы видим, что наклон (тангенс угла) линии регрессии представляет собой средневзвешенное значение (yi - y ¯) (xi - x ¯) {\ displaystyle {\ frac {(y_ {i} - { \ bar {y}})} {(x_ {i} - {\ bar {x}})}}}{\ displaystyle {\ frac {(y_ {i} - {\ bar {y}})} {(x_ {i} - {\ bar {x}})}}} это наклон (тангенс угла) линия, соединяющая i-ю точку со средним значением всех точек, взвешенная по (xi - x ¯) 2 {\ displaystyle (x_ {i} - {\ bar {x}}) ^ {2}}{\ displaystyle (x_ {i} - {\ bar {x}}) ^ {2}} , потому что чем дальше точка, тем она «важнее», потому что небольшие ошибки в ее положении меньше влияют на уклон, соединяющий ее с центральной точкой.

α ^ = y ¯ - β ^ x ¯, {\ displaystyle {\ begin {align} {\ widehat {\ alpha}} = {\ bar {y}} - {\ widehat {\ beta}} \, {\ bar {x}}, \\ [5pt] \ end {align}}}{\ displaystyle {\ begin {align} {\ widehat {\ alpha}} = {\ bar {y}} - {\ widehat {\ beta}} \, {\ bar {x}}, \\ [5pt] \ end {align}}}

Учитывая β ^ = tan ⁡ (θ) = dy / dx → dy = dx ∗ β ^ {\ displaystyle {\ widehat {\ beta}} = \ tan (\ theta) = dy / dx \ rightarrow dy = dx * {\ widehat {\ beta}}}{\ displaystyle {\ widehat {\ beta}} = \ tan (\ theta) = dy / dx \ rightarrow dy = dx * {\ widehat {\ beta}}} с θ {\ displaystyle \ theta }\ theta угол, под которым линия образует положительную ось x, мы имеем yintersection = y ¯ - dx ∗ β ^ = y ¯ - dy {\ displaystyle y _ {\ rm {correction}} = { \ bar {y}} - dx * {\ widehat {\ beta}} = {\ bar {y}} - dy}{\ displaystyle y _ {\ rm {пересечение}} = {\ bar {y}} - dx * {\ widehat {\ beta}} = {\ bar {y}} - dy}

Простая линейная регрессия без члена пересечения (единственный регрессор)

Иногда это подходит для принудительного прохождения линии регрессии через начало координат, поскольку предполагается, что x и y пропорциональны. Для модели без члена пересечения, y = βx, МНК-оценка для β упрощается до

β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat {\ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2} }} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}{\ displaystyle {\ widehat {\ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2}}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}} }

Подстановка (x - h, y - k) вместо (x, y) дает регрессию через (h, k):

β ^ = (x - h) (y - k) ¯ (x - h) 2 ¯ = xy ¯ - kx ¯ - hy ¯ + hkx 2 ¯ - 2 hx ¯ + h 2 = xy ¯ - x ¯ y ¯ + (x ¯ - h) (y ¯ - k) x 2 ¯ - x ¯ 2 + (x ¯ - h) 2 = Cov ⁡ (x, y) + (x ¯ - час) (Y ¯ - k) Вар ⁡ (x) + (x ¯ - h) 2, {\ displaystyle {\ begin {align} {\ widehat {\ beta}} = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ [6pt] = {\ frac {{\ overline {xy}} - k {\ bar {x}} - h { \ bar {y}} + hk} {{\ overline {x ^ {2}}} - 2h {\ bar {x}} + h ^ {2}}} \\ [6pt] = {\ frac {{ \ overline {xy}} - {\ bar {x}} {\ bar {y}} + ({\ bar {x}} - h) ({\ bar {y}} - k)} {{\ overline { x ^ {2}}} - {\ bar {x}} ^ {2} + ({\ bar {x}} - h) ^ {2}}} \\ [6pt] = {\ frac {\ operator имя {Cov} (x, y) + ({\ bar {x}} - h) ({\ bar {y}} - k)} {\ operatorname {Var} (x) + ({\ bar {x} } -h) ^ {2}}}, \ end {align}}}{\ displaystyle {\ begin {align} {\ widehat {\ beta}} = {\ frac {\ overline {(xh) ( yk)}} {\ overline {(xh) ^ {2}}}} \\ [6pt] = {\ frac {{\ overline {xy}} - k {\ bar {x}} - h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} - 2h {\ bar {x}} + h ^ {2}}} \\ [6pt] = {\ frac {{\ overline {xy}} - {\ bar {x}} {\ bar {y}} + ({\ bar {x}} - h) ({\ bar {y}} - k)} {{\ overline {x ^ {2}}} - {\ bar {x}} ^ {2} + ({\ bar {x}} - h) ^ {2}}} \\ [6pt] = {\ frac {\ operatorname {Cov } (x, y) + ({\ bar {x}} - h) ({\ bar {y}} - k)} {\ operatorname {Var} (x) + ({\ bar {x}} - h) ^ {2}} }, \ end {align}}}

где Cov и Var относятся к ковариации и дисперсии выборочных данных (без поправки на смещение).

Последняя форма выше демонстрирует, как перемещение линии от центра масс точек данных влияет на наклон.

Числовые свойства
  1. Линия регрессии проходит через точку центра масс, (x ¯, y ¯) {\ displaystyle ({\ bar {x}}, \, {\ bar { y}})}{\ displaystyle ({\ bar {x}}, \, {\ bar {y}})} , если модель включает член перехвата (т. е. не принудительно проходит через начало координат).
  2. Сумма остатков равна нулю, если модель включает член перехвата:
    ∑ я = 1 N ε ^ i = 0. {\ displaystyle \ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} = 0.}{\ displaystyle \ sum _ { я = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} = 0.}
  3. остатки и значения x не коррелированы (независимо от того, есть ли в модели перехватывающий член), что означает:
    ∑ i = 1 nxi ε ^ i = 0 {\ displaystyle \ sum _ {i = 1} ^ { n} x_ {i} {\ widehat {\ varepsilon}} _ {i} \; = \; 0}{\ displaystyle \ sum _ {i = 1} ^ {n} x_ {i} {\ widehat {\ varepsilon}} _ {i} \; = \; 0}
Свойства на основе модели

Описание статистических свойств оценщиков простой линейной регрессии оценки требует использования статистической модели . Следующее основано на предположении о применимости модели, при которой оценки являются оптимальными. Также возможно оценить свойства при других предположениях, таких как неоднородность, но это обсуждается в другом месте.

Беспристрастность

Оценки α ^ {\ displaystyle {\ widehat {\ alpha}}}{\ displaystyle {\ widehat {\ alpha}}} и β ^ {\ displaystyle {\ widehat {\ beta}}}{\ displaystyle {\ widehat {\ beta}}} беспристрастны.

Формализовать В этом утверждении мы должны определить структуру, в которой эти оценки являются случайными величинами. Мы рассматриваем остатки ε i как случайные величины, полученные независимо от некоторого распределения с нулевым средним. Другими словами, для каждого значения x соответствующее значение y генерируется как средний отклик α + βx плюс дополнительная случайная величина ε, называемая членом ошибки, равная в среднем нулю. При такой интерпретации оценки методом наименьших квадратов α ^ {\ displaystyle {\ widehat {\ alpha}}}{\ displaystyle {\ widehat {\ alpha}}} и β ^ {\ displaystyle {\ widehat {\ beta}}}{\ displaystyle {\ widehat {\ beta}}} сами будут случайными величинами, средние значения которых будут равны «истинным значениям» α и β. Это определение беспристрастной оценки.

Доверительные интервалы

Формулы, приведенные в предыдущем разделе, позволяют вычислить точечные оценки α и β, то есть коэффициенты линии регрессии для данного набора данных. Однако эти формулы не говорят нам, насколько точны оценки, т.е. сколько оценок α ^ {\ displaystyle {\ widehat {\ alpha}}}{\ displaystyle {\ widehat {\ alpha}}} и β ^ {\ displaystyle {\ widehat {\ beta}}}{\ displaystyle {\ widehat {\ beta}}} варьируются от образца к образцу для указанного размера выборки. Доверительные интервалы были разработаны, чтобы дать правдоподобный набор значений для оценок, которые можно было бы получить, если повторить эксперимент очень большое количество раз.

Стандартный метод построения доверительных интервалов для коэффициентов линейной регрессии основывается на предположении нормальности, которое оправдано, если:

  1. ошибки в регрессии нормально распределены (так- называется классическим предположением регрессии), или
  2. количество наблюдений n достаточно велико, и в этом случае оценка приблизительно нормально распределена.

Последний случай оправдан центральной предельной теоремой.

Предположение о нормальности

При первом предположении, приведенном выше, о нормальности членов ошибки, оценка коэффициента наклона сама будет нормально распределена со средним β и дисперсией σ 2 / ∑ (xi - х ¯) 2, {\ Displaystyle \ sigma ^ {2} \ left / \ sum (x_ {i} - {\ bar {x}}) ^ {2} \ right.,}{\ displaystyle \ sigma ^ {2} \ left / \ sum (x_ {i} - {\ bar {x}}) ^ {2} \ right.,} где σ - дисперсия ошибочных членов (см. Доказательства с использованием обычных наименьших квадратов ). При этом сумма квадратов остатков Q распределяется пропорционально χ с n - 2 степенями свободы и независимо от β ^ {\ displaystyle {\ widehat {\ beta}}}{\ displaystyle {\ widehat {\ beta}}} . Это позволяет нам построить значение t

t = β ^ - β s β ^ ∼ tn - 2, {\ displaystyle t = {\ frac {{\ widehat {\ beta}} - \ beta} {s_ { \ widehat {\ beta}}}} \ \ sim \ t_ {n-2},}{\ displaystyle t = {\ frac {{\ widehat {\ beta}} - \ beta} {s _ {\ widehat {\ beta}}}} \ \ sim \ t_ {n-2},}

где

s β ^ = 1 n - 2 ∑ i = 1 n ε ^ i 2 ∑ i = 1 n (xi - x ¯) 2 {\ displaystyle s _ {\ widehat {\ beta}} = {\ sqrt {\ frac {{\ frac {1} {n-2}} \ sum _ {i = 1} ^ {n } {\ widehat {\ varepsilon}} _ {i} ^ {\, 2}} {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2 }}}}}{\ displaystyle s _ {\ widehat {\ beta} } = {\ sqrt {\ frac {{\ frac {1} {n-2}} \ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2 }} {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}}}}

- стандартная ошибка оценщика. β ^ {\ displaystyle {\ widehat {\ beta}}}{\ displaystyle {\ widehat {\ beta}}} .

Это значение t имеет t Стьюдента - распределение с n - 2 степенями свободы. Используя его, мы можем построить доверительный интервал для β:

β ∈ [β ^ - s β ^ tn - 2 ∗, β ^ + s β ^ tn - 2 ∗], {\ displaystyle \ beta \ in \ left [ {\ widehat {\ beta}} - s _ ​​{\ widehat {\ beta}} t_ {n-2} ^ {*}, \ {\ widehat {\ beta}} + s _ {\ widehat {\ beta}} t_ { n-2} ^ {*} \ right],}{\ displaystyle \ beta \ in \ left [{\ widehat {\ beta}} -s _ {\ widehat {\ beta}} t_ {n-2} ^ {*}, \ {\ widehat {\ beta}} + s _ {\ widehat {\ beta}} t_ {n-2} ^ {*} \ right],}

на уровне достоверности (1 - γ), где tn - 2 ∗ {\ displaystyle t_ {n-2} ^ {*}}{\ displaystyle t_ {n-2} ^ {*}} - это (1 - γ 2) -й {\ displaystyle \ scriptstyle \ left (1 \; - \; {\ frac {\ gamma} {2}} \ right) {\ text {-th }}}{\ displaystyle \ scriptstyle \ left (1 \ ;-\;{\frac {\gamma }{2}}\right){\text{-th}}}квантиль распределения t n − 2. Например, если γ = 0,05, то уровень достоверности составляет 95%.

Аналогичным образом доверительный интервал для коэффициента пересечения α определяется как

α ∈ [α ^ - s α ^ tn - 2 ∗, α ^ + s α ^ tn - 2 ∗], {\ displaystyle \ alpha \ in \ left [{\ widehat {\ alpha}} - s _ ​​{\ widehat {\ alpha}} t_ {n-2} ^ {*}, \ {\ widehat {\ alpha}} + s _ {\ widehat {\ alpha}} t_ {n-2} ^ {*} \ right],}{\ displaystyle \ alpha \ in \ left [{\ widehat {\ alpha}} - s _ ​​{\ widehat {\ alpha}} t_ {n-2} ^ {*}, \ {\ widehat {\ alpha}} + s _ {\ widehat {\ alpha}} t_ {n-2} ^ {*} \ right],}

на уровне достоверности (1 - γ), где

s α ^ = s β ^ 1 n ∑ i = 1 nxi 2 знак равно 1 n (n - 2) (∑ я = 1 n ε ^ i 2) ∑ я = 1 nxi 2 ∑ я = 1 n (xi - x ¯) 2 {\ displaystyle s _ {\ widehat {\ alpha} } = s _ {\ widehat {\ beta}} {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2}}} = {\ sqrt {{\ frac {1} {n (n-2)}} \ left (\ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} \ right) {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2}} {\ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}}}}}{\ displaystyle s _ {\ widehat {\ alpha}} = s _ {\ widehat {\ beta}} {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1 } ^ {n} x_ {i} ^ {2}}} = {\ sqrt {{\ frac {1} {n (n-2)}} \ left (\ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} \ right) {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2}} {\ sum _ {я = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2}}}}}}
Американская регрессия «изменения безработицы - рост ВВП» с 95% доверительными диапазонами.

Доверительные интервалы для α и β дают нам общее представление где эти коэффициенты регрессии наиболее вероятны. Например, в приведенной здесь регрессии закона Окуня точечные оценки равны

α ^ = 0,859, β ^ = - 1,817. {\ displaystyle {\ widehat {\ alpha}} = 0,859, \ qquad {\ widehat {\ beta}} = - 1,817.}{\ displaystyle {\ widehat {\ alpha}} = 0,859, \ qquad {\ widehat {\ beta}} = - 1,817.}

95% доверительный интервал для этих оценок:

α ∈ [0,76, 0,96 ], β ∈ [- 2,06, - 1,58]. {\ displaystyle \ alpha \ in \ left [\, 0.76,0.96 \ right], \ qquad \ beta \ in \ left [-2.06, -1.58 \, \ right].}{\ displaystyle \ alpha \ in \ left [\, 0.76,0.96 \ right], \ qquad \ beta \ in \ left [-2.06, -1.58 \, \ right].}

Для графического представления этой информации, в виде доверительных полос вокруг линии регрессии, нужно действовать осторожно и учитывать совместное распределение оценок. Можно показать, что на уровне достоверности (1 - γ) доверительный интервал имеет гиперболический вид, задаваемый уравнением

(α + β ξ) ∈ [α ^ + β ^ ξ ± tn - 2 ∗ (1 n - 2 Ε ^ i 2) ⋅ (1 n + (ξ - x ¯) 2 ∑ (xi - x ¯) 2)]. {\ Displaystyle (\ альфа + \ бета \ xi) \ in \ left [\, {\ widehat {\ alpha}} + {\ widehat {\ beta}} \ xi \ pm t_ {n-2} ^ {*} {\ sqrt {\ left ({\ frac {1} {n-2}} \ sum {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} \ right) \ cdot \ left ({\ frac {1} {n}} + {\ frac {(\ xi - {\ bar {x}}) ^ {2}} {\ sum (x_ {i} - {\ bar {x}}) ^ {2} }} \ right)}} \, \ right].}{\ displaystyle (\ alpha + \ beta \ xi) \ in \ left [\, {\ widehat {\ alpha}} + {\ widehat {\ beta}} \ xi \ pm t_ {n-2} ^ {*} {\ sqrt {\ left ({\ frac {1} {n-2}} \ sum {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} \ справа) \ cdot \ left ({\ frac {1} {n}} + {\ frac {(\ xi - {\ bar {x}}) ^ {2}} {\ sum (x_ {i} - {\ bar {x}) }) ^ {2}}} \ right)}} \, \ right].}

Асимптотическое предположение

Альтернативное второе предположение гласит, что когда количество точек в наборе данных «достаточно велико», закон больших чисел и центральная предельная теорема становятся применимыми, и тогда распределение оценок становится приблизительно нормальным. При этом предположении все формулы, полученные в предыдущем разделе, остаются в силе, за единственным исключением, что квантиль t * n − 2 распределения Стьюдента t заменяется квантилем q * стандартное нормальное распределение. Иногда дробь 1 / n − 2 заменяется на 1 / n. При большом n такое изменение существенно не меняет результаты.

Числовой пример

Этот набор данных дает среднюю массу тела женщин как функцию их роста в выборке американских женщин в возрасте 30–39 лет. Хотя в статье OLS утверждается, что для этих данных было бы более подходящим запустить квадратичную регрессию, здесь вместо этого применяется простая модель линейной регрессии.

Высота (м), x i1,471,501,521,551,571,601,631,651,681,701,731,751,781.801,83
Масса (кг), y i52,2153,1254,4855,8457,2058,5759,9361,2963,1164,4766,2868,1069,9272,1974,46
i {\ displaystyle i}ixi {\ displaystyle x_ {i}}x_ {i} yi {\ displaystyle y_ {i}}y_ {i} xi 2 {\ displaystyle x_ {i} ^ {2}}{\ displaystyle x_ {i} ^ {2}} xiyi {\ displaystyle x_ {i} y_ {i}}{\ displaystyle x_ {i} y_ {i}} yi 2 {\ displaystyle y_ {i} ^ {2}}{\ displaystyle y_ {i} ^ {2}}
11.4752.212.160976.74872725.8841
21.5053,122.250079.68002821.7344
31.5254.482.310482.80962968.0704
41.5555.842.402586.55203118.1056
51.5757.202.464989.80403271.8400
61.6058.572.560093.71203430.4449
71.6359.932.656997.68593591.6049
81.6561.292.7225101.12853756.4641
91.6863.112.8224106.02483982.8721
101.7064.472.8900109.59904156.3809
111.7366.282.9929114.66444393.0384
121.7568.103.0625119.17504637.6100
131,7869.923.1684124.45764888.8064
141.8072.193.2400129.94205211.3961
151.8374.463.3489136.26185544.2916
Σ {\ displaystyle \ Sigma}\ Sigma 24,76931.1741.05321548.245358498.5439

В этом наборе данных n = 15 точек. Ручные вычисления будут начаты с нахождения следующих пяти сумм:

S x = ∑ xi = 24,76, S y = ∑ yi = 931,17, S xx = ∑ xi 2 = 41,0532, S yy = ∑ yi 2 = 58498,5439, S ху = ∑ xiyi = 1548.2453 {\ displaystyle {\ begin {выровнено} S_ {x} = \ sum x_ {i} \, = 24,76, \ qquad S_ {y} = \ sum y_ {i} \, = 931,17, \\ [5pt] S_ {xx} = \ sum x_ {i} ^ {2} = 41.0532, \; \; \, S_ {yy} = \ sum y_ {i} ^ {2} = 58498.5439, \\ [5pt] S_ {xy} = \ sum x_ {i} y_ {i} = 1548.2453 \ end {align}}}{\ displaystyle {\ begin {align} S_ {x} = \ sum x_ {i} \, = 24.76, \ qquad S_ {y} = \ sum y_ {i} \, = 931.17, \\ [5pt] S_ {xx} = \ sum x_ {i} ^ {2 } = 41,0532, \; \; \, S_ {yy} = \ sum y_ {i} ^ {2} = 58498,5439, \\ [5pt] S_ {xy} = \ sum x_ {i} y_ {i} = 1548.2453 \ конец {выровненный}}}

Эти величины будут использоваться для вычисления оценок коэффициентов регрессии и их стандартных ошибок.

β ^ = n S xy - S x S yn S xx - S x 2 = 61,272 α ^ = 1 n S y - β ^ 1 n S x = - 39,062 с ε 2 = 1 n (n - 2) [n S yy - S y 2 - β ^ 2 (n S xx - S x 2)] = 0,5762 с β ^ 2 = ns ε 2 n S xx - S x 2 = 3,1539 с α ^ 2 = s β ^ 2 1 n S xx = 8,63185 {\ displaystyle {\ begin {align} {\ widehat {\ beta}} = {\ frac {nS_ {xy} -S_ {x} S_ {y}} {nS_ {xx} -S_ {x} ^ {2}}} = 61,272 \\ [8pt] {\ widehat {\ alpha}} = {\ frac {1} {n}} S_ {y} - {\ widehat {\ beta}} { \ frac {1} {n}} S_ {x} = - 39,062 \\ [8pt] s _ {\ varepsilon} ^ {2} = {\ frac {1} {n (n-2)}} \ left [ nS_ {yy} -S_ {y} ^ {2} - {\ widehat {\ beta}} ^ {2} (nS_ {xx} -S_ {x} ^ {2}) \ right] = 0,5762 \\ [8pt ] s _ {\ widehat {\ beta}} ^ {2} = {\ frac {ns _ {\ varepsilon} ^ {2}} {nS_ {xx} -S_ {x} ^ {2}}} = 3,1539 \\ [8pt] s _ {\ widehat {\ alpha}} ^ {2} = s _ {\ widehat {\ beta}} ^ {2} {\ frac {1} {n}} S_ {xx} = 8,63185 \ end { выровнено}}}{\ displaystyle {\ begin {align} {\ widehat {\ beta}} = { \ frac {nS_ {xy} -S_ {x} S_ {y}} {nS_ {xx} -S_ {x} ^ {2}}} = 61,272 \\ [8pt] {\ widehat {\ alpha}} = {\ frac {1} {n}} S_ {y} - {\ widehat {\ beta}} {\ frac {1} {n}} S_ {x} = - 39,062 \\ [8pt] s _ {\ varepsilon} ^ {2} = {\ frac {1} {n (n-2)}} \ left [nS_ {yy} -S_ {y} ^ {2} - {\ widehat {\ beta}} ^ {2} (nS_ {xx} -S_ {x} ^ {2}) \ right] = 0,5762 \\ [8pt] s _ {\ widehat {\ beta}} ^ {2} = {\ frac {ns _ {\ varepsilon} ^ {2}} {nS_ {xx} -S_ {x} ^ {2}}} = 3,1539 \\ [8pt] s _ {\ widehat {\ alpha}} ^ {2} = s _ {\ widehat {\ beta} } ^ {2} {\ frac {1} {n}} S_ {xx} = 8.63185 \ end {align}}}
График точек и линий наименьших квадратов в числовом примере простой линейной регрессии

Квантиль t-распределения Стьюдента 0,975 с 13 степенями свободы равен t 13 = 2,1604, и, таким образом, 95% доверительные интервалы для α и β равны

α ∈ [α ^ ∓ t 13 ∗ s α] = [- 45,4, - 32,7] β ∈ [β ^ ∓ t 13 ∗ s β] = [57,4, 65,1] {\ displaystyle {\ begin {align} \ alpha \ in [\, {\ widehat {\ alpha}} \ mp t_ {13} ^ {*} s _ {\ alpha} \,] = [\, {- 45.4}, \ {-32.7} \,] \\ [5pt] \ beta \ in [\, {\ widehat {\ beta}} \ mp t_ {13} ^ {*} s _ {\ beta} \,] = [\, 57.4, \ 65.1 \,] \ end {align}}}{\ displaystyle {\ begin {align} \ alpha \ in [\, {\ widehat {\ alpha}} \ mp t_ {13} ^ {*} s _ {\ alpha} \,] = [\, {- 45.4}, \ {-32.7} \,] \\ [5pt] \ beta \ in [\, {\ widehat {\ beta}} \ mp t_ {13} ^ {*} s _ {\ бета} \,] = [\, 57.4, \ 65.1 \,] \ конец {выровнено}}}

Также можно вычислить коэффициент корреляции продукт-момент :

r ^ = n S xy - S x S y ( n S xx - S x 2) (n S yy - S y 2) = 0,9945 {\ displaystyle {\ widehat {r}} = {\ frac {nS_ {xy} -S_ {x} S_ {y}} {\ sqrt {(nS_ {xx} -S_ {x} ^ {2}) (nS_ {yy} -S_ {y} ^ {2})}}} = 0.9945}{\ displaystyle {\ widehat {r}} = {\ frac {nS_ {xy} -S_ {x} S_ {y}} {\ sqrt {(nS_ {xx} - S_ {x} ^ {2}) (nS_ {yy} -S_ {y} ^ {2})}}} = 0.9945}

Этот пример также демонстрирует, что сложные вычисления не преодолеть использование плохо подготовленных данных. Первоначально высота была дана в дюймах и была преобразована в ближайший сантиметр. Поскольку преобразование привело к ошибке округления, это не точное преобразование. Исходные дюймы можно восстановить с помощью функции Round (x / 0,0254), а затем повторно преобразовать в метрическую систему без округления: если это будет сделано, результаты станут

β ^ = 61,6746, α ^ = - 39,7468. {\ displaystyle {\ widehat {\ beta}} = 61.6746, \ qquad {\ widehat {\ alpha}} = - 39.7468.}{\ displaystyle {\ widehat {\ beta}} = 61,6746, \ qquad {\ widehat {\ alpha}} = -39,7468.}

Таким образом, кажущееся небольшое изменение данных имеет реальный эффект.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-08 02:05:28
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте