Регрессия Деминга

редактировать
Регрессия Деминга. Красные линии показывают ошибку как по x, так и по y. Это отличается от традиционного метода наименьших квадратов, который измеряет ошибку параллельно оси y. Показанный случай с отклонениями, измеренными перпендикулярно, возникает, когда ошибки в x и y имеют одинаковую дисперсию.

В статистике, регрессия Деминга, названная в честь W. Эдвардс Деминг - это модель ошибок в переменных, которая пытается найти строку наилучшего соответствия для двумерного набора данных. Он отличается от простой линейной регрессии тем, что учитывает ошибки в наблюдениях как по оси x, так и по оси y. Это частный случай общих наименьших квадратов, который позволяет использовать любое количество предикторов и более сложную структуру ошибок.

Регрессия Деминга эквивалентна оценке максимального правдоподобия модели ошибок в переменных, в которой ошибки для двух переменных считаются независимыми и нормально распределенные, и отношение их дисперсий, обозначенное δ, известно. На практике это соотношение можно оценить из соответствующих источников данных; однако процедура регрессии не учитывает возможные ошибки при оценке этого отношения.

Регрессия Деминга лишь немного сложнее вычислить по сравнению с простой линейной регрессией. Большинство пакетов статистических программ, используемых в клинической химии, предлагают регрессию Деминга.

Модель была первоначально введена Адкоком (1878), который рассматривал случай δ = 1, а затем в более общем плане Куммеллом (1879) с произвольным δ. Однако их идеи оставались в основном незамеченными более 50 лет, пока не были возрождены Купмансом (1937), а затем еще больше распространены Демингом (1943). Последняя книга стала настолько популярной в клинической химии и смежных областях, что метод был даже назван регрессией Деминга в этих областях.

Содержание
  • 1 Спецификация
  • 2 Решение
  • 3 Ортогональная регрессия
    • 3.1 Приложение
  • 4 См. Также
  • 5 Примечания
  • 6 Ссылки
Спецификация

Предположим, что доступные данные (y i, x i) - измеренные наблюдения «истинных» значений (y i *, x i *), которые лежат на линии регрессии:

yi = yi ∗ + ε я, xi знак равно xi ∗ + η я, {\ displaystyle {\ begin {выровнено} y_ {i} = y_ {i} ^ {*} + \ varepsilon _ {i}, \\ x_ {i} = x_ {i} ^ {*} + \ eta _ {i}, \ end {align}}}{\ begin {выравнивается} y_ {i} = y_ {i} ^ {*} + \ varepsilon _ {i}, \\ x_ {i } = x_ {i} ^ {*} + \ eta _ {i}, \ end {align}}

где ошибки ε и η независимы, и предполагается, что отношение их дисперсий известно:

δ = σ ε 2 σ η 2. {\ displaystyle \ delta = {\ frac {\ sigma _ {\ varepsilon} ^ {2}} {\ sigma _ {\ eta} ^ {2}}}.}\ delta = {\ frac {\ sigma _ {\ varepsilon} ^ {2}} {\ sigma _ { \ eta} ^ {2}}}.

На практике дисперсия x {\ displaystyle x}xи y {\ displaystyle y}y параметры часто неизвестны, что усложняет оценку δ {\ displaystyle \ delta}\ delta . Обратите внимание, что если метод измерения для x {\ displaystyle x}xи y {\ displaystyle y}y одинаков, эти отклонения, вероятно, будут равны, так что δ = 1 {\ displaystyle \ delta = 1}\ delta = 1 для этого случая.

Мы стремимся найти линию «наилучшего соответствия»

y ∗ = β 0 + β 1 x ∗, {\ displaystyle y ^ {*} = \ beta _ {0} + \ beta _ {1} x ^ {*},}y ^ {*} = \ beta _ {0} + \ beta _ {1} x ^ {*},

такой, что взвешенная сумма квадратов остатков модели минимизирована:

SSR = ∑ i = 1 n (ε i 2 σ ε 2 + η i 2 σ η 2) = 1 σ ε 2 ∑ i = 1 n ((yi - β 0 - β 1 xi ∗) 2 + δ (xi - xi ∗) 2) → min β 0, β 1, x 1 ∗,…, xn * SSR {\ Displaystyle SSR = \ сумма _ {я = 1} ^ {n} {\ bigg (} {\ frac {\ varepsilon _ {i} ^ {2}} {\ sigma _ {\ varepsilon} ^ {2 }}} + {\ frac {\ eta _ {i} ^ {2}} {\ sigma _ {\ eta} ^ {2}}} {\ bigg)} = {\ frac {1} {\ sigma _ { \ varepsilon} ^ {2}}} \ sum _ {i = 1} ^ {n} {\ Big (} (y_ {i} - \ beta _ {0} - \ beta _ {1} x_ {i} ^ {*}) ^ {2} + \ delta (x_ {i} -x_ {i} ^ {*}) ^ {2} {\ Big)} \ \ to \ \ min _ {\ beta _ {0}, \ beta _ {1}, x_ {1} ^ {*}, \ ldots, x_ {n} ^ {*}} SSR}SSR = \ sum _ {{i = 1}} ^ {n} {\ bigg (} {\ frac {\ varepsilon _ {i} ^ {2}} {\ sigma _ {\ varepsilon} ^ {2}}} + {\ frac {\ eta _ {i} ^ {2}} {\ sigma _ {\ eta} ^ {2}}} {\ bigg)} = {\ frac {1} {\ sigma _ {\ varepsilon} ^ {2}}} \ sum _ {{i = 1}} ^ { n} {\ Big (} (y_ {i} - \ beta _ {0} - \ beta _ {1} x_ {i} ^ {*}) ^ {2} + \ delta (x_ {i} -x_ { i} ^ {*}) ^ {2} {\ Big)} \ \ to \ \ min _ {{\ beta _ {0}, \ beta _ {1}, x_ {1} ^ {*}, \ ldots, x_ {n} ^ {*}}} SSR

Полный вывод см. в Jensen (2007).

Решение

Решение может быть выражено в терминах выборочных моментов второй степени. То есть сначала мы вычисляем следующие величины (все суммы идут от i = 1 до n):

x ¯ = 1 n ∑ xi, y ¯ = 1 n ∑ yi, sxx = 1 n - 1 ∑ (xi - x ¯) 2, sxy = 1 n - 1 ∑ (xi - x ¯) (yi - y ¯), syy = 1 n - 1 ∑ (yi - y ¯) 2. {\ displaystyle {\ begin {align} {\ overline {x}} = {\ frac {1} {n}} \ sum x_ {i}, \ quad {\ overline {y}} = {\ frac {1 } {n}} \ sum y_ {i}, \\ s_ {xx} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - {\ overline {x}}) ^ {2 }, \\ s_ {xy} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - {\ overline {x}}) (y_ {i} - {\ overline {y}}), \\ s_ {yy} = {\ tfrac {1} {n-1}} \ sum (y_ {i} - {\ overline {y}}) ^ {2}. \ end {align}}}{\ begin {выровнено} \ overline {x} = {\ frac {1} {n}} \ sum x_ {i}, \ quad \ overline {y} = {\ frac {1} {n}} \ sum y_ {i }, \\ s _ {{xx}} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - \ overli ne {x}) ^ {2}, \\ s _ {{xy}} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - \ overline {x}) (y_ {i} - \ overline {y}), \\ s _ {{yy}} = {\ tfrac {1} {n-1}} \ sum (y_ {i} - \ overline {y}) ^ {2}. \ end {выравнивается}}

Наконец, оценки параметров модели методом наименьших квадратов будут

β ^ 1 = syy - δ sxx + (syy - δ sxx) 2 + 4 δ sxy 2 2 sxy, β ^ 0 = y ¯ - β ^ 1 x ¯, x ^ i ∗ = xi + β ^ 1 β ^ 1 2 + δ (yi - β ^ 0 - β ^ 1 xi). {\ displaystyle {\ begin {align} {\ hat {\ beta}} _ {1} = {\ frac {s_ {yy} - \ delta s_ {xx} + {\ sqrt {(s_ {yy} - \) delta s_ {xx}) ^ {2} +4 \ delta s_ {xy} ^ {2}}}} {2s_ {xy}}}, \\ {\ hat {\ beta}} _ {0} = { \ overline {y}} - {\ hat {\ beta}} _ {1} {\ overline {x}}, \\ {\ hat {x}} _ {i} ^ {*} = x_ {i} + {\ frac {{\ hat {\ beta}} _ {1}} {{\ hat {\ beta}} _ {1} ^ {2} + \ delta}} (y_ {i} - {\ hat { \ beta}} _ {0} - {\ hat {\ beta}} _ {1} x_ {i}). \ end {align}}}{\ begin { выровнено} {\ hat \ beta} _ {1} = {\ frac {s _ {{yy}} - \ delta s _ {{xx}} + {\ sqrt {(s _ {{yy}} - \ delta s_ { {xx}}) ^ {2} +4 \ delta s _ {{xy}} ^ {2}}}} {2s _ {{xy}}}}, \\ {\ hat \ beta} _ {0} = \ overline {y} - {\ hat \ beta} _ {1} \ overline {x}, \\ {\ hat {x}} _ {i} ^ {*} = x_ {i} + {\ frac { {\ hat \ beta} _ {1}} {{\ hat \ beta} _ {1} ^ {2} + \ delta}} (y_ {i} - {\ hat \ beta} _ {0} - {\ шляпа \ beta} _ {1} x_ {i}). \ end {align}}
Ортогональная регрессия

Для случая равенства дисперсии ошибок, то есть когда δ = 1 {\ displaystyle \ delta = 1}\ delta = 1 , регрессия Деминга становится ортогональной регрессией: она минимизирует сумму квадратов перпендикулярных расстояний от точек данных до линия регрессии. В этом случае обозначьте каждое наблюдение как точку z j на комплексной плоскости (т. Е. Точка (x j, y j) записывается как z j = x j + iy j, где i - мнимая единица ). Обозначьте как Z сумму квадратов разностей точек данных от центроида (также обозначенного в комплексных координатах), который является точкой, горизонтальное и вертикальное положение которой являются средними значениями точек данных. Тогда:

  • Если Z = 0, то каждая линия, проходящая через центроид, является линией наилучшего ортогонального соответствия [это неверно - возьмите прямоугольник с центром в начале координат, представляющий четыре точки данных и выровненный по горизонтальной и вертикальной осям. Если ширина больше высоты, тогда ось x подходит лучше, чем ось y].
  • Если Z ≠ 0, ортогональная линия регрессии проходит через центроид и параллельна вектору от начала до Z {\ displaystyle {\ sqrt {Z}}}{\ sqrt {Z}} .

A тригонометрическое представление линии ортогональной регрессии было дано Кулиджем в 1913 году.

Application

В в случае трех неколлинеарных точек на плоскости, треугольник с этими точками в качестве вершин имеет уникальный эллипс Штейнера, то есть касательные к сторонам треугольника в их серединах. Основная ось этого эллипса приходится на ортогональную линию регрессии для трех вершин.

См. Также
Примечания
Ссылки
Последняя правка сделана 2021-05-17 12:34:52
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте