Регрессия Деминга

редактировать

Регрессия Деминга. Красные линии показывают ошибку как по x, так и по y. Это отличается от традиционного метода наименьших квадратов, который измеряет ошибку параллельно оси y. Показанный случай с отклонениями, измеренными перпендикулярно, возникает, когда ошибки в x и y имеют одинаковую дисперсию.

В статистике, регрессия Деминга, названная в честь W. Эдвардс Деминг - это модель ошибок в переменных, которая пытается найти строку наилучшего соответствия для двумерного набора данных. Он отличается от простой линейной регрессии тем, что учитывает ошибки в наблюдениях как по оси x, так и по оси y. Это частный случай общих наименьших квадратов, который позволяет использовать любое количество предикторов и более сложную структуру ошибок.

Регрессия Деминга эквивалентна оценке максимального правдоподобия модели ошибок в переменных, в которой ошибки для двух переменных считаются независимыми и нормально распределенные, и отношение их дисперсий, обозначенное δ, известно. На практике это соотношение можно оценить из соответствующих источников данных; однако процедура регрессии не учитывает возможные ошибки при оценке этого отношения.

Регрессия Деминга лишь немного сложнее вычислить по сравнению с простой линейной регрессией. Большинство пакетов статистических программ, используемых в клинической химии, предлагают регрессию Деминга.

Модель была первоначально введена Адкоком (1878), который рассматривал случай δ = 1, а затем в более общем плане Куммеллом (1879) с произвольным δ. Однако их идеи оставались в основном незамеченными более 50 лет, пока не были возрождены Купмансом (1937), а затем еще больше распространены Демингом (1943). Последняя книга стала настолько популярной в клинической химии и смежных областях, что метод был даже назван регрессией Деминга в этих областях.

Содержание

1 Спецификация
2 Решение
3 Ортогональная регрессия
- 3.1 Приложение
4 См. Также
5 Примечания
6 Ссылки

Спецификация

Предположим, что доступные данные (y i, x i) - измеренные наблюдения «истинных» значений (y i *, x i *), которые лежат на линии регрессии:

yi = yi ∗ + ε я, xi знак равно xi ∗ + η я, {\ displaystyle {\ begin {выровнено} y_ {i} = y_ {i} ^ {*} + \ varepsilon _ {i}, \\ x_ {i} = x_ {i} ^ {*} + \ eta _ {i}, \ end {align}}}

{\ begin {выравнивается} y_ {i} = y_ {i} ^ {*} + \ varepsilon _ {i}, \\ x_ {i } = x_ {i} ^ {*} + \ eta _ {i}, \ end {align}}

где ошибки ε и η независимы, и предполагается, что отношение их дисперсий известно:

δ = σ ε 2 σ η 2. {\ displaystyle \ delta = {\ frac {\ sigma _ {\ varepsilon} ^ {2}} {\ sigma _ {\ eta} ^ {2}}}.}

\ delta = {\ frac {\ sigma _ {\ varepsilon} ^ {2}} {\ sigma _ { \ eta} ^ {2}}}.

На практике дисперсия $x {\ displaystyle x}$ $x$ и $y {\ displaystyle y}$ $y$ параметры часто неизвестны, что усложняет оценку $δ {\ displaystyle \ delta}$ $\ delta$ . Обратите внимание, что если метод измерения для $x {\ displaystyle x}$ $x$ и $y {\ displaystyle y}$ $y$ одинаков, эти отклонения, вероятно, будут равны, так что $δ = 1 {\ displaystyle \ delta = 1}$ $\ delta = 1$ для этого случая.

Мы стремимся найти линию «наилучшего соответствия»

y ∗ = β 0 + β 1 x ∗, {\ displaystyle y ^ {*} = \ beta _ {0} + \ beta _ {1} x ^ {*},}

y ^ {*} = \ beta _ {0} + \ beta _ {1} x ^ {*},

такой, что взвешенная сумма квадратов остатков модели минимизирована:

SSR = ∑ i = 1 n (ε i 2 σ ε 2 + η i 2 σ η 2) = 1 σ ε 2 ∑ i = 1 n ((yi - β 0 - β 1 xi ∗) 2 + δ (xi - xi ∗) 2) → min β 0, β 1, x 1 ∗,…, xn * SSR {\ Displaystyle SSR = \ сумма _ {я = 1} ^ {n} {\ bigg (} {\ frac {\ varepsilon _ {i} ^ {2}} {\ sigma _ {\ varepsilon} ^ {2 }}} + {\ frac {\ eta _ {i} ^ {2}} {\ sigma _ {\ eta} ^ {2}}} {\ bigg)} = {\ frac {1} {\ sigma _ { \ varepsilon} ^ {2}}} \ sum _ {i = 1} ^ {n} {\ Big (} (y_ {i} - \ beta _ {0} - \ beta _ {1} x_ {i} ^ {*}) ^ {2} + \ delta (x_ {i} -x_ {i} ^ {*}) ^ {2} {\ Big)} \ \ to \ \ min _ {\ beta _ {0}, \ beta _ {1}, x_ {1} ^ {*}, \ ldots, x_ {n} ^ {*}} SSR}

SSR = \ sum _ {{i = 1}} ^ {n} {\ bigg (} {\ frac {\ varepsilon _ {i} ^ {2}} {\ sigma _ {\ varepsilon} ^ {2}}} + {\ frac {\ eta _ {i} ^ {2}} {\ sigma _ {\ eta} ^ {2}}} {\ bigg)} = {\ frac {1} {\ sigma _ {\ varepsilon} ^ {2}}} \ sum _ {{i = 1}} ^ { n} {\ Big (} (y_ {i} - \ beta _ {0} - \ beta _ {1} x_ {i} ^ {*}) ^ {2} + \ delta (x_ {i} -x_ { i} ^ {*}) ^ {2} {\ Big)} \ \ to \ \ min _ {{\ beta _ {0}, \ beta _ {1}, x_ {1} ^ {*}, \ ldots, x_ {n} ^ {*}}} SSR

Полный вывод см. в Jensen (2007).

Решение

Решение может быть выражено в терминах выборочных моментов второй степени. То есть сначала мы вычисляем следующие величины (все суммы идут от i = 1 до n):

x ¯ = 1 n ∑ xi, y ¯ = 1 n ∑ yi, sxx = 1 n - 1 ∑ (xi - x ¯) 2, sxy = 1 n - 1 ∑ (xi - x ¯) (yi - y ¯), syy = 1 n - 1 ∑ (yi - y ¯) 2. {\ displaystyle {\ begin {align} {\ overline {x}} = {\ frac {1} {n}} \ sum x_ {i}, \ quad {\ overline {y}} = {\ frac {1 } {n}} \ sum y_ {i}, \\ s_ {xx} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - {\ overline {x}}) ^ {2 }, \\ s_ {xy} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - {\ overline {x}}) (y_ {i} - {\ overline {y}}), \\ s_ {yy} = {\ tfrac {1} {n-1}} \ sum (y_ {i} - {\ overline {y}}) ^ {2}. \ end {align}}}

{\ begin {выровнено} \ overline {x} = {\ frac {1} {n}} \ sum x_ {i}, \ quad \ overline {y} = {\ frac {1} {n}} \ sum y_ {i }, \\ s _ {{xx}} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - \ overli ne {x}) ^ {2}, \\ s _ {{xy}} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - \ overline {x}) (y_ {i} - \ overline {y}), \\ s _ {{yy}} = {\ tfrac {1} {n-1}} \ sum (y_ {i} - \ overline {y}) ^ {2}. \ end {выравнивается}}

Наконец, оценки параметров модели методом наименьших квадратов будут

β ^ 1 = syy - δ sxx + (syy - δ sxx) 2 + 4 δ sxy 2 2 sxy, β ^ 0 = y ¯ - β ^ 1 x ¯, x ^ i ∗ = xi + β ^ 1 β ^ 1 2 + δ (yi - β ^ 0 - β ^ 1 xi). {\ displaystyle {\ begin {align} {\ hat {\ beta}} _ {1} = {\ frac {s_ {yy} - \ delta s_ {xx} + {\ sqrt {(s_ {yy} - \) delta s_ {xx}) ^ {2} +4 \ delta s_ {xy} ^ {2}}}} {2s_ {xy}}}, \\ {\ hat {\ beta}} _ {0} = { \ overline {y}} - {\ hat {\ beta}} _ {1} {\ overline {x}}, \\ {\ hat {x}} _ {i} ^ {*} = x_ {i} + {\ frac {{\ hat {\ beta}} _ {1}} {{\ hat {\ beta}} _ {1} ^ {2} + \ delta}} (y_ {i} - {\ hat { \ beta}} _ {0} - {\ hat {\ beta}} _ {1} x_ {i}). \ end {align}}}

{\ begin { выровнено} {\ hat \ beta} _ {1} = {\ frac {s _ {{yy}} - \ delta s _ {{xx}} + {\ sqrt {(s _ {{yy}} - \ delta s_ { {xx}}) ^ {2} +4 \ delta s _ {{xy}} ^ {2}}}} {2s _ {{xy}}}}, \\ {\ hat \ beta} _ {0} = \ overline {y} - {\ hat \ beta} _ {1} \ overline {x}, \\ {\ hat {x}} _ {i} ^ {*} = x_ {i} + {\ frac { {\ hat \ beta} _ {1}} {{\ hat \ beta} _ {1} ^ {2} + \ delta}} (y_ {i} - {\ hat \ beta} _ {0} - {\ шляпа \ beta} _ {1} x_ {i}). \ end {align}}

Ортогональная регрессия

Для случая равенства дисперсии ошибок, то есть когда $δ = 1 {\ displaystyle \ delta = 1}$ $\ delta = 1$ , регрессия Деминга становится ортогональной регрессией: она минимизирует сумму квадратов перпендикулярных расстояний от точек данных до линия регрессии. В этом случае обозначьте каждое наблюдение как точку z j на комплексной плоскости (т. Е. Точка (x j, y j) записывается как z j = x j + iy j, где i - мнимая единица ). Обозначьте как Z сумму квадратов разностей точек данных от центроида (также обозначенного в комплексных координатах), который является точкой, горизонтальное и вертикальное положение которой являются средними значениями точек данных. Тогда:

Если Z = 0, то каждая линия, проходящая через центроид, является линией наилучшего ортогонального соответствия [это неверно - возьмите прямоугольник с центром в начале координат, представляющий четыре точки данных и выровненный по горизонтальной и вертикальной осям. Если ширина больше высоты, тогда ось x подходит лучше, чем ось y].
Если Z ≠ 0, ортогональная линия регрессии проходит через центроид и параллельна вектору от начала до $Z {\ displaystyle {\ sqrt {Z}}}$ ${\ sqrt {Z}}$ .

A тригонометрическое представление линии ортогональной регрессии было дано Кулиджем в 1913 году.

Application

В в случае трех неколлинеарных точек на плоскости, треугольник с этими точками в качестве вершин имеет уникальный эллипс Штейнера, то есть касательные к сторонам треугольника в их серединах. Основная ось этого эллипса приходится на ортогональную линию регрессии для трех вершин.

См. Также

Подгонка линии

Примечания

Ссылки

Adcock, RJ (1878). «Проблема наименьших квадратов». Аналитик. Анналы математики. 5 (2): 53–54. DOI : 10.2307 / 2635758. JSTOR 2635758. CS1 maint: ref = harv (ссылка )
Кулидж, Дж. Л. (1913). «Два геометрических приложения математики наименьших квадратов». The American Mathematical Monthly. 20(6): 187–190. doi : 10.2307 / 2973072. CS1 maint: ref = harv (ссылка )
Корнблит, П.Дж.; Гочман, Н. (1979). «Неправильные коэффициенты регрессии методом наименьших квадратов». Clin. Chem. 25 (3): 432–438. PMID 262186. CS1 maint: ref = harv (link )
Deming, WE (1943). Статистическая корректировка данных. Wiley, NY (Dover Publications edition, 1985).). ISBN 0-486-64685-8. CS1 maint: ref = harv (link )
Fuller, Wayne A. (1987). Измерение модели ошибок. John Wiley Sons, Inc. ISBN 0-471-86187-1. CS1 maint: ref = harv (link )
Glaister, P. (2001). «Снова о наименьших квадратах». The Mathematical Gazette. 85: 104–107. doi : 10.2307 / 3620485. CS1 maint: ref = harv (link )
Дженсен, Андерс Кристиан (200 7). «Регрессия Деминга, пакет MethComp» (PDF). CS1 maint: ref = harv (ссылка )
Koopmans, TC (1937). Анализ линейной регрессии экономических временных рядов. DeErven Ф. Бон, Харлем, Нидерланды. CS1 maint: ref = harv (ссылка )
Kummell, CH (1879). «Редукция уравнений наблюдения, которые содержат более одной наблюдаемой величины». Аналитик. Анналы математики. 6 (4): 97–105. doi : 10.2307 / 2635646. JSTOR 2635646. CS1 maint: ref = harv (ссылка )
Linnet, K. (1993). «Оценка регрессионных процедур для сравнительных исследований методов». Clinical Chemistry. 39 (3): 424–432. PMID 8448852. CS1 maint: ref = harv (ссылка )
Минда, Д. ; Phelps, S. (2008). «Треугольники, эллипсы и кубические многочлены» (PDF). American Mathematical Monthly. 115 (8): 679 –689. MR 2456092. CS1 maint: ref = harv (ссылка )