Основная величина

редактировать

В статистике используется основная величина или точка поворота . функция наблюдений и ненаблюдаемых параметров, так что распределение вероятностей функции не зависит от неизвестных параметров (включая мешающие параметры ). Опорная величина не обязательно должна быть статистикой - функция и ее значение могут зависеть от параметров модели, но ее распределение не должно. Если это статистика, то она называется вспомогательной статистикой.

Более формально, пусть X = (X 1, X 2,…, X n) {\ displaystyle X = (X_ {1 }, X_ {2}, \ ldots, X_ {n})}X = (X_1, X_2, \ ldots, X_n) быть случайной выборкой из распределения, которое зависит от параметра (или вектора параметров) θ {\ displaystyle \ theta}\ theta . Пусть g (X, θ) {\ displaystyle g (X, \ theta)}g (X, \ theta) будет случайной величиной, распределение которой одинаково для всех θ {\ displaystyle \ theta}\ theta . Тогда г {\ displaystyle г}g называется ключевой величиной (или просто стержень).

Основные величины обычно используются для нормализации, чтобы можно было сравнивать данные из разных наборов данных. Относительно легко построить опорные точки для параметров местоположения и масштабирования: для первых мы формируем различия, чтобы местоположение отменялось, для последних отношений, чтобы масштаб отменялся.

Основные величины являются фундаментальными для построения тестовой статистики, поскольку они позволяют статистике не зависеть от параметров - например, t-статистика Стьюдента предназначена для нормальное распределение с неизвестной дисперсией (и средним). Они также предоставляют один метод построения доверительных интервалов, а использование основных величин улучшает производительность начальной загрузки. В форме вспомогательной статистики их можно использовать для построения частотных интервалов прогнозирования (доверительных интервалов прогнозирования).

Содержание

  • 1 Примеры
    • 1.1 Нормальное распределение
    • 1.2 Двумерное нормальное распределение
  • 2 Устойчивость
  • 3 См. Также
  • 4 Ссылки

Примеры

Нормальное распределение

Одна из простейших ключевых величин - z-оценка ; дано нормальное распределение со средним значением μ {\ displaystyle \ mu}\ mu и дисперсией σ 2 {\ displaystyle \ sigma ^ {2}}\ sigma ^ {2} и наблюдением x, z-оценка:

z = x - μ σ, {\ displaystyle z = {\ frac {x- \ mu} {\ sigma}},}z = {\ frac {x- \ mu} {\ sigma}},

имеет распределение N (0, 1) {\ displaystyle N (0,1)}N (0,1) - нормальное распределение со средним 0 и дисперсией 1. Аналогично, поскольку среднее из n выборок имеет выборочное распределение N (μ, σ 2 / n), {\ displaystyle N (\ mu, \ sigma ^ {2} / n),}N (\ mu, \ sigma ^ 2 / n), z-оценка среднего

z = X ¯ - μ σ / n {\ displaystyle z = {\ frac {{\ overline {X}} - \ mu} {\ sigma / {\ sqrt {n}}}}}z = \ frac { \ overline {X} - \ mu} {\ sigma / \ sqrt {n}}

также имеет распределение N (0, 1). {\ displaystyle N (0,1).}N (0,1). Обратите внимание, что хотя эти функции зависят от параметров - и, следовательно, их можно вычислить, только если параметры известны (они не являются статистикой) - распределение не зависит параметров.

Учитывая n {\ displaystyle n}n независимые, идентично распределенные (iid) наблюдения X = (X 1, X 2,…, X n) {\ displaystyle X = (X_ {1}, X_ {2}, \ ldots, X_ {n})}X = (X_1, X_2, \ ldots, X_n) из нормального распределения с неизвестным средним μ {\ displaystyle \ mu }\ mu и дисперсия σ 2 {\ displaystyle \ sigma ^ {2}}\ sigma ^ {2} , ключевую величину можно получить с помощью функции:

g (x, X) знак равно nx - X ¯ s {\ displaystyle g (x, X) = {\ sqrt {n}} {\ frac {x - {\ overline {X}}} {s}}}g (x, X) = \ sqrt {n} \ frac {x - \ overline {X}} {s}

где

X ¯ = 1 N ∑ я знак равно 1 N Икс я {\ Displaystyle {\ overline {X}} = {\ гидроразрыва {1} {n}} \ sum _ {i = 1} ^ {n} {X_ {i}} }\ overline {X} = \ frac {1} {n} \ sum_ {i = 1} ^ n {X_i}

и

s 2 = 1 n - 1 ∑ i = 1 n (X i - X ¯) 2 {\ displaystyle s ^ {2} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} {(X_ {i} - {\ overline {X}}) ^ {2}}}s ^ 2 = \ frac {1} {n-1} \ sum_ {i = 1} ^ n {(X_i - \ overline {X}) ^ 2}

- это несмещенные оценки μ {\ displaystyle \ mu}\ mu и σ 2 {\ displaystyle \ sigma ^ {2}}\ sigma ^ {2} соответственно. Функция g (x, X) {\ displaystyle g (x, X)}g (x, X) - это t-статистика Стьюдента для нового значения x {\ displaystyle x}x , который должен быть взят из той же совокупности, что и уже наблюдаемый набор значений X {\ displaystyle X}X .

Использование x = μ {\ displaystyle x = \ mu}x = \ mu функция g (μ, X) {\ displaystyle g (\ mu, X)}g(\mu,X)становится ключевой величиной, которая также распределяется по t Стьюдента -распределение с ν = n - 1 {\ displaystyle \ nu = n-1}\ nu = n-1 степенями свободы. При необходимости, даже если μ {\ displaystyle \ mu}\ mu появляется в качестве аргумента функции g {\ displaystyle g}g , распределение g (μ, X) {\ displaystyle g (\ mu, X)}g(\mu,X)не зависит от параметров μ {\ displaystyle \ mu}\ mu или σ {\ displaystyle \ sigma}\ sigma нормального распределения вероятностей, которое управляет наблюдениями X 1,…, X n {\ displaystyle X_ {1}, \ ldots, X_ {n}}X_ {1}, \ ldots, X_ {n} .

Это может использоваться для вычисления интервала прогнозирования для следующего наблюдения X n + 1; {\ displaystyle X_ {n + 1};}X_ {n + 1}; см. Интервал прогноза: нормальное распределение.

Двумерное нормальное распределение

В более сложных случаях невозможно построить точные опорные точки. Однако наличие приближенных точек поворота улучшает сходимость к асимптотической нормальности.

Предположим, что выборка размером n {\ displaystyle n}n векторов (X i, Y i) ′ { \ displaystyle (X_ {i}, Y_ {i}) '}(X_i,Y_i)'берется из двумерного нормального распределения с неизвестной корреляцией ρ {\ displaystyle \ rho}\ ро .

Оценка ρ {\ displaystyle \ rho}\ ро - это выборочная корреляция (Пирсона, момент)

r = 1 n - 1 ∑ i = 1 n (X я - Икс ¯) (Y я - Y ¯) s Икс s Y {\ displaystyle r = {\ frac {{\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} ( X_ {i} - {\ overline {X}}) (Y_ {i} - {\ overline {Y}})} {s_ {X} s_ {Y}}}}r = \ frac {\ frac1 {n-1} \ sum_ {i = 1} ^ n (X_i - \ overline {X}) (Y_i - \ overline {Y})} {s_X s_Y}

где s X 2, s Y 2 {\ displaystyle s_ {X} ^ {2}, s_ {Y} ^ {2}}s_X ^ 2, s_Y ^ 2 - выборочные отклонения из X {\ displaystyle X}X и Y {\ displaystyle Y}Y . Выборочная статистика r {\ displaystyle r}r имеет асимптотически нормальное распределение:

nr - ρ 1 - ρ 2 ⇒ N (0, 1) {\ displaystyle {\ sqrt {n} } {\ frac {r- \ rho} {1- \ rho ^ {2}}} \ Rightarrow N (0,1)}\ sqrt {n} \ frac {r- \ rho} {1- \ rho ^ 2} \ Rightarrow N (0,1) .

Однако преобразование, стабилизирующее дисперсию

z = tanh - 1 р знак равно 1 2 ln ⁡ 1 + r 1 - r {\ displaystyle z = {\ rm {{tanh} ^ {- 1} r = {\ frac {1} {2}} \ ln {\ frac {1+) r} {1-r}}}}}z = \ rm {tanh } ^ {- 1} r = \ frac12 \ ln \ frac {1 + r} {1-r}

, известное как z-преобразование Фишера коэффициента корреляции, позволяет асимптотически создавать распределение z {\ displaystyle z}zнезависимо от неизвестных параметров:

n (z - ζ) ⇒ N (0, 1) {\ displaystyle {\ sqrt {n}} (z- \ zeta) \ Rightarrow N (0,1)}\ sqrt {n} (z- \ zeta) \ Rightarrow N (0,1)

где ζ = tanh - 1 ρ {\ displaystyle \ zeta = {\ rm {tanh}} ^ {- 1} \ rho}\ zeta = { \ rm tanh} ^ {- 1} \ rho - соответствующий параметр распределения. Для конечных размеров выборки n {\ displaystyle n}n случайная величина z {\ displaystyle z}zбудет иметь распределение, более близкое к нормальному, чем распределение г {\ displaystyle r}r . Еще более близкое приближение к стандартному нормальному распределению получается при использовании лучшего приближения для точной дисперсии: обычная форма

Var ⁡ (z) ≈ 1 n - 3. {\ displaystyle \ operatorname {Var} (z) \ приблизительно {\ frac {1} {n-3}}.}\ operatorname {Var} (z) \ приблизительно \ frac1 {n-3}.

Надежность

С точки зрения надежной статистики, ключевые величины устойчивы к изменениям параметров - действительно, не зависят от параметров - но в целом не устойчивы к изменениям в модели, таким как нарушения предположения о нормальности. Это фундаментально для серьезной критики ненадежной статистики, часто получаемой из основных величин: такая статистика может быть надежной внутри семейства, но не надежной вне ее.

См. Также

Ссылки

Последняя правка сделана 2021-06-02 07:11:05
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте