В статистике используется основная величина или точка поворота . функция наблюдений и ненаблюдаемых параметров, так что распределение вероятностей функции не зависит от неизвестных параметров (включая мешающие параметры ). Опорная величина не обязательно должна быть статистикой - функция и ее значение могут зависеть от параметров модели, но ее распределение не должно. Если это статистика, то она называется вспомогательной статистикой.
Более формально, пусть быть случайной выборкой из распределения, которое зависит от параметра (или вектора параметров) . Пусть будет случайной величиной, распределение которой одинаково для всех . Тогда называется ключевой величиной (или просто стержень).
Основные величины обычно используются для нормализации, чтобы можно было сравнивать данные из разных наборов данных. Относительно легко построить опорные точки для параметров местоположения и масштабирования: для первых мы формируем различия, чтобы местоположение отменялось, для последних отношений, чтобы масштаб отменялся.
Основные величины являются фундаментальными для построения тестовой статистики, поскольку они позволяют статистике не зависеть от параметров - например, t-статистика Стьюдента предназначена для нормальное распределение с неизвестной дисперсией (и средним). Они также предоставляют один метод построения доверительных интервалов, а использование основных величин улучшает производительность начальной загрузки. В форме вспомогательной статистики их можно использовать для построения частотных интервалов прогнозирования (доверительных интервалов прогнозирования).
Одна из простейших ключевых величин - z-оценка ; дано нормальное распределение со средним значением и дисперсией и наблюдением x, z-оценка:
имеет распределение - нормальное распределение со средним 0 и дисперсией 1. Аналогично, поскольку среднее из n выборок имеет выборочное распределение z-оценка среднего
также имеет распределение Обратите внимание, что хотя эти функции зависят от параметров - и, следовательно, их можно вычислить, только если параметры известны (они не являются статистикой) - распределение не зависит параметров.
Учитывая независимые, идентично распределенные (iid) наблюдения из нормального распределения с неизвестным средним и дисперсия , ключевую величину можно получить с помощью функции:
где
и
- это несмещенные оценки и соответственно. Функция - это t-статистика Стьюдента для нового значения , который должен быть взят из той же совокупности, что и уже наблюдаемый набор значений .
Использование функция становится ключевой величиной, которая также распределяется по t Стьюдента -распределение с степенями свободы. При необходимости, даже если появляется в качестве аргумента функции , распределение не зависит от параметров или нормального распределения вероятностей, которое управляет наблюдениями .
Это может использоваться для вычисления интервала прогнозирования для следующего наблюдения см. Интервал прогноза: нормальное распределение.
В более сложных случаях невозможно построить точные опорные точки. Однако наличие приближенных точек поворота улучшает сходимость к асимптотической нормальности.
Предположим, что выборка размером векторов берется из двумерного нормального распределения с неизвестной корреляцией .
Оценка - это выборочная корреляция (Пирсона, момент)
где - выборочные отклонения из и . Выборочная статистика имеет асимптотически нормальное распределение:
Однако преобразование, стабилизирующее дисперсию
, известное как z-преобразование Фишера коэффициента корреляции, позволяет асимптотически создавать распределение независимо от неизвестных параметров:
где - соответствующий параметр распределения. Для конечных размеров выборки случайная величина будет иметь распределение, более близкое к нормальному, чем распределение . Еще более близкое приближение к стандартному нормальному распределению получается при использовании лучшего приближения для точной дисперсии: обычная форма
С точки зрения надежной статистики, ключевые величины устойчивы к изменениям параметров - действительно, не зависят от параметров - но в целом не устойчивы к изменениям в модели, таким как нарушения предположения о нормальности. Это фундаментально для серьезной критики ненадежной статистики, часто получаемой из основных величин: такая статистика может быть надежной внутри семейства, но не надежной вне ее.