t-статистика - t-statistic

редактировать

В статистике t-статистика - это соотношение отклонение оценочного значения параметра от его предполагаемого значения до его стандартной ошибки. Он используется в проверке гипотез с помощью t-критерия Стьюдента. T-статистика используется в T-тесте, чтобы определить, следует ли вам поддерживать или отклонять нулевую гипотезу. Он очень похож на Z-оценку, но с той разницей, что T-статистика используется, когда размер выборки невелик или стандартное отклонение генеральной совокупности неизвестно. Например, T-статистика используется для оценки среднего значения совокупности из распределения выборки из средних значений выборки, если совокупность стандартное отклонение неизвестно. Он также используется вместе с p-значением при выполнении тестов гипотез, где p-значение говорит нам, каковы шансы того, что результаты будут иметь место.

Содержание

  • 1 Определение и особенности
  • 2 Использование
    • 2.1 Прогноз
  • 3 История
  • 4 Понятия, связанные с данным
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки

Определение и особенности

Пусть β ^ {\ displaystyle \ scriptstyle {\ widehat {\ beta}}}{\ displaystyle \ scriptstyle {\ widehat {\ beta}}} будет оценкой параметра β в некая статистическая модель. Тогда t-статистика для этого параметра - это любая величина вида

t β ^ = β ^ - β 0 s. е. ⁡ (β ^) {\ displaystyle t _ {\ widehat {\ beta}} = {\ frac {{\ widehat {\ beta}} - \ beta _ {0}} {\ operatorname {se} ({\ widehat {\ beta}})}}}{\ displaystyle t _ {\ widehat {\ beta}} = {\ frac {{\ widehat {\ beta}} - \ beta _ {0}} {\ operatorname {se} ({\ widehat {\ beta}})}}}

где β 0 - неслучайная известная константа, которая может совпадать или не совпадать с фактическим неизвестным значением параметра β, и s. е. ⁡ (β ^) {\ displaystyle \ operatorname {se} ({\ widehat {\ beta}})}{\ displaystyle \ operatorname {se} ({\ widehat {\ beta}})} - стандартная ошибка оценщика β ^ {\ displaystyle \ scriptstyle {\ widehat {\ beta}}}{\ displaystyle \ scriptstyle {\ widehat {\ beta}}} для β.

По умолчанию статистические пакеты сообщают t-статистику с β 0 = 0 (эта t-статистика используется для проверки значимости соответствующего регрессора). Однако, когда t-статистика необходима для проверки гипотезы формы H 0 : β = β 0, тогда ненулевое β 0 может быть используемый.

Если β ^ {\ displaystyle \ scriptstyle {\ widehat {\ beta}}}{\ displaystyle \ scriptstyle {\ widehat {\ beta}}} является обычным методом наименьших квадратов в классической модель линейной регрессии (то есть с нормально распределенными и гомоскедастическими условиями ошибок), и если истинное значение параметра β равно β 0, то выборочное распределение t-статистики - это t-распределение Стьюдента с (n - k) степенями свободы, где n - количество наблюдений, а k - количество регрессоров (включая перехват).

В большинстве моделей оценка β ^ {\ displaystyle \ scriptstyle {\ widehat {\ beta}}}{\ displaystyle \ scriptstyle {\ widehat {\ beta}}} согласована для β и распределяется асимптотически нормально. Если истинное значение параметра β равно β 0 и величина s. е. ⁡ (β ^) {\ displaystyle \ scriptstyle \ operatorname {se} ({\ widehat {\ beta}})}{\ displaystyle \ scriptstyle \ operatorname {se} ({\ widehat {\ beta}})} правильно оценивает асимптотическую дисперсию этой оценки, тогда t-статистика будет асимптотически иметь стандартное нормальное распределение.

В некоторых моделях распределение t-статистики отличается от нормального распределения даже асимптотически. Например, когда временной ряд с единичным корнем регрессируется в расширенном тесте Дики – Фуллера, t-статистика теста будет асимптотически иметь один из Распределения Дики – Фуллера (в зависимости от настройки теста).

Используйте

Чаще всего t-статистика используется в t-критериях Стьюдента, форме проверки статистических гипотез и при вычислении определенные доверительные интервалы.

Ключевым свойством t-статистики является то, что она является ключевой величиной - хотя она определяется в терминах выборочного среднего, ее выборочное распределение не зависит от параметров генеральной совокупности, и поэтому его можно использовать независимо от того, что это может быть.

Можно также разделить остаток на образец стандартное отклонение :

g (x, X) = x - X ¯ s {\ displaystyle g (x, X) = {\ frac {x - {\ overline {X}}} {s}}}g (x, X) = {\ frac {x- \ overline {X}} {s}}

для вычисления оценки количества стандартных отклонений от среднего значения для данного образца в качестве образца версии z-оценка, z-оценка, требующая параметров совокупности.

Прогноз

При нормальном распределении N (μ, σ 2) {\ displaystyle N (\ mu, \ sigma ^ {2})}N (\ mu, \ sigma ^ {2}) с неизвестное среднее значение и дисперсия, t-статистика будущего наблюдения X n + 1, {\ displaystyle X_ {n + 1},}X_{{n+1}},после того, как было выполнено n наблюдений, является вспомогательная статистика - основная величина (не зависит от значений μ и σ), которая является статистикой (вычисляется по наблюдениям). Это позволяет вычислить частотный интервал прогнозирования (прогнозирующий доверительный интервал ) с помощью следующего t-распределения:

X n + 1 - X ¯ nsn 1 + n - 1 ∼ T n - 1 {\ displaystyle {\ frac {X_ {n + 1} - {\ overline {X}} _ {n}} {s_ {n} {\ sqrt {1 + n ^ {- 1}}) }}} \ sim T ^ {n-1}}{\ frac {X _ {{n + 1}} - \ overline {X} _ {n}} {s_ {n} {\ sqrt {1 + n) ^ {{- 1}}}}}} \ sim T ^ {{n-1}}

Решение для X n + 1 {\ displaystyle X_ {n + 1}}X _ {{n + 1}} дает прогнозное распределение

X ¯ n + sn 1 + n - 1 ⋅ T n - 1 {\ displaystyle {\ overline {X}} _ {n} + s_ {n} {\ sqrt {1 + n ^ {- 1}}} \ cdot T ^ {n-1}}\ overline {X} _ {n} + s_ {n} {\ sqrt {1 + n ^ {{- 1}} }} \ cdot T ^ {{n-1}}

, из которого можно вычислить доверительные интервалы для прогноза - с учетом вероятности p можно вычислить интервалы, такие что в 100p% случаев следующее наблюдение X n + 1 {\ displaystyle X_ { n + 1}}X _ {{n + 1}} попадет в этот интервал.

История

Термин "t-статистика" сокращен от "статистика проверки гипотез". В статистике t-распределение было впервые получено как апостериорное распределение в 1876 году Гельмертом и Люротом. T-распределение также появилось в более общей форме как распределение типа Пирсона IV в статье Карла Пирсона 1895 года. Однако Т-распределение, также известное как Т-распределение Стьюдента, получило свое название от Уильяма Сили Госсета, который впервые опубликовал его в английской литературе в своей статье 1908 года под названием Биометрика использовал псевдоним «Студент», потому что его работодатель предпочитал сотрудникам использовать псевдонимы при публикации научных статей вместо их настоящего имени, поэтому он использовал имя «Студент», чтобы скрыть свою личность. Госсет работал на пивоварне Guinness в Дублине, Ирландия и интересовался проблемами малых образцов - например, химическими свойствами ячменя, где размеры образцов может быть всего 3. Следовательно, вторая версия этимологии термина "студент" состоит в том, что Guinness не хотел, чтобы их конкуренты знали, что они использовали t-критерий для определения качества сырья. Хотя термин «Студент» был написан в честь Уильяма Госсета, на самом деле именно благодаря работе Рональда Фишера распределение стало широко известно как «распределение Стьюдента» и «t-критерий Стьюдента. "

Понятия, связанные с данной

См. Также

  • значок Портал математики

Ссылки

Внешние ссылки

Последняя правка сделана 2021-06-09 05:09:29
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте