Надежность (статистика)

редактировать

Общая согласованность показателя в статистике и психометрии

Надежность в статистике и психометрия - это общая последовательность меры. Считается, что мера имеет высокую надежность, если она дает аналогичные результаты при постоянных условиях. «Это характеристика набора тестов, которая связана с количеством случайных ошибок в процессе измерения, которые могут быть встроены в оценки. Высоконадежные оценки являются точными, воспроизводимыми и непротиворечивыми от одного случая тестирования к другому. То есть, если бы процесс тестирования был повторен с группой испытуемых, по сути, были бы получены те же результаты.Для того, чтобы использовать различные коэффициенты надежности со значениями в диапазоне от 0,00 (большая ошибка) до 1,00 (нет ошибки), укажите количество ошибок в оценках ». Например, измерения роста и веса людей часто бывают чрезвычайно надежными.

Содержание

1 Типы
2 Отличия от достоверности
3 Общая модель
4 Классическая теория тестирования
5 Теория ответов на вопросы
6 Оценка
7 См. Также
8 Ссылки
9 Внешние ссылки

Типы

Существует несколько общих классов оценок надежности:

Межэкспертная надежность оценивает степень согласия между двумя или более оценщиками в их оценках. Например, у человека болит живот, и разные врачи ставят один и тот же диагноз.
Надежность повторного теста оценивает степень соответствия результатов теста от одного проведения теста к другому. Измерения собираются у одного оценщика, который использует одни и те же методы или инструменты и те же условия тестирования. Это включает в себя надежность внутри оценщика.
Надежность между методами оценивает степень согласованности результатов теста, когда есть различия в используемых методах или инструментах. Это позволяет исключить надежность между экспертами. При работе с формами это можно назвать надежность параллельных форм .
Внутренняя согласованность надежность, оценивает согласованность результатов по элементам в рамках теста.

Разница из действительности

Надежность не означает действительности. То есть надежная мера, которая измеряет что-то последовательно, не обязательно означает то, что вы хотите измерить. Например, хотя существует множество надежных тестов на определенные способности, не все из них могут быть пригодны для прогнозирования, скажем, производительности труда.

Хотя надежность не подразумевает достоверность, надежность накладывает ограничения на общую достоверность теста. Тест, который не является абсолютно надежным, не может быть совершенно достоверным ни как средство измерения характеристик человека, ни как средство прогнозирования оценок по критерию. В то время как надежный тест может предоставить полезную достоверную информацию, тест, который не является надежным, не может быть достоверным.

Например, если набор весов последовательно измерял вес объекта как На 500 грамм больше истинного веса, тогда весы будут очень надежными, но недействительными (поскольку возвращенный вес не является истинным весом). Чтобы шкала была действительной, она должна возвращать истинный вес объекта. Этот пример демонстрирует, что абсолютно надежный показатель не обязательно действителен, но что действительный показатель обязательно должен быть надежным.

Общая модель

На практике меры тестирования никогда не бывают полностью согласованными. Для оценки влияния несогласованности на точность измерения были разработаны теории надежности испытаний. Основной отправной точкой почти всех теорий надежности тестов является идея о том, что результаты тестов отражают влияние двух видов факторов:

1. Факторы, способствующие согласованности: стабильные характеристики человека или атрибут, который пытаются измерить

2. Факторы, способствующие несогласованности: особенности человека или ситуации, которые могут повлиять на результаты тестов, но не имеют ничего общего с измеряемым атрибутом.

Эти факторы включают:

Временные, но общие характеристики человека: здоровье, утомляемость, мотивация, эмоциональное напряжение
Временные и специфические характеристики человека: понимание конкретной тестовой задачи, специфики приемы или приемы работы с конкретными тестовыми материалами, колебания памяти, внимания или точности
Аспекты тестовой ситуации: отсутствие отвлекающих факторов, ясность инструкций, взаимодействие личности, пола или расы экзаменатора
Случайные факторы: удача в выборе ответов путем простого предположения, моментальные отвлекающие факторы

Целью оценки надежности является определение того, какая часть изменчивости в результатах тестов вызвана ошибками в измерениях и насколько это связано с изменчивостью истинных оценок .

A истинных оценок - это воспроизводимая характеристика измеряемой концепции. Это часть наблюдаемой оценки, которая будет повторяться в разных случаях измерения в отсутствие ошибки.

Ошибки измерения состоят из случайной ошибки и систематической ошибки. Он представляет собой расхождения между оценками, полученными на тестах, и соответствующими истинными оценками.

Эта концептуальная разбивка обычно представлена простым уравнением:

Наблюдаемая оценка теста = истинная оценка + ошибки измерения

Классическая теория тестирования

Цель теории надежности - оценить ошибки в измерениях и предложить способы улучшения тестов с целью минимизации ошибок.

Центральное предположение теории надежности состоит в том, что ошибки измерения в основном случайны. Это не означает, что ошибки возникают из-за случайных процессов. Для любого человека ошибка измерения не является полностью случайным событием. Однако предполагается, что у большого числа людей причины ошибки измерения настолько разнообразны, что ошибки измерения действуют как случайные величины.

Если ошибки имеют основные характеристики случайных величин, то разумно предположить что ошибки в равной степени могут быть положительными или отрицательными и что они не коррелируют с истинными оценками или с ошибками в других тестах.

Предполагается, что:

1. Средняя погрешность измерения = 0

2. Истинные оценки и ошибки некоррелированы

3. Ошибки по различным показателям не коррелированы

Теория надежности показывает, что дисперсия полученных оценок - это просто сумма дисперсии истинных оценок плюс дисперсия ошибок измерения .

σ Икс 2 знак равно σ T 2 + σ E 2 {\ Displaystyle \ sigma _ {X} ^ {2} = \ sigma _ {T} ^ {2} + \ sigma _ {E} ^ {2}}

\ sigma _ {X} ^ {2} = \ sigma _ {T} ^ {2} + \ sigma _ {E} ^ {2}

Это уравнение предполагает, что результаты тестов зависят от двух факторов:

1. Вариабельность истинных оценок

2. Вариабельность из-за ошибок измерения.

Коэффициент надежности $ρ x x ′ {\ displaystyle \ rho _ {xx '}}$ $\rho _{{xx'}}$ обеспечивает показатель относительного влияния истинных и ошибочных оценок на достигнутые результаты теста. В общем виде коэффициент надежности определяется как отношение истинной дисперсии оценок к общей дисперсии оценок теста. Или, что то же самое, единица минус отношение вариации оценки ошибки и вариации наблюдаемой оценки:

ρ xx ′ = σ T 2 σ X 2 = 1 - σ E 2 σ X 2 {\ displaystyle \ rho _ {xx '} = {\ frac {\ sigma _ {T} ^ {2}} {\ sigma _ {X} ^ {2}}} = 1 - {\ frac {\ sigma _ {E} ^ {2 }} {\ sigma _ {X} ^ {2}}}}

\rho _{{xx'}}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}=1-{\frac {\sigma _{E}^{2}}{\sigma _{X}^{2}}}

К сожалению, нет возможности напрямую наблюдать или вычислять истинный результат, поэтому для оценки надежность теста.

Некоторые примеры методов оценки надежности включают надежность повторного тестирования, внутреннюю согласованность надежность и надежность параллельного тестирования. Каждый метод по-своему решает проблему определения источника ошибки в тесте.

Теория отклика предмета

Теоретикам классического тестирования было хорошо известно, что точность измерения неодинакова по шкале измерения. Тесты, как правило, лучше различаются у испытуемых со средним уровнем черт и хуже - у испытуемых с высокими и низкими баллами. Теория отклика элемента расширяет понятие надежности с единственного индекса до функции, называемой информационной функцией. Информационная функция IRT является обратной стандартной ошибкой условной наблюдаемой оценки для любого заданного результата теста.

Оценка

Цель оценки надежности состоит в том, чтобы определить, какая часть изменчивости результатов теста связана с ошибками измерения, а какая - с изменчивостью истинных оценок.

Были разработаны четыре практических стратегии, которые обеспечивают работающие методы оценки надежности испытаний.

1. Надежность повторного тестирования метод : непосредственно оценивает степень соответствия результатов теста от одного проведения теста к другому.

Это включает:

Проведение теста для группы лиц
Повторное проведение того же теста той же группе через некоторое время
Сопоставление первого набора оценок со вторым

Корреляция между оценками по первому тесту и оценками по повторному тестированию используется для оценки надежности теста с использованием коэффициента корреляции продукта Пирсона : см. также корреляция элементов и итогов.

2. Метод параллельных форм :

Ключом к этому методу является разработка альтернативных форм тестирования, эквивалентных по содержанию, процессам ответа и статистическим характеристикам. Например, существуют альтернативные формы для нескольких тестов общего интеллекта, и эти тесты обычно считаются эквивалентными.

С помощью модели параллельного тестирования можно разработать две формы теста, которые эквивалентны в том смысле, что Истинная оценка человека по форме A будет идентична его истинной оценке по форме B. Если обе формы теста проводились среди нескольких человек, различия между оценками по форме A и форме B могут быть связаны только с ошибками измерения.

Он включает в себя:

Проведение одной формы теста для группы лиц
Некоторое время спустя проведение альтернативной формы того же теста той же группе людей
Сопоставление оценок по форме A с оценками по форме B

Корреляция между оценками по двум альтернативным формам используется для оценки надежности теста.

Этот метод обеспечивает частичное решение многих проблем, связанных с проверкой надежности методом . Например, поскольку две формы теста различны, эффект переноса представляет меньшую проблему. Эффекты реактивности также частично контролируются; хотя сдача первого теста может изменить ответы на второй тест. Однако разумно предположить, что эффект не будет таким сильным при использовании альтернативных форм теста, как при двух введениях одного и того же теста.

Однако этот метод имеет свои недостатки:

Он может быть очень сложно создать несколько альтернативных форм теста
Также может быть трудно, если вообще возможно, гарантировать, что две альтернативные формы теста являются параллельными измерениями

3. Метод разделения половин :

В этом методе две половины меры рассматриваются как альтернативные формы. Он обеспечивает простое решение проблемы, с которой сталкивается метод параллельных форм : трудность разработки альтернативных форм.

Он включает:

Проведение теста для группы лиц
Разделение теста пополам
Сопоставление оценок на одной половине теста с оценками на другой половине теста

Корреляция между этими двумя разделенными половинами используется для оценки надежности тест. Эта половина оценки надежности затем повышается до полной длины теста с использованием формулы предсказания Спирмена – Брауна.

Существует несколько способов разделения теста для оценки надежности. Например, словарный тест из 40 пунктов можно разделить на два субтеста, первый из которых состоит из пунктов с 1 по 20, а второй - из пунктов с 21 по 40. Однако ответы в первой половине могут систематически отличаться от ответы во второй половине из-за увеличения сложности задания и утомляемости.

При разделении теста две половины должны быть как можно более похожими, как с точки зрения их содержания, так и с точки зрения вероятности состояние респондента. Самый простой метод - использовать разделение на нечетные и четные, при котором элементы с нечетными номерами составляют одну половину теста, а элементы с четными номерами - другую. Такое расположение гарантирует, что каждая половина будет содержать равное количество элементов из начала, середины и конца исходного теста.

4. Внутренняя согласованность : оценивает согласованность результатов по элементам в тесте. Наиболее распространенной мерой внутренней согласованности является альфа Кронбаха, которая обычно интерпретируется как среднее значение всех возможных коэффициентов разделения половин. Альфа Кронбаха является обобщением более ранней формы оценки внутренней согласованности, Формула Кудера – Ричардсона 20. Хотя наиболее часто используются, существуют некоторые заблуждения относительно альфы Кронбаха.

Эти меры надежности различаются по своей чувствительности к различным источникам ошибок и поэтому не обязательно должны быть равными. Кроме того, надежность - это свойство оценок меры, а не самой меры, и поэтому считается, что она зависит от выборки. Оценки надежности для одной выборки могут отличаться от оценок для второй выборки (сверх того, что можно было бы ожидать из-за вариаций выборки), если вторая выборка взята из другой совокупности, поскольку истинная изменчивость во второй выборке отличается. (Это верно для всех типов мер - мерки могут хорошо измерять дома, но иметь низкую надежность при измерении длины насекомых.)

Надежность можно повысить за счет ясности выражения (для письменных оценок), удлинения меры и другие неформальные средства. Однако формальный психометрический анализ, называемый предметным анализом, считается наиболее эффективным способом повышения надежности. Этот анализ состоит из вычисления индексов трудностей задания и различения заданий, последний индекс включает вычисление корреляций между заданиями и суммы баллов за задания всего теста. Если элементы, которые являются слишком сложными, слишком простыми и / или имеют почти нулевую или отрицательную дискриминацию, заменяются более качественными элементами, надежность меры повысится.

$R (t) = 1 - F (t). {\ Displaystyle R (t) = 1-F (t).}$ $R (t) = 1-F (t).$
$R (t) = ехр ⁡ (- λ t). {\ displaystyle R (t) = \ exp (- \ lambda t).}$ $R (t) = \ exp (- \ lambda t).$ (где $λ {\ displaystyle \ lambda}$ $\ lambda$ - частота отказов)

См. Также

Ссылки

Внешние ссылки

На Викискладе есть материалы, связанные с Надежность (статистика).