Классическая теория тестов

редактировать

Классическая теория тестов (CTT) - это совокупность связанных психометрических теория, предсказывающая результаты психологического тестирования, такие как сложность заданий или способности тестируемых. Это теория тестирования, основанная на идее, что наблюдаемая или полученная человеком оценка за тест представляет собой сумму истинной оценки (безошибочной оценки) и оценки ошибок. Вообще говоря, цель классической теории тестирования - понять и повысить надежность психологических тестов.

Классическую теорию тестирования можно считать примерно синонимом теории истинных оценок. Термин «классическая» относится не только к хронологии этих моделей, но и контрастирует с более поздними психометрическими теориями, которые обычно собирательно именуются теорией ответа на вопросы, которые иногда носят название «современные», как в « современная теория скрытых черт ».

Классическая теория тестов в том виде, в каком мы ее знаем сегодня, была систематизирована Новиком (1966) и описана в классических текстах, таких как Lord Novick (1968) и Allen Yen (1979/2002). Описание классической теории тестирования, приведенное ниже, следует за этими основополагающими публикациями.

Содержание
  • 1 История
  • 2 Определения
  • 3 Оценка тестов и оценок: Надежность
  • 4 Оценка заданий: P и корреляции между заданием и суммой
  • 5 Альтернативы
  • 6 Недостатки
  • 7 См. Также
  • 8 Примечания
  • 9 Ссылки
  • 10 Дополнительная литература
  • 11 Внешние ссылки
История

Классическая теория тестирования родилась только после осмысления следующих трех достижений или идей :

1. признание наличия ошибок в измерениях,

2. представление об этой ошибке как о случайной величине,

3. понятие корреляции и как ее индексировать.

В 1904 году Чарльз Спирман отвечал за выяснение того, как исправить коэффициент корреляции затухания из-за ошибки измерения и как получить индекс надежности, необходимый для внесения поправки. Некоторые считают, что открытие Спирмена положило начало классической теории испытаний (Traub, 1997). Другие, кто оказал влияние на структуру классической теории испытаний, включают: Джордж Удни Юл, Трумэн Ли Келли, Фриц Кудер и Марион Ричардсон участвовали в создании формул Кудера – Ричардсона, Луи Гуттмана, и совсем недавно, не говоря уже о других, в течение следующей четверти века после первых открытий Спирмена.

Определения

Классическая теория тестирования предполагает, что каждый человек имеет истинную оценку T, которая была бы получена, если бы не было ошибок в измерениях. Истинная оценка человека определяется как ожидаемая оценка с правильным числом, полученная в результате бесконечного числа независимых проведений теста. К сожалению, пользователи теста никогда не наблюдают истинную оценку человека, только наблюдаемую оценку, X. Предполагается, что наблюдаемая оценка = истинная оценка плюс некоторая ошибка:

X = T + E наблюдаемая оценка истинная ошибка оценки

Классическая теория тестирования касается отношений между тремя переменными X {\ displaystyle X}X , T {\ displaystyle T}T и E {\ displaystyle E}E среди населения. Эти отношения используются, чтобы что-то сказать о качестве результатов тестов. В этом отношении наиболее важным является понятие надежности. Надежность наблюдаемых результатов тестов X {\ displaystyle X}X , которая обозначается как ρ XT 2 {\ displaystyle {\ rho _ {XT} ^ {2}}}{\ displaystyle {\ rho _ {XT} ^ {2}}} , определяется как отношение истинной дисперсии оценки σ T 2 {\ displaystyle {\ sigma _ {T} ^ {2}}}{\ displaystyle {\ sigma _ {T} ^ {2}}} к наблюдаемой дисперсии оценки σ Икс 2 {\ Displaystyle {\ sigma _ {X} ^ {2}}}{\ displaystyle {\ sigma _ {X} ^ {2}}} :

ρ XT 2 = σ T 2 σ X 2 {\ Displaystyle \ rho _ {XT} ^ {2} = {\ гидроразрыва {\ sigma _ {T} ^ {2}} {\ sigma _ {X} ^ {2}}}}{\ displaystyle \ rho _ {XT} ^ {2} = {\ frac {\ sigma _ {T} ^ {2}} {\ sigma _ {X} ^ {2}}}}

Поскольку можно показать, что дисперсия наблюдаемых оценок равна сумме дисперсии истинных оценок и дисперсия оценок ошибок, это эквивалентно

ρ XT 2 = σ T 2 σ X 2 = σ T 2 σ T 2 + σ E 2 {\ displaystyle \ rho _ {XT} ^ {2} = {\ frac {\ sigma _ {T} ^ {2}} {\ sigma _ {X} ^ {2}}} = {\ frac {\ sigma _ {T} ^ {2}} {\ sigma _ {T} ^ {2} + \ sigma _ {E} ^ {2}}}}{\ displaystyle \ rho _ {XT} ^ {2} = {\ frac {\ sigma _ {T} ^ {2}} {\ sigma _ {X} ^ {2}}} = {\ frac {\ sigma _ {T} ^ {2}} {\ sigma _ {T} ^ { 2} + \ sigma _ {E} ^ {2}}}}

Это уравнение, которое формулирует отношение сигнал / шум, имеет интуитивно понятную привлекательность: надежность результатов тестов повышается по мере увеличения доли дисперсии ошибок. в тесте баллы становятся ниже и наоборот. Надежность равна доле дисперсии в оценках теста, которую мы могли бы объяснить, если бы знали истинные оценки. Квадратный корень из надежности - это абсолютное значение корреляции между истинными и наблюдаемыми оценками.

Оценка тестов и баллов: надежность

Надежность нельзя оценить напрямую, поскольку для этого нужно знать истинные баллы, что согласно классической теории тестирования невозможно. Однако оценки надежности можно получить разными способами. Одним из способов оценки надежности является построение так называемого. Основным свойством параллельного теста является то, что он дает тот же истинный балл и ту же наблюдаемую дисперсию баллов, что и исходный тест для каждого человека. Если у нас есть параллельные тесты x и x ', это означает, что

ε (X i) = ε (X i ′) {\ displaystyle \ varepsilon (X_ {i}) = \ varepsilon (X' _ {i})}{\displaystyle \varepsilon (X_{i})=\varepsilon (X'_{i})}

и

σ E i 2 = σ E i ′ 2 {\ displaystyle \ sigma _ {E_ {i}} ^ {2} = \ sigma _ {E '_ {i}} ^ {2 }}{\displaystyle \sigma _{E_{i}}^{2}=\sigma _{E'_{i}}^{2}}

Из этих предположений следует, что корреляция между оценками параллельных тестов равна надежности (см. Lord Novick, 1968, Ch. 2, для доказательства).

ρ XX ′ = σ XX ′ σ X σ X ′ = σ T 2 σ X 2 = ρ XT 2 {\ displaystyle \ rho _ {XX '} = {\ frac {\ sigma _ {XX'}} { \ sigma _ {X} \ sigma _ {X '}}} = {\ frac {\ sigma _ {T} ^ {2}} {\ sigma _ {X} ^ {2}}} = \ rho _ {XT } ^ {2}}{\displaystyle \rho _{XX'}={\frac {\sigma _{XX'}}{\sigma _{X}\sigma _{X'}}}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}=\rho _{XT}^{2}}

Использование параллельных тестов для оценки надежности обременительно, потому что параллельные тесты очень трудно найти. На практике метод применяется редко. Вместо этого исследователи используют меру внутренней согласованности, известную как коэффициент Кронбаха α {\ displaystyle {\ alpha}}{\ alpha} . Рассмотрим тест, состоящий из k {\ displaystyle k}k элементов uj {\ displaystyle u_ {j}}u _ {{j}} , j = 1,…, k {\ displaystyle j = 1, \ ldots, k}j = 1, \ ldots, k . Общий балл теста определяется как сумма баллов по отдельным элементам, так что для индивидуума i {\ displaystyle i}i

X i = ∑ j = 1 k U ij {\ displaystyle X_ {i} = \ sum _ {j = 1} ^ {k} U_ {ij}}{\ displaystyle X_ {i} = \ сумма _ {j = 1} ^ {k} U_ {ij}}

Тогда альфа Кронбаха равна

α = kk - 1 (1 - ∑ j = 1 k σ U j 2 σ Икс 2) {\ displaystyle \ alpha = {\ frac {k} {k-1}} \ left (1 - {\ frac {\ sum _ {j = 1} ^ {k} \ sigma _ {U_ {j}) } ^ {2}} {\ sigma _ {X} ^ {2}}} \ right)}{\ displaystyle \ alpha = {\ frac {k} {k-1}} \ left (1 - {\ frac {\ sum _ {j = 1} ^ {k} \ sigma _ {U_ {j}} ^ {2}} {\ sigma _ {X} ^ {2}}} \ right)}

Можно показать, что α {\ displaystyle {\ alpha}} Кронбаха{\ alpha} обеспечивает нижняя граница надежности при довольно мягких предположениях. Таким образом, надежность результатов тестов в популяции всегда выше, чем значение α {\ displaystyle {\ alpha}}{\ alpha} Кронбаха в этой совокупности. Таким образом, этот метод эмпирически осуществим и, как следствие, пользуется большой популярностью среди исследователей. Расчет α {\ displaystyle {\ alpha}}{\ alpha} Кронбаха включен во многие стандартные статистические пакеты, такие как SPSS и SAS.

Как было отмечено выше все упражнение в классической теории тестирования делается для того, чтобы прийти к подходящему определению надежности. Надежность должна кое-что сказать об общем качестве рассматриваемых тестов. По общему мнению, чем выше надежность, тем лучше. Классическая теория тестирования не говорит о том, насколько высокой должна быть надежность. Слишком высокое значение для α {\ displaystyle {\ alpha}}{\ alpha} , скажем, более 0,9, указывает на избыточность элементов. Около 0,8 рекомендуется для исследования личности, в то время как.9+ желательно для индивидуального тестирования с высокими ставками. Эти «критерии» не основаны на формальных аргументах, а являются результатом условностей и профессиональной практики. Неясно, в какой степени они могут быть сопоставлены с формальными принципами статистического вывода.

Оценка элементов: P и корреляции между элементами

Надежность представляет собой удобный показатель качества теста в виде единственного числа - надежности. Однако он не предоставляет никакой информации для оценки отдельных элементов. Анализ элемента в рамках классического подхода часто основывается на двух статистических данных: P-значение (пропорция) и корреляция элемента-всего (коэффициент двухрядной точечной корреляции ). P-значение представляет долю испытуемых, отвечающих в заданном направлении, и обычно называется сложностью задания. Корреляция элемента-всего обеспечивает индекс различения или дифференцирующей способности элемента и обычно называется различением элементов. Кроме того, эта статистика рассчитывается для каждого ответа на часто используемый элемент множественный выбор, который используется для оценки элементов и диагностики возможных проблем, таких как сбивающий с толку отвлекающий фактор. Такой ценный анализ обеспечивает специально разработанное психометрическое программное обеспечение.

Альтернативы

Классическая теория тестирования является влиятельной теорией результатов тестов в социальных науках. В психометрии теория была вытеснена более сложными моделями в теории ответа элемента (IRT) и теории обобщаемости (G-теория). Однако IRT не входит в стандартные статистические пакеты, такие как SPSS, но SAS может оценивать модели IRT через PROC IRT и PROC MCMC, и есть пакеты IRT для язык статистического программирования с открытым исходным кодом R (например, CTT). В то время как коммерческие пакеты обычно предоставляют оценки α {\ displaystyle {\ alpha}}{\ alpha} Кронбаха, специализированное психометрическое программное обеспечение может быть предпочтительным для IRT или G-теории. Однако общие статистические пакеты часто не обеспечивают полного классического анализа (α {\ displaystyle {\ alpha}}{\ alpha} Кронбаха - лишь одна из многих важных статистических данных), и во многих случаях специализированное программное обеспечение для также необходим классический анализ.

Недостатки

Одним из наиболее важных или хорошо известных недостатков классической теории тестирования является то, что характеристики экзаменуемого и характеристики теста не могут быть разделены: каждое из них может быть интерпретировано только в контексте другого. Другой недостаток заключается в определении надежности, которое существует в классической теории тестирования, которая гласит, что надежность - это «корреляция между результатами тестов по параллельным формам теста». Проблема в том, что существуют разные мнения о том, что такое параллельные тесты. Различные коэффициенты надежности обеспечивают либо нижнюю границу оценки надежности, либо оценки надежности с неизвестными смещениями. Третий недостаток - стандартная ошибка измерения. Проблема здесь в том, что, согласно классической теории тестирования, стандартная ошибка измерения считается одинаковой для всех испытуемых. Однако, как объясняет Хэмблтон в своей книге, оценки по любому тесту являются неодинаково точными показателями для испытуемых с разными способностями, что делает предположение об одинаковых ошибках измерения для всех испытуемых неправдоподобным (Hambleton, Swaminathan, Rogers, 1991, p. 4). Четвертый и последний недостаток классической теории тестирования состоит в том, что она ориентирована на тесты, а не на задания. Другими словами, классическая теория тестирования не может помочь нам сделать предположения о том, насколько хорошо отдельные испытуемые или даже группа испытуемых могут справиться с заданием теста.

См. Также
Примечания
Ссылки
  • Allen, MJ, Yen, WM (2002). Введение в теорию измерений. Лонг-Гроув, Иллинойс: Waveland Press.
  • Новик, М.Р. (1966) Аксиомы и основные результаты классической теории тестов Journal of Mathematical Psychology Volume 3, Issue 1, February 1966, Pages 1-18
  • Lord, FM Новик, MR (1968). Статистические теории оценок умственных способностей. Ридинг, Массачусетс: издательство Addison-Welsley Publishing Company
Дополнительная литература
  • Грегори, Роберт Дж. (2011). Психологическое тестирование: история, принципы и приложения (шестое изд.). Бостон: Аллин и Бэкон. ISBN 978-0-205-78214-7. Краткое содержание (7 ноября 2010 г.). CS1 maint: ref = harv (ссылка )
  • Хоган, Томас П.; Брук Кэннон (2007). Психологическое тестирование: практическое введение ( Второе изд.). Хобокен (Нью-Джерси): John Wiley Sons. ISBN 978-0-471-73807-7. Краткое содержание (21 ноября 2010 г.) CS1 maint: ref = harv (ссылка )
Внешние ссылки
Последняя правка сделана 2021-05-15 10:21:29
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте