Теория отклика предмета

редактировать

В психометрии, теория ответа пункта ( ИРТ) (также известная как скрытая теория признака, сильная истинная теория оценки, или современной теория психического теста) является парадигмой для проектирования, анализа и озвучивания тестов, опросников и аналогичных инструментов измерения способностей, отношения или другие переменные. Это теория тестирования, основанная на взаимосвязи между показателями отдельных лиц по заданию теста и уровнями успеваемости тестируемых по общему показателю способности, для измерения которой этот элемент был разработан. Несколько различных статистических моделей используются для представления характеристик как заданий, так и испытуемых. В отличие от более простых альтернатив для создания шкал и оценки ответов на вопросник, он не предполагает, что каждый пункт одинаково сложен. Это отличает IRT, например, от шкалирования Лайкерта, в котором « предполагается, что все элементы являются копиями друг друга, или, другими словами, элементы считаются параллельными инструментами» (стр. 197). Напротив, теория ответов на вопросы рассматривает сложность каждого элемента (характеристические кривые элемента или ICC) как информацию, которая должна быть включена в масштабирование элементов.

Он основан на применении связанных математических моделей к данным тестирования. Поскольку он часто рассматривается как превосходящий классическую теорию тестирования, он является предпочтительным методом для разработки шкал в Соединенных Штатах, особенно когда требуются оптимальные решения, как в так называемых тестах с высокими ставками, например, экзамен на получение диплома (GRE).) и вступительный экзамен по программе Graduate Management Admission Test (GMAT).

Теория ответа на вопрос о названии обусловлена ​​тем, что теория сосредоточена на элементе, в отличие от классической теории тестирования, ориентированной на уровень тестирования. Таким образом, IRT моделирует реакцию каждого испытуемого с определенной способностью на каждый элемент теста. Термин « элемент» является общим и охватывает все виды информационных элементов. Это могут быть вопросы с несколькими вариантами ответов, на которые есть неправильные и правильные ответы, но также обычно это утверждения в анкетах, которые позволяют респондентам указать уровень согласия ( рейтинг или шкала Лайкерта ), или симптомы пациента, оцениваемые как присутствующие / отсутствующие, или диагностическая информация в комплексе. системы.

IRT основана на идее о том, что вероятность правильного / шпоночным ответ на пункт является математической функцией от человека и элементов параметров. (Выражение «математическая функция параметров человека и предмета» аналогично уравнению Курта Левина B = f (P, E), которое утверждает, что поведение является функцией человека в его окружении.) Параметр человека определяется как ( обычно) единственная скрытая черта или измерение. Примеры включают общий интеллект или силу отношения. Параметры, по которым элементы характеризуются, включают их сложность (известную как «местоположение» из-за их расположения в диапазоне сложности); дискриминация (наклон или корреляция), показывающая, насколько резко степень успеха людей зависит от их способностей; и параметр псевдогадания, характеризующий (нижнюю) асимптоту, при которой даже наименее способные люди будут получать баллы из-за угадывания (например, 25% для чистой вероятности по заданию с множественным выбором с четырьмя возможными ответами).

Таким же образом IRT можно использовать для измерения поведения людей в социальных сетях. Мнения, выраженные разными людьми, можно объединить для изучения с помощью IRT. Также оценивалось его использование для классификации информации как дезинформации или достоверной информации.

СОДЕРЖАНИЕ

  • 1 Обзор
  • 2 Функция ответа элемента
    • 2.1 Трехпараметрическая логистическая модель
  • 3 модели IRT
    • 3.1 Количество параметров IRT
    • 3.2 Логистическая и нормальная модели IRT
    • 3.3 Модель Раша
  • 4 Анализ соответствия модели
  • 5 Информация
  • 6 Подсчет очков
  • 7 Сравнение классической теории и теории ответов на вопросы
  • 8 См. Также
  • 9 ссылки
  • 10 Дальнейшее чтение
  • 11 Внешние ссылки

Обзор

Концепция функции ответа элемента существовала до 1950 года. Пионерская работа IRT как теории произошла в 1950-х и 1960-х годах. Трое из пионеров - психометрический специалист из Службы образовательного тестирования Фредерик М. Лорд, датский математик Георг Раш и австрийский социолог Пауль Лазарсфельд, которые проводили параллельные исследования независимо. К ключевым фигурам, способствовавшим развитию IRT, относятся Бенджамин Дрейк Райт и Дэвид Андрич. IRT не получил широкого распространения до конца 1970-х и 1980-х годов, когда практикам рассказали о «полезности» и «преимуществах» IRT, с одной стороны, а персональные компьютеры предоставили многим исследователям доступ к вычислительной мощности, необходимой для IRT, с другой.

Среди прочего, цель IRT - предоставить основу для оценки того, насколько хорошо работают оценки и насколько хорошо работают отдельные элементы оценок. Чаще всего IRT применяется в образовании, где психометристы используют его для разработки и проектирования экзаменов, ведения банков заданий для экзаменов и уравнивания сложности заданий для последовательных версий экзаменов (например, для сравнения результатов с течением времени)..

IRT-модели часто называют моделями скрытых признаков. Термин « латентный» используется для того, чтобы подчеркнуть, что дискретные ответы на вопросы рассматриваются как наблюдаемые проявления предполагаемых черт, конструкций или атрибутов, которые не наблюдаются напрямую, но которые должны быть выведены из явных ответов. Модели скрытых черт были разработаны в области социологии, но практически идентичны моделям IRT.

IRT обычно считается улучшением по сравнению с классической теорией тестирования (CTT). Для задач, которые могут быть выполнены с помощью CTT, IRT обычно обеспечивает большую гибкость и предоставляет более сложную информацию. Некоторые приложения, такие как компьютеризированное адаптивное тестирование, поддерживаются IRT и не могут быть выполнены с использованием только классической теории тестирования. Еще одно преимущество IRT перед CTT состоит в том, что более сложная информация, которую предоставляет IRT, позволяет исследователю повысить надежность оценки.

IRT предполагает три допущения:

  1. Одномерная черта, обозначаемая  ; θ {\ displaystyle {\ theta}}
  2. Местная независимость предметов;
  3. Реакцию человека на элемент можно смоделировать с помощью математической функции ответа элемента (IRF).

Далее предполагается, что признак можно измерить по шкале (это предполагает простое наличие теста), обычно установленной на стандартную шкалу со средним значением 0,0 и стандартным отклонением 1,0. Одномерность следует интерпретировать как однородность, качество, которое должно быть определено или эмпирически продемонстрировано в отношении данной цели или использования, но не как количество, которое можно измерить. «Локальная независимость» означает (а) что вероятность использования одного предмета не связана с каким-либо другим используемым предметом (ами) и (б) что ответ на предмет является независимым решением каждого тестируемого, то есть, здесь нет жульничества, парной или групповой работы. Тема размерности часто исследуется с помощью факторного анализа, в то время как IRF является основным строительным блоком IRT и является центром большей части исследований и литературы.

Функция ответа элемента

IRF дает вероятность того, что человек с заданным уровнем способностей ответит правильно. Люди с более низкими способностями имеют меньше шансов, в то время как люди с высокими способностями скорее всего ответят правильно; например, учащиеся с более высокими математическими способностями с большей вероятностью получат правильный предмет по математике. Точное значение вероятности зависит, помимо способности, от набора параметров элемента для IRF.

Трехпараметрическая логистическая модель

Рисунок 1: Пример 3PL IRF с наложенными пунктирными линиями для демонстрации параметров.

Например, в трехпараметрической логистической модели ( 3PL) вероятность правильного ответа на дихотомический элемент i, обычно это вопрос с множественным выбором, составляет:

п я ( θ ) знак равно c я + 1 - c я 1 + е - а я ( θ - б я ) {\ displaystyle p_ {i} ({\ theta}) = c_ {i} + {\ frac {1-c_ {i}} {1 + e ^ {- a_ {i} ({\ theta} -b_ {i })}}}}

где указывает, что способности человека смоделированы как выборка из нормального распределения с целью оценки параметров элемента. После того, как параметры задания были оценены, для целей отчетности оцениваются способности отдельных людей., и - параметры элемента. Параметры элемента определяют форму IRF. На рисунке 1 изображен идеальный 3PL ICC. θ {\ displaystyle {\ theta}} а я {\ displaystyle a_ {i}} б я {\ displaystyle b_ {i}} c я {\ displaystyle c_ {i}}

Параметры товара можно интерпретировать как изменение формы стандартной логистической функции :

п ( т ) знак равно 1 1 + е - т . {\ displaystyle P (t) = {\ frac {1} {1 + e ^ {- t}}}.}

Вкратце параметры интерпретируются следующим образом (для удобства чтения индексы опускаются); b является самым основным, поэтому он указан первым:

  • b - сложность, расположение предмета: точка на полпути между (мин.) и 1 (макс.), также там, где наклон максимален. п ( б ) знак равно ( 1 + c ) / 2 , {\ Displaystyle р (Ь) = (1 + с) / 2,} c я {\ displaystyle c_ {i}}
  • а - дискриминация, масштаб, крутизна: максимальная крутизна п ( б ) знак равно а ( 1 - c ) / 4. {\ displaystyle p '(b) = a \ cdot (1-c) / 4.}
  • c - псевдогадание, шанс, асимптотический минимум п ( - ) знак равно c . {\ Displaystyle р (- \ infty) = с.}

Если затем они упрощаются до и означают, что b равно 50% -ному уровню успеха (сложности), а a (деленное на четыре) - это максимальный наклон (различение), который возникает при 50% -ом уровне успеха. Кроме того, логит (логарифм шансов ) правильного ответа равен (при условии): в частности, если способность θ равна сложности b, есть четные шансы (1: 1, поэтому логит 0) правильного ответа, тем больше способность выше (или ниже) трудность - более (или менее) вероятность правильного ответа, при этом различение определяет, насколько быстро шансы увеличиваются или уменьшаются в зависимости от способности. c знак равно 0 , {\ displaystyle c = 0,} п ( б ) знак равно 1 / 2 {\ displaystyle p (b) = 1/2} п ( б ) знак равно а / 4 , {\ Displaystyle р '(Ь) = а / 4,} а ( θ - б ) {\ Displaystyle а (\ тета -b)} c знак равно 0 {\ displaystyle c = 0}

Другими словами, стандартная логистическая функция имеет асимптотический минимум 0 (), центрируется вокруг 0 ​​(,) и имеет максимальный наклон. Параметр растягивает горизонтальный масштаб, параметр сдвигает горизонтальный масштаб, а параметр сжимает вертикальный масштаб от на этом подробно рассмотрен ниже. c знак равно 0 {\ displaystyle c = 0} б знак равно 0 {\ displaystyle b = 0} п ( 0 ) знак равно 1 / 2 {\ Displaystyle P (0) = 1/2} п ( 0 ) знак равно 1 / 4. {\ Displaystyle P '(0) = 1/4.} а {\ displaystyle a} б {\ displaystyle b} c {\ displaystyle c} [ 0 , 1 ] {\ displaystyle [0,1]} [ c , 1 ] . {\ displaystyle [c, 1].}

Параметр представляет местонахождение предмета, которое в случае тестирования достижений называется сложностью предмета. Это точка, в которой IRF имеет максимальный наклон, и где значение находится посередине между минимальным значением и максимальным значением 1. Этот примерный элемент имеет среднюю сложность, так как = 0,0, что находится рядом с центром распространение. Обратите внимание, что эта модель масштабирует сложность предмета и черту человека в одном континууме. Таким образом, допустимо говорить о том, что предмет настолько же сложен, как уровень черты человека А, или что уровень черты человека примерно такой же, как сложность предмета Y, в том смысле, что успешное выполнение задачи, связанной с предметом, отражает конкретный уровень способностей. б я {\ displaystyle b_ {i}} θ {\ displaystyle {\ theta}} c я {\ displaystyle c_ {i}} б я {\ displaystyle b_ {i}}

Параметр предмета представляет различение предмета: то есть степень, в которой предмет различает людей в разных регионах скрытого континуума. Этот параметр характеризует наклон IRF, где наклон максимален. В примере элемента = 1.0, что довольно хорошо различает; Люди с низкими способностями действительно имеют гораздо меньшие шансы правильно ответить, чем люди с более высокими способностями. Этот параметр дискриминации соответствует весовому коэффициенту соответствующего элемента или индикатора в стандартной взвешенной линейной регрессии (обычный метод наименьших квадратов, OLS ) и, следовательно, может использоваться для создания взвешенного индекса индикаторов для неконтролируемого измерения лежащей в основе скрытой концепции. а я {\ displaystyle a_ {i}} а я {\ displaystyle a_ {i}}

Для таких элементов, как элементы с множественным выбором, этот параметр используется в попытке учесть влияние предположений на вероятность правильного ответа. Он указывает на вероятность того, что люди с очень низкими способностями получат правильное задание случайно, математически представленная в виде нижней асимптоты. Элемент с несколькими вариантами выбора из четырех вариантов может иметь IRF, как в примере элемента; вероятность того, что кандидат с крайне низкими способностями угадает правильный ответ, составляет 1/4, поэтому вероятность будет равна примерно 0,25. Этот подход предполагает, что все варианты одинаково правдоподобны, потому что, если один вариант не имеет смысла, даже человек с самыми низкими способностями сможет отказаться от него, поэтому методы оценки параметров IRT учитывают это и оценивают a на основе наблюдаемых данных. c я {\ displaystyle c_ {i}} c я {\ displaystyle c_ {i}} c я {\ displaystyle c_ {i}}

IRT модели

Вообще говоря, модели IRT можно разделить на два семейства: одномерные и многомерные. Одномерные модели требуют единственного измерения черты (способности). Многомерные модели IRT моделируют данные об ответах, предположительно возникающие из нескольких характеристик. Однако из-за значительно возросшей сложности в большинстве исследований и приложений IRT используется одномерная модель. θ {\ displaystyle {\ theta}}

Модели IRT также можно разделить на категории в зависимости от количества полученных ответов. Типичный элемент с множественным выбором дихотомичен ; хотя может быть четыре или пять вариантов, он все равно оценивается только как правильный / неправильный (правильный / неправильный). Другой класс моделей применяется к политомическим результатам, где каждый ответ имеет различное значение оценки. Типичным примером этого являются элементы типа Лайкерта, например, «Оцените по шкале от 1 до 5».

Количество параметров IRT

Дихотомические модели IRT описываются количеством используемых в них параметров. 3PL назван так, потому что он использует три параметра элемента. Двухпараметрическая модель (2PL) предполагает, что данные не предполагают никаких предположений, но элементы могут различаться с точки зрения местоположения () и дискриминации (). Однопараметрическая модель (1PL) предполагает, что угадывание является частью способности и что все элементы, которые соответствуют модели, имеют эквивалентные различия, так что элементы описываются только одним параметром (). Это приводит к однопараметрическим моделям, обладающим свойством конкретной объективности, что означает, что уровень сложности задания одинаков для всех респондентов, независимо от способностей, и что ранг способности человека одинаков для заданий независимо от сложности. Таким образом, однопараметрические модели не зависят от выборки, а это свойство не выполняется для двухпараметрических и трехпараметрических моделей. Кроме того, теоретически существует четырехпараметрическая модель (4PL) с верхней асимптотой, обозначенной где в 3PL заменяется на. Однако это используется редко. Обратите внимание, что алфавитный порядок параметров пункта не соответствует их практической или психометрической значимости; параметр местоположение / сложность () явно наиболее важен, потому что он включен во все три модели. 1PL использует только, 2PL использует и, 3PL добавляет, а 4PL добавляет. б я {\ displaystyle b_ {i}} а я {\ displaystyle a_ {i}} б я {\ displaystyle b_ {i}} d я , {\ displaystyle d_ {i},} 1 - c я {\ displaystyle 1-c_ {i}} d я - c я {\ displaystyle d_ {i} -c_ {i}} б я {\ displaystyle b_ {i}} б я {\ displaystyle b_ {i}} б я {\ displaystyle b_ {i}} а я {\ displaystyle a_ {i}} c я {\ displaystyle c_ {i}} d я {\ displaystyle d_ {i}}

2PL эквивалентен модели 3PL с использованием и подходит для тестирования заданий, где угадывание правильного ответа крайне маловероятно, например заданий с заполнением пробелов («Какой квадратный корень из 121?») Или где концепция угадывания неприменима, например, в отношении личности, отношения или интереса (например, «Мне нравятся бродвейские мюзиклы. Согласен / не согласен»). c я знак равно 0 {\ displaystyle c_ {i} = 0}

1PL предполагает, что не только предположения отсутствуют (или не имеют отношения к делу), но и что все элементы эквивалентны с точки зрения различения, аналогично общему факторному анализу с одинаковыми нагрузками для всех элементов. Отдельные предметы или отдельные лица могут иметь вторичные факторы, но предполагается, что они взаимно независимы и коллективно ортогональны.

Логистические и обычные модели IRT

Альтернативная формулировка строит IRF на основе нормального распределения вероятностей; их иногда называют нормальными ожившими моделями. Например, формула для двухпараметрической нормальной-оживляющей IRF:

п я ( θ ) знак равно Φ ( θ - б я σ я ) {\ displaystyle p_ {i} (\ theta) = \ Phi \ left ({\ frac {\ theta -b_ {i}} {\ sigma _ {i}}} \ right)}

где Φ - кумулятивная функция распределения (CDF) стандартного нормального распределения.

Нормально-позитивная модель основана на предположении о нормально распределенной ошибке измерения и теоретически привлекательна на этой основе. Это опять же параметр сложности. Параметр дискриминации равен стандартному отклонению ошибки измерения для элемента i и сравним с 1 /. б я {\ displaystyle b_ {i}} σ я {\ displaystyle {\ sigma} _ {я}} а я {\ displaystyle a_ {i}}

Можно оценить модель латентных черт с нормальным даром путем факторного анализа матрицы тетрахорических корреляций между элементами. Это означает, что технически возможно оценить простую модель IRT с помощью универсального статистического программного обеспечения.

При изменении масштаба параметра способности можно сделать логистическую модель 2PL максимально приближенной к кумулятивному нормальному оживлению. Как правило, логистические IRF 2PL и IRF с нормальным положением различаются по вероятности не более чем на 0,01 в диапазоне функции. Однако наибольшая разница наблюдается в хвостах распределения, которые, как правило, имеют большее влияние на результаты.

Модель скрытого признака / IRT была первоначально разработана с использованием обычных огивов, но в то время (1960-е годы) она считалась слишком требовательной к вычислениям для компьютеров. Логистическая модель была предложена как более простая альтернатива и с тех пор широко используется. Совсем недавно, однако, было показано, что, используя стандартные полиномиальные приближения к нормальному КОРУ, нормальной-стрельчатая модель не более вычислительно не требуя чем логистические модели.

Модель Раша

Модель Раша часто рассматривается как модель 1PL IRT. Однако сторонники моделирования Раша предпочитают рассматривать его как совершенно другой подход к концептуализации взаимосвязи между данными и теорией. Как и другие подходы к статистическому моделированию, IRT подчеркивает примат соответствия модели наблюдаемым данным, в то время как модель Раша подчеркивает примат требований к фундаментальным измерениям, при этом адекватное соответствие модели данных является важным, но второстепенным требованием, которое необходимо выполнить перед может потребоваться тестовый или исследовательский инструмент для измерения признака. С практической точки зрения это означает, что подходы IRT включают дополнительные параметры модели для отражения паттернов, наблюдаемых в данных (например, позволяя элементам варьироваться в их корреляции со скрытым признаком), тогда как в подходе Раша утверждения о наличии скрытого признака может считаться действительным только тогда, когда (а) данные соответствуют модели Раша и (б) тестовые задания и экзаменуемые соответствуют модели. Следовательно, согласно моделям Раша, несоответствующие ответы требуют диагностики причины несоответствия и могут быть исключены из набора данных, если можно по существу объяснить, почему они не обращаются к латентному признаку. Таким образом, подход Раша можно рассматривать как подтверждающий подход в отличие от исследовательских подходов, которые пытаются смоделировать наблюдаемые данные.

Наличие или отсутствие параметра предположения или псевдослучайности является важным и иногда спорным отличием. Подход IRT включает параметр левой асимптоты для учета предположений в экзаменах с множественным выбором, в то время как модель Раша этого не делает, потому что предполагается, что угадывание добавляет к данным случайно распределенный шум. Поскольку шум распределен случайным образом, предполагается, что при условии, что проверено достаточное количество элементов, ранжирование людей по скрытому признаку по необработанной оценке не изменится, а просто подвергнется линейному масштабированию. Напротив, трехпараметрическая IRT обеспечивает соответствие модели данных путем выбора модели, которая соответствует данным, за счет принесения в жертву конкретной объективности.

На практике модель Раша имеет как минимум два основных преимущества по сравнению с подходом IRT. Первое преимущество - это приоритет специфических требований Раша, которые (при их выполнении) обеспечивают фундаментальное измерение без участия человека (где люди и предметы могут быть отображены на одной и той же инвариантной шкале). Еще одно преимущество подхода Раша состоит в том, что оценка параметров более проста в моделях Раша из-за наличия достаточной статистики, которая в этом приложении означает взаимно однозначное сопоставление необработанных количественно-правильных оценок с оценками Раша. θ {\ displaystyle {\ theta}}

Анализ соответствия модели

Как и при любом использовании математических моделей, важно оценить соответствие данных модели. Если установлено, что несоответствие задания какой-либо модели связано с плохим качеством задания, например, вводя в заблуждение отвлекающих факторов в тесте с множественным выбором, то эти задания могут быть удалены из этой тестовой формы и переписаны или заменены в будущих тестовых формах. Если, однако, возникает большое количество элементов несоответствия без очевидной причины несоответствия, необходимо будет пересмотреть конструктивную валидность теста и, возможно, придется переписать спецификации теста. Таким образом, misfit предоставляет неоценимые диагностические инструменты для разработчиков тестов, позволяя эмпирически проверять гипотезы, на которых основаны спецификации тестов, на основе данных.

Существует несколько методов оценки соответствия, таких как статистика хи-квадрат или ее стандартизованная версия. Двух- и трехпараметрические модели IRT регулируют различение элементов, обеспечивая улучшенное соответствие модели данных, поэтому статистике соответствия не хватает подтверждающей диагностической ценности, обнаруживаемой в однопараметрических моделях, где идеализированная модель указывается заранее.

Данные не следует удалять на основании несоответствия модели, а скорее потому, что была диагностирована конструктивно релевантная причина несоответствия, например, не носитель английского языка, сдающий тест по естественным наукам, написанный на английском языке. Можно утверждать, что такой кандидат не принадлежит к одной и той же совокупности людей в зависимости от размерности теста, и, хотя считается, что измерения одного параметра IRT не зависят от выборки, они не являются независимыми от совокупности, поэтому такое несоответствие является построение релевантного и не делает недействительным тест или модель. Такой подход является важным инструментом при валидации инструментов. В двух- и трехпараметрических моделях, где психометрическая модель корректируется для соответствия данным, будущие администрации теста должны быть проверены на соответствие той же модели, которая использовалась при первоначальной валидации, чтобы подтвердить гипотезу, согласно которой оценки каждой администрации обобщают другим администрациям. Если для каждой администрации указана другая модель, чтобы добиться соответствия модели данных, то измеряется другой скрытый признак, и нельзя утверждать, что результаты тестов сопоставимы между администрациями.

Информация

Одним из основных вкладов теории отклика элементов является расширение концепции надежности. Традиционно надежность относится к точности измерения (т. Е. Степени, в которой измерение не содержит ошибок). Традиционно он измеряется с использованием единого индекса, определяемого различными способами, например отношения истинной и наблюдаемой дисперсии оценок. Этот индекс полезен для характеристики средней надежности теста, например, для сравнения двух тестов. Но IRT ясно дает понять, что точность неодинакова по всему диапазону результатов тестов. Например, оценки на краю диапазона теста обычно имеют больше ошибок, чем оценки ближе к середине диапазона.

Теория отклика элемента развивает концепцию информации элемента и тестовой информации, чтобы заменить надежность. Информация также является функцией параметров модели. Например, согласно теории информации Фишера, информация об элементе, предоставляемая в случае 1PL для данных дихотомического ответа, представляет собой просто вероятность правильного ответа, умноженную на вероятность неправильного ответа, или,

я ( θ ) знак равно п я ( θ ) q я ( θ ) . {\ Displaystyle I (\ theta) = p_ {i} (\ theta) q_ {i} (\ theta). \,}

Стандартная ошибка оценки (SE) является обратным тестовой информацией на данном уровне признака в, является

SE ( θ ) знак равно 1 я ( θ ) . {\ displaystyle {\ text {SE}} (\ theta) = {\ frac {1} {\ sqrt {I (\ theta)}}}.}.

Таким образом, больше информации означает меньшую погрешность измерения.

Для других моделей, таких как модели с двумя и тремя параметрами, параметр дискриминации играет важную роль в функции. Информационная функция элемента для двухпараметрической модели:

я ( θ ) знак равно а я 2 п я ( θ ) q я ( θ ) . {\ Displaystyle I (\ theta) = a_ {i} ^ {2} p_ {i} (\ theta) q_ {i} (\ theta). \,}

Информационная функция элемента для трехпараметрической модели:

я ( θ ) знак равно а я 2 ( п я ( θ ) - c я ) 2 ( 1 - c я ) 2 q я ( θ ) п я ( θ ) . {\ Displaystyle I (\ theta) = a_ {i} ^ {2} {\ frac {(p_ {i} (\ theta) -c_ {i}) ^ {2}} {(1-c_ {i}) ^ {2}}} {\ frac {q_ {i} (\ theta)} {p_ {i} (\ theta)}}.}.

В общем, информационные функции элемента имеют тенденцию выглядеть колоколообразно. Элементы с высокой степенью различения имеют высокие, узкие информационные функции; они вносят большой вклад, но в узком диапазоне. Менее разборчивые элементы предоставляют меньше информации, но в более широком диапазоне.

Графики информации об элементе можно использовать, чтобы увидеть, сколько информации вносит элемент и в какую часть диапазона баллов шкалы. Из-за локальной независимости функции информации о предметах являются аддитивными. Таким образом, информационная функция теста - это просто сумма информационных функций пунктов экзамена. Используя это свойство с большим банком элементов, можно сформировать функции тестовой информации для очень точного управления ошибкой измерения.

Определение точности результатов тестов, возможно, является центральным вопросом психометрической теории и главным различием между IRT и CTT. Результаты IRT показывают, что концепция надежности CTT является упрощением. Вместо надежности IRT предлагает функцию тестовой информации, которая показывает степень точности при различных значениях тета, θ.

Эти результаты позволяют психометристам (потенциально) тщательно формировать уровень надежности для различных диапазонов способностей, включая тщательно подобранные элементы. Например, в ситуации сертификации, в которой тест может быть пройден или не пройден, где есть только один «проходной балл» и где фактический проходной балл не важен, можно разработать очень эффективный тест, выбрав только те элементы, которые имеют высокая информация рядом с рейтингом. Эти задания обычно соответствуют заданиям, сложность которых примерно такая же, как и у результатов теста.

Подсчет очков

Параметр человека представляет собой величину скрытых черт человека, которая представляет собой человеческие способности или атрибуты, измеренные с помощью теста. Это могут быть когнитивные способности, физические способности, навыки, знания, отношение, личностные характеристики и т. Д. θ {\ displaystyle {\ theta}}

Оценка параметра «человек» - «балл» по тесту с IRT - вычисляется и интерпретируется совсем иначе, чем традиционные оценки, такие как число или процент правильных ответов. Общая оценка индивидуального правильного числа не является фактической оценкой, а скорее основана на IRF, что приводит к взвешенной оценке, когда модель содержит параметры распознавания элементов. Это на самом деле получается путем умножения функции отклика элемент для каждого элемента, чтобы получить функцию правдоподобия, самая высокая точка которого является оценка максимального правдоподобия из. Эта наивысшая точка обычно оценивается с помощью программного обеспечения IRT с использованием метода Ньютона – Рафсона. Хотя подсчет баллов в IRT намного сложнее, для большинства тестов корреляция между тета-оценкой и традиционной оценкой очень высока; часто это 0,95 и более. График оценок IRT по сравнению с традиционными оценками показывает оживленную форму, означающую, что IRT оценивает отдельных лиц на границах диапазона больше, чем в середине. θ {\ displaystyle {\ theta}}

Важное различие между CTT и IRT - это обработка ошибки измерения, индексируемой стандартной ошибкой измерения. Все тесты, анкеты и инвентаризация - неточные инструменты; мы никогда не сможем узнать истинную оценку человека, а скорее будем иметь только оценку, наблюдаемую оценку. Существует некоторая случайная ошибка, которая может подтолкнуть наблюдаемую оценку выше или ниже истинной. CTT предполагает, что количество ошибок одинаково для каждого экзаменуемого, но IRT позволяет ему варьироваться.

Кроме того, ничто в IRT не опровергает человеческого развития или улучшения или предполагает, что уровень черты фиксирован. Человек может приобрести навыки, знания или даже так называемые «навыки сдачи тестов», которые могут привести к более высокому истинному баллу. Фактически, часть исследований IRT сосредоточена на измерении изменения уровня черт.

Сравнение классической теории и теории ответа на вопросы

Классическая теория тестирования (CTT) и IRT в основном связаны с одними и теми же проблемами, но представляют собой разные области теории и влекут за собой разные методы. Хотя эти две парадигмы в целом согласованы и дополняют друг друга, есть ряд различий:

  • IRT делает более сильные предположения, чем CTT, и во многих случаях дает, соответственно, более убедительные выводы; в первую очередь, характеристики ошибки. Конечно, эти результаты верны только тогда, когда предположения моделей IRT действительно выполняются.
  • Хотя результаты CTT позволили получить важные практические результаты, модель IRT дает много преимуществ по сравнению с аналогичными результатами CTT.
  • Процедуры оценки теста CTT имеют то преимущество, что их легко вычислить (и объяснить), тогда как оценка IRT обычно требует относительно сложных процедур оценки.
  • IRT предоставляет несколько улучшений в масштабировании предметов и людей. Специфика зависит от модели IRT, но большинство моделей масштабируют сложность предметов и способности людей по одной и той же метрике. Таким образом, можно осмысленно сравнить сложность предмета и способности человека.
  • Еще одно улучшение, обеспечиваемое IRT, заключается в том, что параметры моделей IRT обычно не зависят от выборки или теста, тогда как истинный результат определяется в CTT в контексте конкретного теста. Таким образом, IRT обеспечивает значительно большую гибкость в ситуациях, когда используются разные образцы или тестовые формы. Эти результаты IRT являются основополагающими для компьютеризированного адаптивного тестирования.

Стоит также упомянуть некоторые конкретные сходства между CTT и IRT, которые помогают понять соответствие между концепциями. Во- первых, Господь показал, что при условии, что обычно распространяется, дискриминация в модели 2PL является приблизительно монотонной функцией от точечного бирядных корреляции. Особенно: θ {\ displaystyle \ theta}

а я ρ я т 1 - ρ я т 2 {\ displaystyle a_ {i} \ cong {\ frac {\ rho _ {it}} {\ sqrt {1- \ rho _ {it} ^ {2}}}}}

где - точечная бисерийная корреляция пункта i. Таким образом, если предположение верно, то там, где есть более высокая дискриминация, обычно будет более высокая точка-бисерийная корреляция. ρ я т {\ displaystyle \ rho _ {it}}

Другое сходство состоит в том, что хотя IRT обеспечивает стандартную ошибку каждой оценки и информационную функцию, также возможно получить индекс для теста в целом, который прямо аналогичен альфе Кронбаха, называемый индексом разделения. Для этого необходимо начать с разложения оценки IRT на истинное местоположение и ошибку, аналогично разложению наблюдаемой оценки на истинную оценку и ошибку в CTT. Позволять

θ ^ знак равно θ + ϵ {\ displaystyle {\ hat {\ theta}} = \ theta + \ epsilon}

где - истинное местоположение, а - связь ошибки с оценкой. Затем выполняется оценка стандартного отклонения для человека с данным взвешенным баллом, и индекс разделения получается следующим образом θ {\ displaystyle \ theta} ϵ {\ displaystyle \ epsilon} SE ( θ ) {\ displaystyle {\ t_dv {SE}} ({\ theta})} ϵ {\ displaystyle \ epsilon}

р θ знак равно вар [ θ ] вар [ θ ^ ] знак равно вар [ θ ^ ] - вар [ ϵ ] вар [ θ ^ ] {\ displaystyle R _ {\ theta} = {\ frac {{\ text {var}} [\ theta]} {{\ text {var}} [{\ hat {\ theta}}]}} = {\ frac { {\ text {var}} [{\ hat {\ theta}}] - {\ text {var}} [\ epsilon]} {{\ text {var}} [{\ hat {\ theta}}]}} }

где среднеквадратичная стандартная ошибка оценки человека дает оценку дисперсии ошибок, у разных людей. Стандартные ошибки обычно возникают как побочный продукт процесса оценки. Индекс разделения обычно очень близок по значению к альфе Кронбаха. ϵ п {\ displaystyle \ epsilon _ {n}}

IRT иногда называют теорией сильных истинных оценок или современной теорией ментальных тестов, потому что это более новая теория, которая делает более явными гипотезы, подразумеваемые в CTT.

Смотрите также

использованная литература

дальнейшее чтение

Было написано много книг, которые касаются теории отклика элементов или содержат модели, подобные IRT или IRT. Это неполный список, в котором основное внимание уделяется текстам, которые обеспечивают большую глубину.

  • Лорд, FM (1980). Применение теории отклика элемента к практическим задачам тестирования. Махва, Нью-Джерси: Эрлбаум.
В этой книге кратко излагается большая часть работы Лорда по IRT, включая главы о взаимосвязи между IRT и классическими методами, основы IRT, оценки и несколько дополнительных тем. Его глава оценки теперь датирована тем, что в ней в первую очередь обсуждается совместный метод максимального правдоподобия, а не метод предельного максимального правдоподобия, реализованный Дарреллом Боком и его коллегами.
Эта книга представляет собой доступное введение в IRT, предназначенное, как сказано в названии, для психологов.
  • Бейкер, Фрэнк (2001). Основы теории ответов на вопросы. Информационный центр ERIC по оценке и оценке, Мэрилендский университет, Колледж-Парк, штат Мэриленд.
Эта вводная книга написана одним из пионеров в этой области и доступна в Интернете по адресу [1]
В этой книге описаны различные модели теории отклика предметов и приведены подробные объяснения алгоритмов, которые можно использовать для оценки параметров предмета и способностей. Отдельные части книги доступны в режиме ограниченного предварительного просмотра в Google Книгах.
В этой книге представлен исчерпывающий обзор различных популярных моделей IRT. Он хорошо подходит для людей, которые уже получили базовое понимание IRT.
В этом томе представлено комплексное введение в модели ответа на вопросы, в основном предназначенное для практиков, исследователей и аспирантов.
В этой книге обсуждается байесовский подход к моделированию реакции элемента. Книга будет полезна лицам (знакомым с IRT), интересующимся анализом данных ответов на вопросы с байесовской точки зрения.

внешние ссылки

Последняя правка сделана 2023-03-29 12:09:40
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте