Срок действия теста

редактировать

Срок действия теста - это степень, в которой тест (например, химическое вещество, физический, или учебный тест ) точно измеряет то, что он должен измерять. В областях психологического тестирования и образовательного тестирования «валидность означает степень, в которой доказательства и теория поддерживают интерпретацию результатов тестов, вытекающую из предлагаемого использования тестов». Хотя классические модели подразделяют концепцию на различные «достоверности» (например, достоверность содержания, достоверность критерия и достоверность конструкции ), в настоящее время преобладает точка зрения, что действительность представляет собой единую унитарную конструкцию.

Валидность обычно считается наиболее важным вопросом в психологическом и образовательном тестировании, поскольку она касается значения, придаваемого результатам тестирования. Хотя многие учебники представляют валидность как статическую конструкцию, с момента первых опубликованных рекомендаций по построению психологических и образовательных тестов возникли различные модели валидности. Эти модели можно разделить на две основные группы: классические модели, которые включают несколько типов валидности, и современные модели, которые представляют валидность как единую конструкцию. Современные модели реорганизуют классические «валидности» либо в «аспекты» валидности, либо в «типы» подтверждающих валидность доказательств

Валидность теста сама по себе может быть проверена / подтверждена с помощью тестов межэкспертной надежности, надежность внутри оценщика, повторяемость (надежность повторного тестирования) и другие характеристики, как правило, через несколько прогонов теста, результаты которых сравниваются. Статистический анализ помогает определить, являются ли различия между различными результатами достаточно большими, чтобы стать проблемой, или достаточно небольшими.

Содержание

1 Историческая справка
2 Процесс валидации
3 См. Также
4 Ссылки

Историческая справка

Хотя психологи и преподаватели знали о нескольких аспектах достоверности и раньше Во время Второй мировой войны их методы определения достоверности обычно ограничивались корреляцией результатов тестов с некоторым известным критерием. Под руководством Ли Кронбаха в Технических рекомендациях по психологическим тестам и диагностическим методам 1954 года была предпринята попытка прояснить и расширить сферу действия, разделив ее на четыре части: (a) одновременное действие, (b) прогнозируемая достоверность, (c) достоверность содержимого и (d) достоверность конструкции. Последующая публикация Кронбаха и Мила сгруппировала предсказательную и параллельную валидность в «ориентацию на критерии», которая в конечном итоге стала критериальной валидностью.

В течение следующих четырех десятилетий многие теоретики, включая самого Кронбаха, выражали свое недовольство этой тройной ошибкой. -одна модель действительности. Их аргументы достигли высшей точки в статье Сэмюэля Мессика 1995 г., в которой обоснованность описывалась как единственная конструкция, состоящая из шести «аспектов». По его мнению, для различных выводов, сделанных на основе результатов тестов, могут потребоваться разные типы доказательств, но не разные значения их достоверности.

Стандарты образовательного и психологического тестирования 1999 г. в значительной степени систематизировали модель Мессика. Они описывают пять типов доказательств, подтверждающих валидность, которые включают каждый из аспектов Мессика, и не упоминают о содержании классических моделей, критериях и конструктивных валидностях.

Процесс валидации

Согласно Стандартам 1999 года валидация - это процесс сбора доказательств, обеспечивающих «прочную научную основу» для интерпретации оценок, предложенных разработчиком теста и / или тестом. пользователь. Таким образом, валидация начинается с структуры, которая определяет объем и аспекты (в случае многомерных шкал) предлагаемой интерпретации. Структура также включает рациональное обоснование, связывающее интерпретацию с рассматриваемым тестом.

Затем исследователи валидности перечисляют серию утверждений, которые должны быть выполнены, чтобы интерпретация была верной. Или, наоборот, они могут составить список вопросов, которые могут поставить под угрозу обоснованность интерпретаций. В любом случае исследователи приступают к сбору доказательств - будь то оригинальное эмпирическое исследование, метаанализ или обзор существующей литературы, или логический анализ проблем - чтобы поддержать или подвергнуть сомнению предложения интерпретации (или угрозы валидности интерпретации).. Упор делается на качество, а не количество доказательств.

Для единственной интерпретации любого результата теста может потребоваться, чтобы несколько утверждений были верными (или может быть поставлено под сомнение любой из набора угроз его действительности). Убедительные доказательства в поддержку одного утверждения не уменьшают требования в поддержку других утверждений.

Доказательства, подтверждающие (или ставящие под сомнение) достоверность интерпретации, можно разделить на одну из пяти категорий:

Доказательства, основанные на содержании теста
Доказательства, основанные на процессах реагирования
Доказательства, основанные на внутренней структуре
Доказательства, основанные на отношениях с другими переменными
Доказательства, основанные на последствиях тестирования

Методы сбора каждого типа доказательств следует использовать только тогда, когда они дают информацию которые поддержат или поставят под сомнение предложения, необходимые для рассматриваемой интерпретации.

Каждое доказательство наконец объединяется в аргумент достоверности. Аргумент может потребовать пересмотра теста, протокола его администрирования или теоретических построений, лежащих в основе интерпретаций. Если тест и / или интерпретация результатов каким-либо образом пересматриваются, новый процесс проверки должен собрать доказательства для поддержки новой версии.

См. Также

Шкала достоверности

Список литературы

^ Американская ассоциация исследований в области образования, Американская психологическая ассоциация и Национальный совет по измерениям в образовании. (1999) Стандарты образовательного и психологического тестирования. Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.
^Гион Р. М. (1980). О тринитарных доктринах действительности. Профессиональная психология, 11, 385-398.
^ Мессик, С. (1995). Достоверность психологической оценки: подтверждение выводов, сделанных на основе ответов и действий людей, в качестве научного исследования значения баллов. Американский психолог, 50, 741-749.
^Попхэм, У. Дж. (2008). Все об оценке / Непонятый Грааль. Образовательное лидерство, 66 (1), 82-83.
^См. В остальном отличный текст: Nitko, J.J., Brookhart, S.M. (2004). Образовательная оценка студентов. Река Аппер Сэдл, Нью-Джерси: Меррил-Прентис Холл.
^ Американская психологическая ассоциация, Американская ассоциация исследований в области образования и Национальный совет по измерениям в образовании. (1954). Технические рекомендации по психологическим тестам и диагностическим методикам. Вашингтон, округ Колумбия: Ассоциация.
^Ангоф, В. Х. (1988). Действительность: развивающаяся концепция. В H. Wainer и H. Braun (Eds.), Test Validity (стр. 19-32). Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
^Cronbach, L.J., Meehl, P.E. (1955). Построить валидность в психологических тестах. Психологический бюллетень, 52, 281-302.
^Кронбах, Л. Дж. (1969). Проверка воспитательных мероприятий. Труды Приглашающей конференции 1969 г. по задачам тестирования. Принстон, Нью-Джерси: Служба образовательного тестирования, 35-52.
^Ловингер Дж. (1957). Объективные тесты как инструменты психологической теории. Психологические отчеты, 3, 634-694.
^Тенопир М. Л. (1977). Путаница в построении содержания. Психология персонала, 30, 47-54.
^Гион Р. М. (1977). Достоверность содержания - источник моего недовольства. Прикладное психологическое измерение, 1, 1-10.