Оценка за тест

редактировать

A Оценка за тест - это часть информации, обычно числовая, которая отражает успеваемость экзаменуемого по тест. Одно формальное определение состоит в том, что это «сводка доказательств, содержащихся в ответах экзаменуемого на пункты теста, которые связаны с измеряемой конструкцией или конструктами».

Результаты теста интерпретируются как интерпретация со ссылкой на норму или ссылка на критерий, а иногда и то, и другое. Интерпретация, основанная на нормах, означает, что оценка передает значение экзаменуемого с точки зрения его положения среди других экзаменуемых. Интерпретация, основанная на критериях, означает, что оценка дает информацию об экзаменуемом по конкретному предмету, независимо от оценок других экзаменуемых.

Типы оценок теста

Есть два типа результаты тестов: исходные баллы и баллы по шкале. Необработанная оценка - это оценка без каких-либо корректировок или преобразований, таких как простое количество правильных ответов. Масштабированная оценка - это результат некоторых преобразований, примененных к исходной оценке.

Цель шкалированных оценок - представить результаты всех экзаменуемых по единой шкале. Предположим, что у теста есть две формы, одна из которых сложнее другой. Путем приравнивания было определено, что оценка в 65% по форме 1 эквивалентна оценке в 68% по форме 2. Оценки по обеим формам можно преобразовать в шкалу, чтобы эти две эквивалентные оценки имели те же зарегистрированные оценки. Например, они оба могут иметь оценку 350 по шкале от 100 до 500.

Два хорошо известных теста в США, которые имеют шкалу баллов, - это ACT и SAT.. Шкала ACT варьируется от 0 до 36, а SAT - от 200 до 800 (на раздел). Якобы эти две шкалы были выбраны для представления среднего и стандартного отклонения 18 и 6 (ACT), а также 500 и 100. Верхняя и нижняя границы были выбраны, потому что интервал плюс или минус три стандартных отклонения содержит более 99% населения. Баллы за пределами этого диапазона трудно измерить, и они не имеют практической ценности.

Обратите внимание, что масштабирование не влияет на психометрические свойства теста; это то, что происходит после завершения процесса оценки (и приравнивания, если таковое имеется). Следовательно, это вопрос не психометрии как таковой, а вопрос интерпретируемости.

Оценка потери информации

Тестовый вопрос может потребовать от учащегося вычислить площадь треугольника. Сравните информацию, предоставленную в этих двух ответах.

Площадь = 7,5 см

Основание = 5 см; Высота = 3 см. Площадь = / 2 (основание × высота). = / 2 (5 см × 3 см). = 7,5 см Первый показывает оценку потери информации. Учитель знает, получил ли ученик правильный ответ, но не знает, как ученик пришел к ответу. Если ответ неверен, учитель не знает, угадал ли ученик, сделал ли он простую ошибку или в корне неправильно понял предмет.

Когда тесты выставлены правильно или неправильно, было сделано важное предположение об обучении. Предполагается, что количество правильных ответов или сумма баллов по заданию (если дается частичный зачет) является подходящей и достаточной мерой текущего статуса выполнения. Кроме того, делается вторичное предположение, что неправильные ответы не содержат значимой информации.

Во-первых, правильный ответ может быть получен с помощью запоминания без какого-либо глубокого понимания основного содержания или концептуальной структуры поставленной проблемы. Во-вторых, когда для решения требуется более одного шага, часто существует множество подходов к ответу, которые приведут к правильному результату. Тот факт, что ответ правильный, не означает, какая из нескольких возможных процедур использовалась. Когда студент дает ответ (или показывает работу), эту информацию легко получить из оригинальных документов.

Во-вторых, если бы неправильные ответы были слепыми догадками, среди этих ответов не было бы никакой информации. С другой стороны, если неправильные ответы отражают отклонения интерпретации от ожидаемого, эти ответы должны показывать упорядоченную связь с тем, что измеряет общий тест. Это отклонение должно зависеть от уровня психолингвистической зрелости учащегося, который выбирает или дает ответ на том языке, на котором написан тест.

Во втором случае должна быть возможность извлечь этот порядок из ответов на тестовые задания. Такие процессы извлечения, например, модель Раша, являются стандартной практикой для разработки элементов среди профессионалов. Однако, поскольку неправильные ответы отбрасываются в процессе выставления оценок, анализ этих ответов на предмет информации, которую они могут содержать, проводится редко.

В-третьих, хотя иногда выставляются баллы за субтесты по темам, более распространенной практикой является сообщение общего балла или его масштабированной версии. Это изменение масштаба предназначено для сравнения этих оценок с каким-либо стандартом. Это дальнейшее сворачивание результатов теста систематически удаляет всю информацию о том, какие именно элементы были пропущены.

Таким образом, оценка правильного или неправильного результата теста проигрывает: 1) как учащиеся достигли своих правильных ответов, 2) что привело их к неправильным ответам и 3) где в рамках теста произошло это отклонение от ожиданий.

Этот комментарий предполагает, что текущая процедура выставления оценок скрывает динамику процесса сдачи экзамена и затемняет способности оцениваемых учащихся. Текущая практика подсчета очков упрощает эти данные на начальном этапе подсчета очков. Результатом этой процедурной ошибки является скрытие диагностической информации, которая могла бы помочь учителям лучше обслуживать своих учеников. Кроме того, это не позволяет тем, кто тщательно готовит эти тесты, получить информацию, которая в противном случае предупредила бы их о наличии этой ошибки.

Решение этой проблемы, известное как оценка спектра отклика (RSE), в настоящее время разрабатывается, которое, по-видимому, способно восстановить все три формы потери информации, при этом обеспечивая числовую шкалу для определения текущего статус производительности и отслеживать изменение производительности.

Этот подход RSE обеспечивает интерпретацию каждого ответа, правильного или неправильного, что указывает на вероятные мыслительные процессы, используемые тестируемым. Помимо прочего, в этой главе сообщается, что восстанавливаемая информация объясняет в два-три раза больше вариабельности теста, чем рассмотрение только правильных ответов. Такую массовую потерю информации можно объяснить тем фактом, что «неправильные» ответы удаляются из информации, собираемой в процессе подсчета баллов, и больше не доступны для выявления процедурной ошибки, присущей подсчету правильно-неправильно. Процедура обходит ограничения, вызванные линейными зависимостями, присущими тестовым данным.

Ссылки

^Thissen, D., Wainer, H. (2001). Подсчет очков. Махва, Нью-Джерси: Эрлбаум. Страница 1, предложение 1.
^Руководство по программам тестирования штата Айова для интерпретации результатов тестов Архивировано 12 февраля 2008 г. в Wayback Machine
^Powell, JC and Shklov, N. (1992) Журнал педагогических и психологических измерений, 52, 847–865
^«Добро пожаловать на главную страницу». Архивировано из оригинала 30 апреля 2015 г. Получено 2 мая 2015 г.
^Пауэлл, Джей С. (2010) Тестирование как обратная связь для информирования преподавателей. Глава 3 в; Обучение и обучение в цифровую эпоху, Часть 1. Когнитивные подходы к обучению и обучению. (Дж. Майкл Спектор, Дирк Ифенталер, Педро Исайас, Киншук и Деметриос Сэмпсон, ред.), Нью-Йорк: Springer. ISBN 978-1-4419-1551-1, doi : 10.1007 / 978-1-4419-1551-1