Адаптивное сравнительное суждение - это метод, заимствованный из психофизики, который может генерировать надежные результаты для образовательная оценка - как таковая является альтернативой традиционному выставлению оценок экзаменационного сценария. В рамках этого подхода судьям представлены пары работ учащихся, а затем их просят выбрать, что лучше, одно или другое. Затем с помощью итеративного и адаптивного алгоритма можно получить масштабированное распределение работ учащихся без ссылки на критерии.
Традиционная маркировка экзаменационных скриптов началась в Кембридже 1792 года, когда с ростом числа студентов возрастала важность правильного ранжирования студентов. Так, в 1792 году новый экзаменатор Уильям Фариш ввел выставление оценок - процесс, в котором каждый экзаменатор выставляет числовую оценку каждому ответу каждого студента, а общая общая оценка ставит студентов в окончательный порядок ранжирования. Фрэнсис Гальтон (1869) отметил, что в неустановленном году, около 1863 года, Senior Wrangler набрал 7634 балла из 17000, а второй Wrangler набрал 4123. («Деревянная ложка» набрала всего 237 баллов.)
До 1792 года группа экзаменаторов Кембриджа собиралась в 17:00 в последний день экзамена, просматривала 19 работ, которые сдал каждый студент, и публиковала их рейтинг. в полночь. Маркировка решила проблемы с числами и предотвратила несправедливую личную предвзятость, а ее введение стало шагом к современному объективному тестированию, формату, для которого она лучше всего подходит. Но последовавшая за этим технология тестирования с упором на надежность и автоматизацию выставления оценок была неудобным партнером для некоторых областей образовательных достижений: оценка письменной или устной речи, а для других видов успеваемости требуется нечто более качественное и осуждающий.
Техника адаптивного сравнительного суждения является альтернативой маркировке. Он возвращается к идее сортировки бумаг по качеству, существовавшей до 1792 года, но сохраняет гарантию надежности и честности. Это, безусловно, самый надежный из известных способов оценивать эссе или более сложные выступления. Это намного проще, чем маркировка, и его предпочитают почти все экзаменаторы, которые пробовали его. Настоящая привлекательность адаптивного сравнительного суждения заключается в том, как с его помощью можно перепрофессионализировать деятельность по оцениванию и как можно реинтегрировать оценку с обучением.
«Абсолютного суждения не существует»
— Лэминг (2004)Наука сравнительного суждения началась с Луи Леон Терстон из Чикагского университета. Пионер психофизики, он предложил несколько способов построения шкал для измерения ощущений и других психологических свойств. Одним из них был закон сравнительного суждения (Thurstone, 1927a, 1927b), который определил математический способ моделирования вероятности того, что один объект `` превзойдет '' другой в сравнении, при заданных значениях для 'качества ' каждого. Это все, что нужно для построения полноценной системы измерения.
Вариант его модели (см. Парное сравнение и модель BTL) утверждает, что разница между их значениями качества равна логарифму шансов, что объект-A превзойдет объект. -B:
До появления современных компьютеров математика, необходимая для вычисления «значений» качества каждого объекта, означала, что метод мог использоваться только с небольшими наборами объектов, и его применение было ограничено. Для Терстона объектами обычно были ощущения, такие как интенсивность, или отношения, такие как серьезность преступления, или высказывания мнений. Социальные исследователи продолжали использовать этот метод, так же как и исследователи рынка, для которых объекты могли быть разными планировками гостиничных номеров или вариациями предлагаемого нового печенья.
В 1970-х и 1980-х годах сравнительное суждение появилось почти впервые в образовательной оценке в качестве теоретической основы или предвестника новых теорий скрытых черт или ответов на вопросы. (Андрич, 1978). Эти модели теперь являются стандартными, особенно в системах хранения предметов и адаптивного тестирования.
Первой опубликованной статьей, использующей сравнительное суждение в образовании, была работа Pollitt Murray (1994), по сути, исследовательская работа, касающаяся природы шкалы владения английским языком, оцениваемой в устной речи. часть Кембриджского экзамена CPE. Объектами были кандидаты, представленные 2-минутными фрагментами видеозаписей с их тестовых сессий, а судьями были аспиранты лингвистики, не прошедшие аттестацию. Судьи сравнивали пары фрагментов видео, просто сообщая о том, какой из них они сочли лучшим учеником, а затем прошли клиническое интервью, чтобы выяснить причины своего решения.
Затем Поллитт представил присуждающим награды органам Великобритании метод сравнительного суждения как метод сравнения стандартов уровней A от различных советов. Сравнительное суждение заменило их существующий метод, который требовал прямого суждения о сценарии по сравнению с официальным стандартом другой доски. В течение первых двух или трех лет этого Поллитт проводил все анализы для всех плат, используя программу, которую он написал для этой цели. Это сразу же стало единственным экспериментальным методом, используемым для исследования сопоставимости экзаменов в Великобритании; приложения для этой цели с 1996 по 2006 год полностью описаны в Bramley (2007).
В 2004 году Поллитт представил доклад на конференции Международной ассоциации по оценке образования под названием Let's Stop Marking Exams, а другой - на конференции. на той же конференции 2009 года под названием «Отмена марксизма». В каждой статье цель состояла в том, чтобы убедить оценочное сообщество в том, что использование сравнительного суждения дает значительные преимущества вместо выставления оценок для некоторых типов оценивания. В 2010 году он представил доклад в Европейской ассоциации оценки образования «Как правильно и надежно оценивать письменную речь», в котором представлены доказательства чрезвычайно высокой надежности, достигнутой с помощью сравнительного суждения при оценке уровня владения учениками начальной школы английского языка как первого языка. письмо.
Сравнительное суждение становится жизнеспособной альтернативой выставлению оценок, когда оно реализовано как адаптивная система оценивания на базе Интернета. При этом «баллы» (параметр модели для каждого объекта) переоцениваются после каждого «раунда» суждений, в котором в среднем каждый объект оценивался еще раз. В следующем раунде каждый сценарий сравнивается только с другим, текущая оценочная оценка которого аналогична, что увеличивает количество статистической информации, содержащейся в каждом решении. В результате процедура оценки более эффективна, чем случайное спаривание или любая другая заранее заданная система спаривания, подобная тем, которые используются в классических приложениях сравнительного суждения. (Pollitt, 2012).
Как и в случае компьютерно-адаптивного тестирования, эта адаптивность максимизирует эффективность процедуры оценки, увеличивая разделение оценок и сокращая стандартные ошибки. Наиболее очевидным преимуществом является то, что это обеспечивает значительно более высокую надежность по сравнению с оценкой путем маркировки без потери достоверности.
Неизвестно, действительно ли адаптивное сравнительное суждение повышает надежность. (Брамли, Вителло, 2016).
RM Compare - исходная система адаптивного сравнительного суждения. Система, первоначально разработанная как CompareAssess компанией Digital Assess, предназначена для масштабного развертывания адаптивных сравнительных суждений и используется во всем мире в широком диапазоне контекстов.
Цифровая платформа для оценки компетенций (D-PAC) - это консорциум с Университетом Антверпена, iMinds и Университетом Гента для создания приложения для сравнительного суждения с открытым исходным кодом. D-PAC в сотрудничестве с No More Marking Ltd выпустили алгоритмы, которые работают на www.nomoremarking.com в соответствии с GNU GENERAL PUBLIC LICENSE Version 3, 29 июня 2007 г.
No More Marking создали онлайн-приложение для сравнительного суждения, а также хранилище полезной информации.
Первое применение сравнительного суждения к прямой оценке студентов было в проекте под названием e-scape, возглавляемом профессором Ричардом Кимбеллом из Лондона. Голдсмитский колледж при университете (Kimbell Pollitt, 2008). Работа по развитию проводилась в сотрудничестве с рядом награжденных органов в рамках курса «Дизайн и технологии». Команда Кимбелла разработала сложный и аутентичный проект, в котором учащиеся должны были разработать в качестве прототипа такой объект, как детский диспенсер для таблеток , за два трехчасовых занятия под наблюдением.
Интернет-система оценки была разработана Каримом Дерриком и Декланом Линчем из TAG Developments, которая теперь является частью Digital Assess, и основана на исходной системе портфолио оценки MAPS (программное обеспечение), теперь известен как "Управление". Goldsmiths, TAG Developments и Pollitt провели три испытания, увеличив размер выборки с 20 до 249 студентов и разработав как систему судейства, так и систему оценивания. Есть три пилотных проекта, включающих географию и науку, а также оригинальный проект в области дизайна и технологий.
В конце 2009 года TAG Developments и Pollitt опробовали новую версию системы оценивания письма. В общей сложности 1000 сценариев начальной школы были оценены командой из 54 судей в смоделированном национальном контексте оценивания. Достоверность полученных результатов после того, как каждый сценарий был оценен 16 раз, составила 0,96, что значительно выше, чем в любом другом опубликованном исследовании аналогичной письменной оценки. Дальнейшее развитие системы показало, что надежность 0,93 может быть достигнута примерно после 9 оценок каждого сценария, когда система не дороже, чем однократная маркировка, но все же намного более надежна.
В настоящее время реализуются несколько проектов в Англии, Шотландии, Ирландии, Израиле, Сингапуре и Австралии. Они варьируются от начальной школы до университета в зависимости от контекста и включают как формирующее, так и итоговое оценивание, от письма до математики. Базовая веб-система теперь доступна на коммерческой основе от TAG Assessment (http://www.tagassessment.com ) и может быть изменена в соответствии с конкретными потребностями.
ACJ использовался Сири, Кэнти, Гордоном и Лейном в Университете Лимерика, Ирландия, для оценки работы студентов бакалавриата по программам начального педагогического образования с 2009 года. ACJ также использовался доктором Бартоломью из Университета Пердью для оценки портфолио дизайнеров у студентов средних, старших классов и университетов. Варфоломей также использовал ACJ в качестве инструмента для формирующего оценивания и обучения решению открытых проблем.