Адаптивное сравнительное суждение

редактировать

Адаптивное сравнительное суждение - это метод, заимствованный из психофизики, который может генерировать надежные результаты для образовательная оценка - как таковая является альтернативой традиционному выставлению оценок экзаменационного сценария. В рамках этого подхода судьям представлены пары работ учащихся, а затем их просят выбрать, что лучше, одно или другое. Затем с помощью итеративного и адаптивного алгоритма можно получить масштабированное распределение работ учащихся без ссылки на критерии.

Содержание

1 Введение
2 История
- 2.1 Закон сравнительного суждения Терстона
- 2.2 Повторное введение в образование
- 2.3 Адаптивное сравнительное суждение
- 2.4 Текущие проекты сравнительного суждения
  - 2.4.1 Сравнение RM
  - 2.4.2 Проекты сравнительного суждения с открытым исходным кодом
  - 2.4.3 Сравнительное суждение
  - 2.4.4 e-scape
  - 2.4.5 Письменность в начальной школе
    - 2.4.5.1 Дальнейшие проекты
3 Ссылки
4 Внешние ссылки

Введение

Традиционная маркировка экзаменационных скриптов началась в Кембридже 1792 года, когда с ростом числа студентов возрастала важность правильного ранжирования студентов. Так, в 1792 году новый экзаменатор Уильям Фариш ввел выставление оценок - процесс, в котором каждый экзаменатор выставляет числовую оценку каждому ответу каждого студента, а общая общая оценка ставит студентов в окончательный порядок ранжирования. Фрэнсис Гальтон (1869) отметил, что в неустановленном году, около 1863 года, Senior Wrangler набрал 7634 балла из 17000, а второй Wrangler набрал 4123. («Деревянная ложка» набрала всего 237 баллов.)

До 1792 года группа экзаменаторов Кембриджа собиралась в 17:00 в последний день экзамена, просматривала 19 работ, которые сдал каждый студент, и публиковала их рейтинг. в полночь. Маркировка решила проблемы с числами и предотвратила несправедливую личную предвзятость, а ее введение стало шагом к современному объективному тестированию, формату, для которого она лучше всего подходит. Но последовавшая за этим технология тестирования с упором на надежность и автоматизацию выставления оценок была неудобным партнером для некоторых областей образовательных достижений: оценка письменной или устной речи, а для других видов успеваемости требуется нечто более качественное и осуждающий.

Техника адаптивного сравнительного суждения является альтернативой маркировке. Он возвращается к идее сортировки бумаг по качеству, существовавшей до 1792 года, но сохраняет гарантию надежности и честности. Это, безусловно, самый надежный из известных способов оценивать эссе или более сложные выступления. Это намного проще, чем маркировка, и его предпочитают почти все экзаменаторы, которые пробовали его. Настоящая привлекательность адаптивного сравнительного суждения заключается в том, как с его помощью можно перепрофессионализировать деятельность по оцениванию и как можно реинтегрировать оценку с обучением.

История

Закон сравнительного суждения Терстона

«Абсолютного суждения не существует»

— Лэминг (2004)

Наука сравнительного суждения началась с Луи Леон Терстон из Чикагского университета. Пионер психофизики, он предложил несколько способов построения шкал для измерения ощущений и других психологических свойств. Одним из них был закон сравнительного суждения (Thurstone, 1927a, 1927b), который определил математический способ моделирования вероятности того, что один объект `` превзойдет '' другой в сравнении, при заданных значениях для 'качества ' каждого. Это все, что нужно для построения полноценной системы измерения.

Вариант его модели (см. Парное сравнение и модель BTL) утверждает, что разница между их значениями качества равна логарифму шансов, что объект-A превзойдет объект. -B:

logodds (A превосходит B ∣ va, vb) = va - vb {\ displaystyle \ mathrm {log \; odds} (A \ {\ text {beats}} \ B \ mid v_ {a}, v_ {b}) = v_ {a} -v_ {b}}

{\ displaystyle \ mathrm {log \; odds} (A \ {\ text {beats}} \ B \ mid v_ {a}, v_ {b}) = v_ {a} - v_ {b}}

До появления современных компьютеров математика, необходимая для вычисления «значений» качества каждого объекта, означала, что метод мог использоваться только с небольшими наборами объектов, и его применение было ограничено. Для Терстона объектами обычно были ощущения, такие как интенсивность, или отношения, такие как серьезность преступления, или высказывания мнений. Социальные исследователи продолжали использовать этот метод, так же как и исследователи рынка, для которых объекты могли быть разными планировками гостиничных номеров или вариациями предлагаемого нового печенья.

В 1970-х и 1980-х годах сравнительное суждение появилось почти впервые в образовательной оценке в качестве теоретической основы или предвестника новых теорий скрытых черт или ответов на вопросы. (Андрич, 1978). Эти модели теперь являются стандартными, особенно в системах хранения предметов и адаптивного тестирования.

Повторное введение в образование

Первой опубликованной статьей, использующей сравнительное суждение в образовании, была работа Pollitt Murray (1994), по сути, исследовательская работа, касающаяся природы шкалы владения английским языком, оцениваемой в устной речи. часть Кембриджского экзамена CPE. Объектами были кандидаты, представленные 2-минутными фрагментами видеозаписей с их тестовых сессий, а судьями были аспиранты лингвистики, не прошедшие аттестацию. Судьи сравнивали пары фрагментов видео, просто сообщая о том, какой из них они сочли лучшим учеником, а затем прошли клиническое интервью, чтобы выяснить причины своего решения.

Затем Поллитт представил присуждающим награды органам Великобритании метод сравнительного суждения как метод сравнения стандартов уровней A от различных советов. Сравнительное суждение заменило их существующий метод, который требовал прямого суждения о сценарии по сравнению с официальным стандартом другой доски. В течение первых двух или трех лет этого Поллитт проводил все анализы для всех плат, используя программу, которую он написал для этой цели. Это сразу же стало единственным экспериментальным методом, используемым для исследования сопоставимости экзаменов в Великобритании; приложения для этой цели с 1996 по 2006 год полностью описаны в Bramley (2007).

В 2004 году Поллитт представил доклад на конференции Международной ассоциации по оценке образования под названием Let's Stop Marking Exams, а другой - на конференции. на той же конференции 2009 года под названием «Отмена марксизма». В каждой статье цель состояла в том, чтобы убедить оценочное сообщество в том, что использование сравнительного суждения дает значительные преимущества вместо выставления оценок для некоторых типов оценивания. В 2010 году он представил доклад в Европейской ассоциации оценки образования «Как правильно и надежно оценивать письменную речь», в котором представлены доказательства чрезвычайно высокой надежности, достигнутой с помощью сравнительного суждения при оценке уровня владения учениками начальной школы английского языка как первого языка. письмо.

Адаптивное сравнительное суждение

Сравнительное суждение становится жизнеспособной альтернативой выставлению оценок, когда оно реализовано как адаптивная система оценивания на базе Интернета. При этом «баллы» (параметр модели для каждого объекта) переоцениваются после каждого «раунда» суждений, в котором в среднем каждый объект оценивался еще раз. В следующем раунде каждый сценарий сравнивается только с другим, текущая оценочная оценка которого аналогична, что увеличивает количество статистической информации, содержащейся в каждом решении. В результате процедура оценки более эффективна, чем случайное спаривание или любая другая заранее заданная система спаривания, подобная тем, которые используются в классических приложениях сравнительного суждения. (Pollitt, 2012).

Как и в случае компьютерно-адаптивного тестирования, эта адаптивность максимизирует эффективность процедуры оценки, увеличивая разделение оценок и сокращая стандартные ошибки. Наиболее очевидным преимуществом является то, что это обеспечивает значительно более высокую надежность по сравнению с оценкой путем маркировки без потери достоверности.

Неизвестно, действительно ли адаптивное сравнительное суждение повышает надежность. (Брамли, Вителло, 2016).

Текущие проекты сравнительного суждения

RM Compare

RM Compare - исходная система адаптивного сравнительного суждения. Система, первоначально разработанная как CompareAssess компанией Digital Assess, предназначена для масштабного развертывания адаптивных сравнительных суждений и используется во всем мире в широком диапазоне контекстов.

Проекты сравнительного суждения с открытым исходным кодом

Цифровая платформа для оценки компетенций (D-PAC) - это консорциум с Университетом Антверпена, iMinds и Университетом Гента для создания приложения для сравнительного суждения с открытым исходным кодом. D-PAC в сотрудничестве с No More Marking Ltd выпустили алгоритмы, которые работают на www.nomoremarking.com в соответствии с GNU GENERAL PUBLIC LICENSE Version 3, 29 июня 2007 г.

Comparative Judgment

No More Marking создали онлайн-приложение для сравнительного суждения, а также хранилище полезной информации.

e-scape

Первое применение сравнительного суждения к прямой оценке студентов было в проекте под названием e-scape, возглавляемом профессором Ричардом Кимбеллом из Лондона. Голдсмитский колледж при университете (Kimbell Pollitt, 2008). Работа по развитию проводилась в сотрудничестве с рядом награжденных органов в рамках курса «Дизайн и технологии». Команда Кимбелла разработала сложный и аутентичный проект, в котором учащиеся должны были разработать в качестве прототипа такой объект, как детский диспенсер для таблеток , за два трехчасовых занятия под наблюдением.

Интернет-система оценки была разработана Каримом Дерриком и Декланом Линчем из TAG Developments, которая теперь является частью Digital Assess, и основана на исходной системе портфолио оценки MAPS (программное обеспечение), теперь известен как "Управление". Goldsmiths, TAG Developments и Pollitt провели три испытания, увеличив размер выборки с 20 до 249 студентов и разработав как систему судейства, так и систему оценивания. Есть три пилотных проекта, включающих географию и науку, а также оригинальный проект в области дизайна и технологий.

Письмо в начальной школе

В конце 2009 года TAG Developments и Pollitt опробовали новую версию системы оценивания письма. В общей сложности 1000 сценариев начальной школы были оценены командой из 54 судей в смоделированном национальном контексте оценивания. Достоверность полученных результатов после того, как каждый сценарий был оценен 16 раз, составила 0,96, что значительно выше, чем в любом другом опубликованном исследовании аналогичной письменной оценки. Дальнейшее развитие системы показало, что надежность 0,93 может быть достигнута примерно после 9 оценок каждого сценария, когда система не дороже, чем однократная маркировка, но все же намного более надежна.

Дальнейшие проекты

В настоящее время реализуются несколько проектов в Англии, Шотландии, Ирландии, Израиле, Сингапуре и Австралии. Они варьируются от начальной школы до университета в зависимости от контекста и включают как формирующее, так и итоговое оценивание, от письма до математики. Базовая веб-система теперь доступна на коммерческой основе от TAG Assessment (http://www.tagassessment.com ) и может быть изменена в соответствии с конкретными потребностями.

ACJ использовался Сири, Кэнти, Гордоном и Лейном в Университете Лимерика, Ирландия, для оценки работы студентов бакалавриата по программам начального педагогического образования с 2009 года. ACJ также использовался доктором Бартоломью из Университета Пердью для оценки портфолио дизайнеров у студентов средних, старших классов и университетов. Варфоломей также использовал ACJ в качестве инструмента для формирующего оценивания и обучения решению открытых проблем.

Ссылки

Pollitt, A (2015) On Reliability Bias in ACJ: Valid Simulation of Adaptive Comparative Суждение. Исследование Кембриджского экзамена: Кембридж, Великобритания Доступно по адресу https://www.researchgate.net/publication/283318012_On_%27Reliability%27_bias_in_ACJ
Стандарты образовательного и психологического тестирования APA, AERA и NCME (1999).
Гальтон, Ф. (1855) Наследственный гений: исследование его законов и последствий. Лондон: Macmillan.
Кимбелл, Р. А., Уиллер А., Миллер С. и Поллитт А. (2007), оценка портфолио в электронном виде (электронные решения для творческой оценки в среде портфолио), отчет по фазе 2. TERU Goldsmiths, Лондонский университет ISBN 978-1-904158-79-0
Pollitt, A (2004) Давайте прекратим выставлять оценки на экзаменах. Ежегодная конференция Международной ассоциации по оценке образования, Филадельфия, июнь. Доступно на http://www.camexam.co.uk publications.
Pollitt, A, (2009) Отмена марксизма и спасение действительности. Ежегодная конференция Международной ассоциации по оценке образования, Брисбен, сентябрь. Доступно на http://www.camexam.co.uk publications.
Pollitt, A, Murray, N (1993) На что действительно обращают внимание рейтеры. Коллоквиум по изучению языкового тестирования, Кембридж. Переиздано в Milanovic, M Saville, N (Eds), Studies in Language Testing 3: Performance Testing, Cognition and Assessment, Cambridge University Press, Cambridge.

Внешние ссылки