Автоматическая оценка эссе

редактировать

Автоматическая оценка эссе (AES ) - это использование специализированных компьютерных программ для присвоения оценок эссе, написанные в образовательной среде. Это форма образовательной оценки и приложение обработки естественного языка. Его цель состоит в том, чтобы классифицировать большой набор текстовых объектов на небольшое количество дискретных категорий, соответствующих возможным классам, например, числам от 1 до 6. Следовательно, его можно рассматривать как проблему статистической классификации.

Несколько факторов способствовали росту интереса к AES. Среди них - стоимость, ответственность, стандарты и технологии. Рост затрат на образование вынудил систему образования нести ответственность за результаты путем введения стандартов. Развитие информационных технологий обещает измерить успеваемость по сниженным ценам.

Использование AES для высокоуровневого тестирования в образовании вызвало значительную негативную реакцию: оппоненты указывали на исследования, что компьютеры еще не могут точно оценивать письмо, и утверждали, что их использование для таких целей способствует обучению. запись в упрощенной форме (например, обучение тесту ).

Содержание

1 История
2 Различные аспекты качества эссе
3 Процедура
4 Критерии успеха
5 Критика
- 5.1 HumanReaders.Org Petition
6 Программное обеспечение
7 Ссылки

История

Большинство исторических обзоров AES прослеживают происхождение этой области до работы Эллиса Баттена Пейджа. В 1966 году он выступал за возможность оценивать эссе с помощью компьютера, а в 1968 году он опубликовал свою успешную работу с программой под названием Project Essay Grade (PEG). При использовании технологий того времени компьютеризированная оценка эссе не была бы рентабельной, поэтому Пейдж прекратил свои усилия примерно на два десятилетия. В конце концов, Пейдж продал PEG компании Measurement Incorporated

К 1990 году настольные компьютеры стали настолько мощными и широко распространенными, что AES стала реальной возможностью. Еще в 1982 году программа UNIX под названием Writer's Workbench могла предлагать советы по пунктуации, орфографии и грамматике. В сотрудничестве с несколькими компаниями (в частности, со службой образовательного тестирования), Пейдж обновил PEG и провел несколько успешных испытаний в начале 1990-х годов.

Питер Фольц и Томас Ландауэр разработали систему с использованием механизма оценки под названием Интеллектуальный эксперт по оценке эссе (IEA). Впервые IEA был использован для оценки эссе в 1997 году на курсах бакалавриата. Теперь это продукт компании Pearson Educational Technologies, который используется для оценки в ряде коммерческих продуктов, а также на государственных и национальных экзаменах.

IntelliMetric - это механизм AES компании Vantage Learning. Его разработка началась в 1996 году. Впервые он был использован в коммерческих целях для оценки эссе в 1998 году.

Служба образовательного тестирования предлагает "e-rater", программу автоматической оценки эссе. Впервые он был использован в коммерческих целях в феврале 1999 года. Джилл Бурштейн была руководителем группы по его разработке. Служба ETS Criterion Online Writing Evaluation Service использует механизм электронной оценки для предоставления как оценок, так и целевой обратной связи.

Лоуренс Руднер проделал некоторую работу с байесовской оценкой и разработал систему под названием BETSY (система оценки байесовских тестов для сочинений). Некоторые из его результатов были опубликованы в печати или в Интернете, но пока ни одна коммерческая система не включает BETSY.

Под руководством Говарда Мицеля и Сью Лоттридж компания Pacific Metrics разработала сконструированную автоматизированную систему оценки ответов CRASE. В настоящее время технология Pacific Metrics используется несколькими государственными департаментами образования и в рамках гранта на расширенную оценку, финансируемого Министерством образования США, в крупномасштабных средах формативного и итогового оценивания.

Приобретена компания Measurement Inc. права на PEG в 2002 году и продолжил его развитие.

В 2012 году Hewlett Foundation спонсировал конкурс Kaggle под названием «Приз за автоматизированную оценку учащихся» (ASAP). 201 участник испытания попытался с помощью AES предсказать оценки, которые люди-оценщики поставят тысячам эссе, написанным по восьми различным запросам. Цель состояла в том, чтобы продемонстрировать, что AES может быть столь же надежным, как и люди-оценщики, или даже более. В ходе конкурса также была проведена отдельная демонстрация среди девяти поставщиков AES подмножества данных ASAP. Хотя исследователи сообщили, что автоматическая оценка эссе была такой же надежной, как оценка человека, это утверждение не было подтверждено никакими статистическими тестами, потому что некоторые поставщики требовали, чтобы такие тесты не проводились в качестве предварительного условия для их участия. Более того, утверждение о том, что исследование Hewlett Study продемонстрировало, что AES может быть столь же надежным, как люди-оценщики, с тех пор сильно оспаривалось, в том числе Рэнди Э. Беннеттом, заведующим кафедрой инноваций в области оценивания в Службе образовательного тестирования. Некоторые из основных критических замечаний по поводу исследования заключались в том, что пять из восьми наборов данных состояли из абзацев, а не эссе, четыре из восьми наборов данных были оценены читателями только по содержанию, а не по способностям письма, и что вместо измерения читателей-людей и машины AES против «истинной оценки», среднего из двух оценок читателей, в исследовании использовалась искусственная конструкция, «разрешенная оценка», которая в четырех наборах данных состояла из более высоких из двух человеческих оценок, если была несогласие. Эта последняя практика, в частности, дала машинам несправедливое преимущество, позволив им собирать эти наборы данных.

В 1966 году Пейдж предположил, что в будущем компьютерный судья будет лучше коррелировать с каждый судья-человек, чем другие судьи-люди. Несмотря на критику применимости этого подхода к оценке эссе в целом, эта гипотеза была поддержана для маркировки ответов в виде произвольного текста на короткие вопросы, например, типичные для британской системы GCSE. Результаты контролируемого обучения демонстрируют, что автоматические системы работают хорошо, когда разные учителя выставляют оценки в хорошем соответствии. Неконтролируемая кластеризация ответов показала, что отличные работы и слабые работы образуют четко определенные кластеры, и автоматическое правило выставления оценок для этих кластеров работает хорошо, тогда как оценки, выставленные учителями-людьми за третий кластер (`` смешанный ''), могут быть спорным, и надежность любой оценки работ из «смешанного» кластера часто может быть поставлена под сомнение (как на основе человеческой, так и на компьютерной основе).

Различные аспекты качества эссе

Согласно Согласно недавнему опросу, современные системы AES пытаются оценить различные параметры качества эссе, чтобы обеспечить обратную связь с пользователями. Эти параметры включают в себя следующие элементы:

Грамматика: соблюдение правил грамматики
Использование: использование предлогов, употребление слов
Механика: соблюдение правил орфографии, пунктуации, использования заглавных букв
Стиль: выбор слов, разнообразие структуры предложения
Релевантность: насколько содержание соответствует подсказке
Организация: насколько хорошо структурировано эссе
Развитие: развитие идей с примерами
Сплоченность: правильное использование переходных фраз
Связность: соответствующие переходы между идеями
Тезис Ясность: ясность тезиса
Убедительность: убедительность главный аргумент

Процедура

С самого начала основная процедура для AES заключалась в том, чтобы начать с обучающего набора эссе, которые были тщательно проверены вручную. Программа оценивает поверхностные особенности текста каждого эссе, такие как общее количество слов, количество придаточных предложений или соотношение прописных и строчных букв - количества, которые можно измерить без какого-либо человеческого понимания. Затем он строит математическую модель, которая связывает эти количества с баллами, полученными за эссе. Затем та же модель применяется для подсчета баллов за новые эссе.

Недавно одна такая математическая модель была создана Исааком Персингом и Винсентом Нг. который оценивает эссе не только по вышеуказанным характеристикам, но и по их аргументации. Он оценивает различные характеристики эссе, такие как степень согласия автора и причины того же, приверженность теме подсказки, расположение компонентов аргумента (основное утверждение, утверждение, предпосылка), ошибки в аргументах, согласованность аргументов. среди различных других функций. В отличие от других моделей, упомянутых выше, эта модель ближе к дублированию человеческого понимания при оценке эссе.

Различные программы AES различаются по тому, какие конкретные характеристики поверхности они измеряют, сколько эссе требуется в обучающем наборе и, что наиболее важно, в методике математического моделирования. В ранних попытках использовалась линейная регрессия. Современные системы могут использовать линейную регрессию или другие методы машинного обучения, часто в сочетании с другими статистическими методами, такими как скрытый семантический анализ и байесовский вывод.

Критерии успеха

Любой метод оценка должна оцениваться по обоснованности, справедливости и надежности. Инструмент действителен, если он действительно измеряет признак, который он призван измерить. Будет справедливо, если это, по сути, не наказывает или не дает привилегий какому-либо одному классу людей. Он надежен, если его результат воспроизводится даже при изменении несущественных внешних факторов.

До того, как появились компьютеры, за эссе с высокими ставками обычно давали оценки два подготовленных человека-рейтера. Если оценки различались более чем на один балл, разногласия разрешал более опытный третий эксперт. В этой системе есть простой способ измерить надежность: по соглашению между экспертами. Если оценщики не всегда соглашаются в пределах одного пункта, их обучение может быть ошибочным. Если оценщик постоянно не соглашается с тем, как другие оценщики смотрят на те же эссе, ему, вероятно, потребуется дополнительное обучение.

Были предложены различные статистические данные для измерения согласия между экспертами. Среди них процентное соответствие, π Скотта, κ Коэна, α Криппендорфа, коэффициент корреляции Пирсона r, ранговая корреляция Спирмена. коэффициент ρ и коэффициент корреляции конкордантности Lin .

Процентное согласие - это простая статистика, применимая к шкалам оценок от 1 до n, где обычно 4 ≤ n ≤ 6. Он представлен в виде трех цифр, каждая процент от общего количества оцененных эссе: точное согласие (два эксперта дали эссе одинаковые оценки), смежное согласие (эксперты разошлись не более чем на один балл; это включает точное согласие) и крайнее несогласие (эксперты разошлись на более двух баллов). Было обнаружено, что оценщики-эксперты достигают точного согласия в 53–81% всех эссе и смежное согласие в отношении 97–100%.

Соглашение между экспертами теперь можно применять для измерения производительности компьютера. Набор эссе предоставляется двум людям-оценщикам и программе AES. Если выставленные компьютером оценки совпадают с оценками одного из людей, а также друг с другом, программа AES считается надежной. В качестве альтернативы каждому эссе присваивается «истинный балл» путем взятия среднего из баллов двух человек-оценщиков, и два человека и компьютер сравниваются на основе их согласия с истинным баллом.

Некоторые исследователи сообщают, что их системы AES на самом деле работают лучше, чем человек. Пейдж сделал это заявление о PEG в 1994 году. Скотт Эллиот сказал в 2003 году, что IntelliMetric обычно опережает людей, набирающих очки. Однако машины AES, по-видимому, менее надежны, чем люди, читающие любой сложный письменный тест.

В современной практике высокие оценки, такие как GMAT, всегда выставляются хотя бы одним человеком. AES используется вместо второго оценщика. Человек-оценщик разрешает любые разногласия по более чем одному баллу.

Критика

AES подвергается критике по разным причинам. Ян и др. упомянуть «чрезмерную зависимость от поверхностных характеристик ответов, нечувствительность к содержанию ответов и творчеству, а также уязвимость перед новыми типами мошенничества и стратегий прохождения тестов». Некоторые критики обеспокоены тем, что мотивация студентов снизится, если они узнают, что ни один человек не прочитает их сочинения. Среди наиболее ярких критических замечаний - сообщения о преднамеренно бессмысленных эссе, получивших высокие оценки.

Петиция HumanReaders.Org

12 марта 2013 года HumanReaders.Org запустила онлайн-петицию «Профессионалы против машинного подсчета очков». студенческих эссе в оценивании с высокими ставками ». В течение нескольких недель петиция собрала тысячи подписей, в том числе Ноам Хомски, и была процитирована в ряде газет, включая The New York Times, а также в ряде образовательных и технологических блогов.

В петиции использование AES для тестирования с высокими ставками описывается как «тривиальное», «сокращающее», «неточное», «недиагностическое», «несправедливое» и «скрытное».

В подробном резюме исследования AES на сайте петиций отмечается: «РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ ПОКАЗЫВАЮТ, ЧТО никто - ученики, родители, учителя, работодатели, администраторы, законодатели - не может полагаться на машинную оценку эссе... И ЧТО машинная оценка не дает измерять и, следовательно, не поощрять аутентичные письменные формы.

В петиции конкретно рассматривается использование AES для тестирования с высокими ставками и ничего не говорится о других возможных применениях.

Программное обеспечение

Большинство ресурсов для автоматической оценки эссе являются собственностью.

eRater - опубликовано Службой образовательного тестирования
Intellimetric - компанией Vantage Learning
Project Essay Grade - by Measurement, Inc.

Ссылки