Стилометрия

редактировать

Стилометрия - это приложение изучения лингвистического стиля, обычно к письменному языку, но оно успешно применяется и к музыке, и к живописи изобразительного искусства. Другая концептуализация определяет его как лингвистическую дисциплину, которая оценивает стиль автора посредством применения статистического анализа к корпусу их работ.

Стилометрия часто используется для атрибутов авторства на анонимный или оспариваемые документы. Он имеет юридическое, а также академическое и литературное применение, начиная от вопроса об авторстве произведений Шекспира и заканчивая судебной лингвистикой.

СОДЕРЖАНИЕ

  • 1 История
  • 2 Приложения
  • 3 Текущие исследования
  • 4 академических места и мероприятия
    • 4.1 Судебная лингвистика
    • 4.2 AAAI
    • 4.3 PAN
  • 5 тематических исследований, представляющих интерес
  • 6 Данные и методы
    • 6.1 1. Гауссова статистика.
    • 6.2 2. Нейронные сети
    • 6.3 3. Генетические алгоритмы
    • 6.4 4. Редкие пары
  • 7 Указание авторства в обмене мгновенными сообщениями
  • 8 См. Также
  • 9 Примечания
  • 10 Ссылки
    • 10.1 Дальнейшее чтение
  • 11 Внешние ссылки

История

Стилометрия выросла из более ранних методов анализа текстов на предмет аутентичности, идентичности автора и других вопросов.

Современная практика дисциплины получила известность благодаря исследованию проблем авторства в английской драматургии эпохи Возрождения. Исследователи и читатели заметили, что у некоторых драматургов той эпохи были отличительные модели языковых предпочтений, и попытались использовать эти модели для определения авторов сомнительных или совместных работ. Ранние попытки не всегда были успешными: в 1901 году один исследователь попытался использовать предпочтение Джона Флетчера «⁠ ⁠'em», сокращающейся формы «они», в качестве маркера, чтобы различать Флетчера и Филиппа Массинджера в их сотрудничестве - но он по ошибке использовал издание работ Массинджера, в котором редактор расширил все экземпляры «⁠ ⁠'em» на «они».

Основы стилометрии были заложены польским философом Винцентием Лютославским в « Принципах стилометрии» (1890). Лютославский использовал этот метод для построения хронологии диалогов Платона.

Развитие компьютеров и их способности анализировать большие объемы данных увеличили этот вид усилий на порядки. Однако большие возможности компьютеров для анализа данных не гарантируют хорошего качества продукции. В начале 1960-х годов преподобный А.К. Мортон провел компьютерный анализ четырнадцати посланий Нового Завета, приписываемых апостолу Павлу, который показал, что эти работы написали шесть разных авторов. Проверка его метода, примененного к работам Джеймса Джойса, дала результат: « Улисс», многоперспективный, многостиловый роман Джойса, был написан пятью отдельными людьми, ни один из которых, очевидно, не принимал участия в создании первого романа Джойса. роман " Портрет художника в юности".

Однако со временем и с практикой исследователи и ученые усовершенствовали свои методы, чтобы добиться лучших результатов. Одним из заметных ранних успехов было разрешение спорного авторства двенадцати Федералистских документов Фредериком Мостеллером и Дэвидом Уоллесом. Хотя вопросы относительно исходных предположений и методов все еще остаются (и, возможно, всегда будут), немногие сейчас оспаривают основную предпосылку о том, что лингвистический анализ письменных текстов может дать ценную информацию и понимание. (Действительно, это было очевидно даже до появления компьютеров: успешное применение текстуального / лингвистического анализа к канону Флетчера Сайрусом Хоем и другими дало четкие результаты в конце 1950-х - начале 1960-х годов.)

Приложения

Применения стилометрии включают литературные исследования, исторические исследования, социальные исследования, а также многие судебно-медицинские исследования. Его также можно применить к компьютерному коду и обнаружению внутреннего плагиата, то есть для обнаружения плагиата на основе изменений стиля письма в документе. Стилометрию также можно использовать для определения того, является ли человек носителем английского языка или нет, по скорости набора текста.

Стилометрия как метод уязвима для искажения текста во время редактирования. Также есть случай, когда автор перенимает разные стили в ходе своей карьеры, как это было продемонстрировано в случае Платона, который выбрал разные стилистические политики, такие как те, которые были приняты для ранних и средних диалогов, посвященных проблеме Сократа.

Текущее исследование

Современная стилометрия использует компьютеры для статистического анализа, а также искусственный интеллект и доступ к растущему корпусу текстов, доступных через Интернет. Программные системы, такие как Signature (бесплатное программное обеспечение, разработанное доктором Питером Милликаном из Оксфордского университета), JGAAP (программа Java Graphical Authorship Attribution Program - бесплатное программное обеспечение, разработанное доктором Патриком Джуолой из Университета Дукесна ), stylo (пакет R с открытым исходным кодом для различных стилометрических данных). анализы, включая атрибуцию авторства, разработанные Maciej Eder, Jan Rybicki и Mike Kestemont ) и Stylene для голландского языка (бесплатное онлайн-программное обеспечение профессора Уолтера Дэлеманса из Университета Антверпена и доктора Вероник Хосте из Университета Гента) делают его использование все более практичным даже для неспециалист.

Академические площадки и мероприятия

Стилометрические методы используются для нескольких академических тем, в основном в качестве дополнения, например, с машинным обучением, обработкой естественного языка и лексикографией.

Судебная лингвистика

Международная ассоциация судебных лингвистов (IAFL) организует двухгодичную конференцию Международной ассоциации судебных лингвистов (13 - е издания в 2016 году в Порте ) и публикует Международный журнал речь, языка и закон с судебно - стилистикой в качестве одной из центральных тем.

AAAI

Ассоциация по улучшению искусственного интеллекта (AAAI) провела несколько мероприятий по субъективному и стилистическому анализу текста.

СКОВОРОДА

Семинары PAN (первоначально анализ плагиата, идентификация авторства и обнаружение почти дубликатов, позже - более общий семинар по выявлению плагиата, авторства и неправомерного использования социального программного обеспечения), организованные с 2007 года в основном в связи с конференциями по доступу к информации, такими как ACM SIGIR, FIRE и КЛЕФ. PAN формулирует общие задачи для обнаружения плагиата, идентификации авторства, гендерной идентификации автора, профилирования авторов, обнаружения вандализма и других связанных задач анализа текста, многие из которых зависят от стилометрии.

Тематические исследования, представляющие интерес

  • В 1439 году Лоренцо Валла показал, что дар Константина был подделкой, аргумент, частично основанный на сравнении латинского языка с тем, что использовалось в подлинных документах 4-го века.
  • В 1952 году шведский священник Дик Хеландер был избран епископом Стренгнеса. Кампания была конкурентной, и Хеландера обвинили в написании серии сотен с лишним анонимных писем с клеветой на других кандидатов электорату епископства Стренгнес. Хеландер был сначала осужден за написание писем и потерял свою должность епископа, но позже был частично реабилитирован. Письма были изучены с использованием ряда стилометрических мер (а также характеристик пишущей машинки), а также различных судебных дел и дальнейших экспертиз, многие из которых были заключены с самим Хеландером в течение лет до его смерти в 1978 году, в которых довольно подробно обсуждался стилометрический метод и его ценность в качестве доказательства..
  • В 1975 году, после того как Рональд Рейган стал губернатором Калифорнии, он начал давать еженедельные радиокомментарии, транслируемые сотням станций. После того как его личные записи были обнародованы в день его 90-летия в 2001 году, в исследовании использовались стилостатистические методы, чтобы определить, какие из этих выступлений были написаны им, а какие - разными помощниками.
  • В 1996 году стилометрический анализ противоречивой книги, написанной псевдонимом « Основные цвета», выполненный профессором колледжа Вассар Дональд Фостер, привлек внимание более широкой аудитории к этой теме после того, как правильно идентифицировал автора как Джо Кляйна. (Этот случай разрешился только после того, как анализ почерка подтвердил авторство.)
  • В 1996 году стилометрические методы были использованы для сравнения манифеста Унабомбера с письмами, написанными одним из подозреваемых, Теодором Качиньским, в результате чего Теодор был задержан, а затем осужден.
  • В апреле 2015 года исследователи, использующие методы стилометрии, определили пьесу « Двойная ложь» как произведение Уильяма Шекспира. Исследователи проанализировали 54 пьесы Шекспира и Джона Флетчера и сравнили среднюю длину предложения, изучили использование необычных слов и количественно оценили сложность и психологическую значимость их языка.
  • В 2016 году Макдональд П. Джексон, почетный профессор английского языка в Оклендском университете, Новая Зеландия и член Королевского общества Новой Зеландии, всю свою академическую карьеру посвятивший анализу атрибуции авторства, написал книгу под названием " Кто написал" «Ночь перед Рождеством» ?: Анализируя отношения Клемента Кларка Мура и Клемента Кларка Мур. Вопрос Генри Ливингстона [20], в котором он оценивает противоположные аргументы и впервые использует методы авторской атрибуции современной компьютерной стилистики для изучения давних противоречий. Джексон использует ряд тестов и вводит новый - статистический анализ фонем; он заключает, что Ливингстон - истинный автор классического произведения.
  • В 2017 году Саймон Фуллер и Джеймс О'Салливан опубликовали исследование, в котором утверждалось, что автор бестселлеров Джеймс Паттерсон ничего не пишет в своих, очевидно, в соавторстве романах. По словам О'Салливан, его сотрудничества с бывшим президентом США Биллом Клинтоном, Президент Отсутствующий, является исключением из этого правила.
  • В 2017 году группа лингвистов, компьютерщиков и ученых проанализировала авторство Елены Ферранте. Основываясь на корпусе, созданном в Падуанском университете, содержащем 150 романов, написанных 40 авторами, они проанализировали стиль Ферранте на основе семи ее романов. Они смогли сравнить ее стиль письма с 39 другими писателями, используя, например, стилус. Вывод был для всех один: Доменико Старноне - тайный автор Елены Ферранте.
  • В 2018 году, Марк Гликман, старший преподаватель кафедры статистики в Гарвардском университете, работал с Райаном песни, бывший студент статистики в Гарварде, и Джейсон Браун, профессор в Университете Далхаузи в Новой Шотландии, применяя стилометрия, чтобы обнаружить, что, скорее всего, Песня Beatles « In My Life » была написана Джоном Ленноном, но с вероятностью 50% Пол Маккартни написал среднюю восьмерку.
  • В 2019 году в рамках проекта ETSO: Стилометрия применительно к Театру Золотого века Испании под руководством Альваро Куэльяра Гонсалеса и Хермана Вега Гарсия-Луенгос (Университет Вальядолида) было собрано более 1200 пьес, посвященных Золотому веку Испании. После применения стилометрического анализа было подтверждено приписывание Mujeres y criados к Лопе де Вега, и проблема авторства была обнаружена в пьесе La monja alférez, приписываемой Пересу де Монтальбану, которая благодаря этому анализу и историческим и филологическим исследованиям была признана в конечном итоге приписывается Хуану Руису де Аларкону.
  • В 2020 году Рэйчел Маккарти и Джеймс О'Салливан утверждали, что Эмили Бронте является истинным автором книги « Грозовой перевал», положив конец предположениям некоторых критиков о том, что роман мог быть написан одним из ее братьев и сестер, в частности, Бранвеллом или Шарлоттой.
  • В 2020 году Хартмут Ильсеманн использовал Rolling Delta и Rolling Classify из программного пакета R Stylo, чтобы показать, что корпус Marlowe стилистически неоднороден и что автор двух Tamburlaines почти не присутствовал в оставшемся официальном корпусе Marlowe,

Данные и методы

Поскольку стилометрия имеет как описательные варианты использования, используемые для характеристики содержимого коллекции, так и идентифицирующие варианты использования, например, определение авторов или категорий текстов, методы, используемые для анализа данных и функций выше, варьируются от методов, созданных для классификации элементов в наборы или для распределения элементов в пространстве вариации функций. Большинство методов являются статистическими по своей природе, например кластерный анализ и дискриминантный анализ, обычно основаны на филологических данных и функциях и являются полезной областью применения современных методов машинного обучения.

В то время как в прошлом стилометрия подчеркивала самые редкие или наиболее яркие элементы текста, современные методы позволяют выделить идентифицирующие шаблоны даже в общих частях речи. Большинство систем основано на лексической статистике, то есть на использовании частотности слов и терминов в тексте для характеристики текста (или его автора). В этом контексте, в отличие от поиска информации, наблюдаемые образцы встречаемости наиболее употребительных слов более интересны, чем актуальные термины, которые встречаются реже.

Первичный стилометрический метод - это инвариант писателя : свойство, общее для всех текстов или, по крайней мере, для всех текстов, достаточно длинных, чтобы допустить анализ, дающий статистически значимые результаты, написанные данным автором. Примером инварианта писателя является частота функциональных слов, используемых автором.

В одном из таких методов текст анализируется, чтобы найти 50 наиболее употребительных слов. Затем текст делится на блоки по 5000 слов, и каждый из блоков анализируется, чтобы определить частоту встречаемости этих 50 слов в этом блоке. Это создает уникальный идентификатор из 50 номеров для каждого фрагмента. Эти числа помещают каждый кусок текста в точку в 50-мерном пространстве. Это 50-мерное пространство выровнено в плоскость с помощью анализа главных компонентов (PCA). В результате отображаются точки, соответствующие авторскому стилю. Если два литературных произведения помещены в одну плоскость, в результирующем шаблоне может быть показано, принадлежат ли оба произведения одному или разным авторам.

1. Гауссовская статистика

Стилометрические данные распределяются по закону Ципфа-Мандельброта. Распределение чрезвычайно резкое и лептокуртичное, поэтому исследователи не могли использовать статистику для решения, например, проблем с установлением авторства. Тем не менее, использование гауссовой статистики вполне возможно при применении преобразования данных.

2. Нейронные сети

Нейронные сети, частный случай методов статистического машинного обучения, использовались для анализа авторства текстов. Тексты с бесспорным авторством используются для обучения нейронной сети с помощью таких процессов, как обратное распространение ошибки, так что ошибка обучения вычисляется и используется для обновления процесса для повышения точности. Посредством процесса, похожего на нелинейную регрессию, сеть получает способность обобщать свою способность распознавания к новым текстам, с которыми она еще не сталкивалась, классифицируя их с установленной степенью уверенности. Такие методы были применены к давним заявлениям о сотрудничестве Шекспира с его современниками Флетчером и Кристофером Марлоу и подтвердили мнение, основанное на более традиционной науке, о том, что такое сотрудничество действительно имело место.

Исследование 1999 года показало, что программа нейронной сети достигла 70% точности в определении авторства стихотворений, которые она еще не анализировала. В этом исследовании Vrije Universiteit изучалась идентификация стихов трех голландских авторов с использованием только буквенных последовательностей, таких как «логово».

В исследовании использовались сети глубокого убеждения (DBN) для модели проверки авторства, применимой для непрерывной аутентификации (CA).

Одна из проблем этого метода анализа состоит в том, что сеть может стать предвзятой на основе ее обучающего набора, возможно, выбирая авторов, которых сеть анализировала чаще.

3. Генетические алгоритмы

Генетический алгоритм является другой метод машинного обучения используется для стилометрия. Это включает в себя метод, который начинается с набора правил. Примером правила может быть: «Если но встречается более 1,7 раз на каждую тысячу слов, значит, текст является автором X». Программа представлена ​​с текстом и использует правила для определения авторства. Правила проверяются по набору известных текстов, и каждому правилу присваивается оценка пригодности. 50 правил с наименьшими оценками не используются. В оставшиеся 50 правил внесены небольшие изменения и введено 50 новых правил. Это повторяется до тех пор, пока разработанные правила не приписывают тексты правильно.

4. Редкие пары

Один из методов определения стиля называется «редкие пары» и основан на индивидуальных привычках сочетания слов. Использование определенных слов для конкретного автора может быть идиосинкратически связано с использованием других, предсказуемых слов.

Указание авторства в обмене мгновенными сообщениями

Распространение Интернета сместило внимание атрибуции авторства к онлайн-текстам (веб-страницы, блоги и т. Д.), Электронным сообщениям (электронная почта, твиты, сообщения и т. Д.) И другим типам письменной информации, которая намного короче средняя книга, гораздо менее формальная и более разнообразная с точки зрения выразительных элементов, таких как цвета, макет, шрифты, графика, смайлы и т. д. В отчете сообщалось о попытках учесть такие аспекты на уровне как структуры, так и синтаксиса. Кроме того, содержательные и идиосинкразические подсказки (например, тематические модели и инструменты проверки грамматики) были введены, чтобы выявить преднамеренный стилистический выбор.

Стандартные стилометрические функции использовались для категоризации содержимого чата посредством обмена мгновенными сообщениями или поведения участников, но попытки идентифицировать участников чата по-прежнему немногочисленны и происходят рано. Кроме того, не учитывалось сходство между разговорами и взаимодействиями в чате, но это основное различие между данными чата и любым другим типом письменной информации.

Смотрите также

Примечания

использованная литература

дальнейшее чтение

См. Также академический журнал « Литературные и лингвистические вычисления» (издаваемый Оксфордским университетом ) и журнал « Языковые ресурсы и оценка».

внешние ссылки

Последняя правка сделана 2023-04-20 09:41:06
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте