Банк деревьев

редактировать
Большинство синтаксических банков деревьев аннотируют варианты либо структуры фраз (слева), либо структуры зависимостей ( справа).

В лингвистике treebank - это проанализированный текстовый корпус, который аннотирует синтаксический или семантическая структура предложения. Создание анализируемых корпусов в начале 1990-х произвело революцию в компьютерной лингвистике, которая извлекла выгоду из крупномасштабных эмпирических данных. Использование данных банка деревьев стало важным с тех пор, как был опубликован первый крупномасштабный банк деревьев The Penn Treebank. Однако, несмотря на то, что они зародились в компьютерной лингвистике, ценность береговых деревьев становится все более широко признанной в лингвистических исследованиях в целом. Например, аннотированные данные банка деревьев сыграли решающую роль в синтаксических исследованиях, чтобы проверить лингвистические теории структуры предложений на большом количестве встречающихся в природе примеров.

Содержание
  • 1 Этимология
  • 2 Конструкция
  • 3 Приложения
  • 4 Семантические древовидные группы
  • 5 Древовидные банки глубокого синтаксиса
  • 6 Синтаксические древовидные банки
  • 7 Инструменты поиска
  • 8 См. Также
  • 9 Источники
Этимология

Термин treebank был придуман лингвистом Джеффри Личем в 1980-х годах по аналогии с другими репозиториями, такими как seedbank или банк крови. Это связано с тем, что и синтаксическая, и семантическая структура обычно композиционно представлены как древовидная структура . Термин «проанализированный корпус» часто используется как синоним термина «древовидный банк», с акцентом на примат предложений, а не деревьев.

Построение

Древовидные группы часто создаются поверх корпуса, который уже был аннотирован тегами части речи. В свою очередь, банки деревьев иногда дополняются семантической или другой лингвистической информацией. Древовидные банки могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение синтаксической структурой, или полуавтоматически, когда синтаксический анализатор назначает некоторую синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка - это трудоемкий проект, на который команды дипломированных лингвистов могут уйти несколько лет. Уровень детализации аннотаций и широта лингвистической выборки определяют сложность задачи и время, необходимое для построения банка дерева.

Пример дерева структуры фраз для John loves Mary Гибридное дерево интересов / зависимостей из Quranic Arabic Corpus

Некоторые банки деревьев следуют определенной лингвистической теории в своих синтаксических аннотациях (например, BulTreeBank следует за HPSG ), но большинство из них пытается быть менее конкретным в теории. Однако можно выделить две основные группы: банки деревьев, которые аннотируют структуру фраз (например, Penn Treebank или ICE-GB ) и те, которые аннотируют структура зависимостей (например, Prague Dependency Treebank или Quranic Arabic Dependency Treebank ).

Важно разъяснить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Берега деревьев обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в разных форматах файлов. Например, синтаксический анализ для Джон любит Мэри, показанный на рисунке справа, может быть представлен в текстовом файле простыми помеченными скобками, как это (после обозначения Penn Treebank ):

(S (NP (NNP John)) (VP (VPZ любит) (NP (NNP Mary))) (..))

Этот тип представления популярен, потому что он не требует больших ресурсов, и древовидная структура относительно легко читается без программных инструментов. Однако по мере того, как корпуса становятся все более сложными, могут быть предпочтительны другие форматы файлов. Альтернативы включают специфичные для банка деревьев схемы XML, пронумерованные отступы и различные типы обозначений противостояния.

Приложения

С точки зрения компьютерной лингвистики, банки деревьев использовались для разработки современных систем обработки естественного языка, таких как частично - тегеры речи, парсеры, семантические анализаторы и системы машинного перевода. Большинство вычислительных систем используют данные золотого стандарта дерева деревьев. Тем не менее, автоматически анализируемый корпус, который не исправляется лингвистами-людьми, все еще может быть полезен. Он может предоставить свидетельство частоты правил для анализатора. Синтаксический анализатор можно улучшить, применив его к большим объемам текста и собрав частоты правил. Однако должно быть очевидно, что только в процессе исправления и дополнения корпуса вручную можно идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.

В лингвистике корпусов группы деревьев используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений). После анализа корпус будет содержать частотные свидетельства, показывающие, насколько часто используются различные грамматические структуры. Берега деревьев также служат доказательством охвата и поддерживают открытие новых, неожиданных грамматических явлений.

Другое использование групп деревьев в теоретической лингвистике и психолингвистике - это свидетельства взаимодействия. Заполненный древовидный банк может помочь лингвистам провести эксперименты относительно того, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение о формировании других, и попытаться понять, как говорящие и писатели принимают решения, составляя предложения. Исследование взаимодействия особенно плодотворно в качестве дополнительных слоев аннотации, например семантические, прагматические, добавляются в корпус. Затем можно оценить влияние несинтаксических явлений на выбор грамматики.

Семантические древовидные банки

Семантические древовидные банки - это совокупность предложений на естественном языке, аннотированных смысловым представлением. Эти ресурсы используют формальное представление семантической структуры каждого предложения. Семантические древовидные группы различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank, разработанный в Университете Гронингена и аннотированный с использованием теории репрезентации дискурса. Примером мелкого семантического банка дерева является PropBank, который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логической форме.

ЯзыкTreebankСемантический формализмРаспространение / Лицензия
Китайский Китайский универсальные предложения PropBank семантикаCC BY-NC-SA 3.0 США
английский Абстрактное представление смысла (AMR) БанкГлубокая семантика?
Английский FrameNet Мелкая семантика?
Английский Универсальная концептуальная когнитивная аннотация (UCCA)Глубокая семантика?
Английский Древовидный банк команд роботов Глубинная семантика?
Английский Groningen Meaning Bank Глубокая семантика?
Английский Проект DeepBank Глубокая семантика?
Английский Семантика Treebank Parsed Corpus Глубинная семантика?
Английский RoboCup Corpus Глубокая семантика?
Английский Геоквери Глубокий семантика?
английский PropBank P ropBank семантикаразные лицензии
финский финский универсальные предложения PropBank семантикаCC BY-NC-SA 3.0 US
финский Финский PropBank PropBank семантикаCC BY-SA 4.0
Французский Французский универсальные предложения PropBank семантикаCC BY- NC-SA 3.0 US
Немецкий Немецкие универсальные предложения PropBank семантикаCC BY-NC-SA 3.0 US
Итальянский Итальянский универсальные предложения PropBank семантикаCC BY-NC-SA 3.0 США
португальский португальский PortLex PropBank семантика?
португальский португальский универсальные предложения PropBank семантикаCC BY-NC-SA 3.0 US
испанский испанский универсальные предложения PropBank семантикаCC BY-NC-SA 3.0 US
Турецкий Турецкий PropBank PropBank семантикаCC BY-NC-SA 4.0
Древовидные банки глубокого синтаксиса

Древовидные банки глубокого синтаксиса - это лежащие в основе на стыке между синтаксис и семантика, где структуру представления можно интерпретировать как граф, представляющий предмет бесконечных фраз, извлечения, конструкции it-clef, многоточия общего предмета и так далее. (для расширения)

Синтаксические банки деревьев

Многие синтаксические банки деревьев были разработаны для самых разных языков:

ЯзыкTreebankСинтаксический формализмРаспространение / Лицензия
Abaza Универсальные зависимости, ATBЗависимость CC BY-SA
Африкаанс Универсальные зависимости, AfriBoomsЗависимость CC BY-SA
Аккадский Универсальные зависимости, PISANDUBЗависимость CC BY-SA
Албанский Универсальные зависимости, TSAЗависимость CC BY-SA
Амхарский Универсальные зависимости, ATTЗависимость CC BY-SA
Древнегреческий Универсальные зависимости, ПерсейЗависимость CC BY-NC-SA
Древнегреческий Универсальные зависимости, PROIELЗависимость CC BY-NC-SA
Греческий (древний) Древнегреческий банк деревьев Зависимость Открытый исходный код (Лицензия Creative Commons )
Греческий (древний) P ROIEL Treebank Dependency Открытый исходный код (лицензия Creative Commons )
арабский Columbia Arabic Treebank (CATiB) Dependency Linguistic Data Consortium
арабский пражский арабский Банк дерева зависимостей (PADT) Зависимость Консорциум лингвистических данных
Арабский Универсальные зависимости, NYUADЗависимость CC BY-SA
Арабский Универсальные зависимости, PADTЗависимость CC BY-NC-SA
Арабский Универсальные зависимости, PUDЗависимость CC BY-SA
Арабский Penn Арабский Treebank Структура фраз Консорциум лингвистических данных
Армянский Универсальные зависимости, ArmTDPЗависимость CC BY-SA
Ассирийский (неоарамейский) Универсальные зависимости, ASЗависимость CC BY-SA
Бамбара Универсальные зависимости, CRBЗависимость CC BY-SA
Баскский Универсальные зависимости, BDTЗависимость CC BY-NC-SA
Белорусский Универсальные зависимости, HSEЗависимость CC BY-SA
Бходжпури Универсальные зависимости, BhEnЗависимость CC BY-SA
Бходжпури Универсальные зависимости, BHTBЗависимость CC BY-SA
Бретон Универсальные зависимости, KEBЗависимость CC BY-SA
Болгарский Универсальные зависимости, BTBЗависимость CC BY-NC-SA
Болгарский BulTreeBank HPSG Свободно доступен для исследования
Бурятский Универсальные зависимости, BDTЗависимость CC BY- SA
Кантонский Универсальные зависимости, HKЗависимость CC BY-SA
Каталонский Cat3LB Структура фразы Свободно доступен для исследования
Каталонский Универсальные зависимости, AnCoraЗависимость GPL
Китайский Sinica Treebank Грамматика регистра Недоступно в свободном доступе
Китайский Универсальные зависимости, CFLЗависимость CC BY-SA
Китайская Универсальные зависимости, GSDЗависимость CC BY-SA
Китайская Универсальные зависимости, GSDSimpЗависимость CC BY-SA
Китайский Универсальные зависимости, HKЗависимость CC BY-SA
Китайская Универсальные зависимости, PUDЗависимость CC BY-SA
Китайский Penn Chinese Treebank Структура фраз Linguistic Data Consortium
Chinese Chinese Dependency Treebank Dependency Linguistic Data Консорциум
арабский (классический) Quranic Arabic Dependency Treebank (QADT) (Quranic Arabic Corpus )Dependency Открытый исходный код (общая общественная лицензия GNU )
Классический армянский PROIEL Treebank Dependency Открытый исходный код (лицензия Creative Commons )
Coptic Universal Dependencies, Coptic ScriptoriumDependency CC BY
Хорватский Croatian Dependency Treebank Dependency Открытый исходный код (Лицензия Creative Commons )
Хорватский Универсальные зависимости, SETDependency CC BY-SA
Чешский Prague Dependency Treebank Dependency Открытый исходный код (Creative Commo лицензия ns )
Чешский Универсальные зависимости, CACЗависимость CC BY-SA
Чешский Универсальные зависимости, CLTTЗависимость CC BY -SA
Чешский Универсальные зависимости, FicTreeЗависимость CC BY-NC-SA
Чешский Универсальные зависимости, PDTЗависимость CC BY-NC-SA
Чешский Универсальные зависимости, PUDЗависимость CC BY-SA
Датский Датский Dependency Treebank Зависимость Открытый исходный код (Общая общественная лицензия GNU )
Датский Дендрарий: Синтаксический древовидный корпус датского языка Структура фраз Лицензионный сбор
Датский Универсальные зависимости, DDTЗависимость CC BY-SA
Датский Универсальные зависимости, DTBЗависимость CC BY-SA
Голландский Разговорный голландский корпус (CGN) Фраза структура Лицензионный сбор
Голландский Универсальные зависимости, AlpinoЗависимость CC BY-SA
Голландский Универсальные зависимости, LassySmallЗависимость CC BY-SA
Голландский LASSY Small and Large Dependency Лицензионный сбор
Голландский Alpino Treebank Dependency Открытый исходный код (GNU General Public License )
English CCGbank Комбинированная категориальная грамматика Консорциум лингвистических данных
Английский LinGO Redwoods HPSG ?
Английский Lancaster Parsed Corpus Структура фраз ?
Английский Prague English Dependency Treebank Dependency Linguistic Data Consortium
English Universal Dependencies, BhEnDependency CC BY-SA
English Universal Dependencies, ESLЗависимость CC BY-SA
Английский Универсальные зависимости, EWTЗависимость CC BY-SA
Английский Универсальные зависимости, GUMЗависимость CC BY-NC-SA
Английский Универсальные зависимости, GUMRedditЗависимость CC BY
Английский Универсальные зависимости, LinESЗависимость CC BY-NC-SA
Английский Универсальные зависимости, ParTUTЗависимость C C BY-NC-SA
Английский Универсальные зависимости, МестоименияЗависимость CC BY-SA
Английский Универсальные зависимости, PUDЗависимость CC BY-SA
Английский Treebank Semantics Parsed Corpus Структура фраз Открытый исходный код (Лицензия Creative Commons )
Английский язык Christine Corpus Структура фраз Свободно доступен для исследования
Английский язык Люси Корпус Структура фраз Свободно доступен для исследования
Английский язык Susanne Corpus Структура фраз Свободно доступен для исследования
Английский BLLIP WSJ corpus Структура фраз Консорциум лингвистических данных
Английский Tübingen Treebank of English / Spontaneous Speech (TüBa-E / S) HPSG Свободно доступен для исследования
Английский Диахронический корпус современного разговорного английского языка (DCPSE) Структура фраз Лицензионный сбор
английский Британский компонент Международного корпуса английского языка (ICE-GB) Структура фраз Стоимость лицензии
Английский The PARC 700 Dependency Bank Dependency ?
English Yahoo Query Treebank Dependency Свободно доступен для исследования
English Penn Treebank Phrase structure Linguistic Data Consortium
Английский Multi-Treebank Структура фраз Доступно в Интернете для сравнения
Английский CHILDES Brown Eve corpus с аннотацией зависимостей Dependency Открытый исходный код (Лицензия Creative Commons )
Английский SMULTRON - Parallel Treebank EN-DE-SV Структура фраз Свободно доступен для исследования
Erzya Universal Dependencies, JRDependency CC BY-SA
Эстонский Arborest Фразовая структура ?
Эстонский Текстовый корпус с синтаксическим анализом и устранением неоднозначности Зависимость Свободно доступен для исследования
Эстонский Универсальные зависимости, EDTЗависимость CC BY-NC-SA
Эстонский Универсальные зависимости, EWTЗависимость CC BY-NC-SA
Фарерские острова Универсальные зависимости, FarPaHCЗависимость CC BY-SA
Фарерские острова Универсальные зависимости, OFTЗависимость CC BY-SA
Финский Банк деревьев зависимости Турку (TDT) Зависимость Открытый исходный код (Лицензия Creative Commons )
Финский Универсальные зависимости, FTBЗависимость CC BY
Финский Универсальные зависимости, PUDDependency CC BY-SA
Финский Universal Dependencies, TDTDependency CC BY-SA
Французский (разговорный) Rhapsodie Зависимость и макросинтаксическая аннотацияОткрытый исходный код (Лицензия Creative Commons )
Французский L'Arboratoire Структура фраз ?
Французский Универсальные зависимости, CrapBankЗависимость CC BY-SA
Французский Универсальные зависимости, FQBЗависимость GPL
Французский Универсальные зависимости, FTBЗависимость GPL
Французский Универсальные зависимости, GSDЗависимость CC BY-SA
Французский Универсальные зависимости, ParTUTЗависимость CC BY-NC-SA
Французский Универсальные зависимости, PUDЗависимость CC BY-SA
Французский Универсальные зависимости, SequoiaЗависимость GPL
Французский Универсальные зависимости, РазговорныйЗависимость CC BY-SA
Французский Париж 7 Структура фразы Свободно доступно для исследования
Французский Free French Treebank Структура фраз Лицензия с открытым исходным кодом LGPL-LR
Французский Sequoia Treebank Структура фраз Зависимость Лицензия с открытым исходным кодом LGPL-LR
Галисийский Универсальные зависимости, CTGЗависимость CC BY-NC-SA
Галицкий Универсальные зависимости, TreeGalDependency GPL
German Hamburg Dependency Treebank (HDT) Dependency Свободно доступен для исследования
Немецкий Универсальные зависимости, GSDDependency CC BY-SA
Немецкий Универсальные зависимости, LITЗависимость CC BY-NC-SA
Немецкий Универсальные зависимости, PUDЗависимость CC BY-SA
Немецкий SMULTRON - Parallel Treebank EN-DE-SV Структура фраз Свободно доступен для исследования
Немецкий NEGRA Структура фразы Свободно доступен для исследования
Немецкий TIGER Структура фразы Свободно доступен для исследования
Немецкий Tübingen Treebank of German / Spontaneous Speech (TüBa-D / S) Структура фразы Свободно доступен для исследования
Немецкий Tübingen Treebank of Written German (TüBa-D / Z) Структура фразы Свободно доступен для исследования
Немецкий Тюбингенский частично разобранный корпус письменного немецкого языка (TüPP-D / Z) Структура фраз Лицензионный сбор
Gothic PROIEL Treebank Зависимость Открытый исходный код (лицензия Creative Commons )
Готика Универсальные зависимости, PROIELЗависимость CC BY-NC-SA
Греческий Древовидный банк зависимостей Зависимость Недоступно
Греческий Универсальные зависимости, GDTЗависимости CC BY-NC-SA
Heb rew Universal Dependencies, HTBDependency CC BY-NC-SA
Hebrew Hebrew Dependencies Treebank Dependency Открытый исходный код (GNU для широкой публики лицензия )
Универсальные зависимости, HIENCSЗависимость CC BY-SA
Хинди Универсальные зависимости, HDTBЗависимость CC BY-NC-SA
Хинди Универсальные зависимости, PUDЗависимость CC BY-SA
Хинди AnnCorra Зависимость ?
Английский (исторический) Penn Parsed Corpora of Исторический английский ;Структура фраз Консорциум лингвистических данных (по состоянию на апрель 2020 г.)
Английский (исторический) Разборный корпус древнеанглийской прозы Йорк-Торонто-Хельсинки (YCOE) Фраза структура Свободно доступен для исследования
Французский (исторический) Corpus MCVF Фразовая структура Свободно доступен для исследования
Португальский (исторический) Tycho Brahe corpus Фразовая структура ?
Венгерский Универсальные зависимости, СегедЗависимость CC BY-NC-SA
Венгерский ian Венгерский Treebank Структура фраз ?
Исландский IcePaHC - Исландский анализируемый исторический корпус Структура фраз Открытый исходный код (Стандартная общественная лицензия ограниченного применения GNU )
Исландский Универсальные зависимости, IcePaHCЗависимость CC BY-SA
Исландский Универсальные зависимости, PUDЗависимость CC BY-SA
Индонезийский Универсальные зависимости, GSDЗависимость CC BY-SA
Индонезийский Универсальные зависимости, PUDЗависимость CC BY-SA
Ирландский Универсальные зависимости, IDTЗависимость CC BY-SA
Итальянский ISST - Итальянский банк синтаксически-семантического дерева Структура фраз и зависимость Лицензионный сбор
Итальянский MIDT (Объединенный итальянский банк дерева зависимостей), полученный в результате слияния и гармонизации дерева дерева TUT и ISST-CoNLL / TANL зависимость Свободно доступен для исследования
Итальянский VIT - Venice Italian Treebank Структура фраз и зависимость Li Плата за cense
Итальянский Универсальные зависимости, ISDTЗависимость CC BY-NC-SA
Итальянский Универсальные зависимости, ParTUTЗависимость CC BY-NC-SA
Итальянский Универсальные зависимости, PoSTWITAЗависимость CC BY-NC-SA
Итальянский Универсальные зависимости, PUDЗависимость CC BY-SA
Итальянские Универсальные зависимости, TWITTIROЗависимость CC BY-SA
Итальянские Универсальные зависимости, VITЗависимость CC BY-NC-SA
Итальянский Итальянский банк синтаксически-семантического дерева для общей задачи CoNLL-2007 (ISST-CoNLL) зависимость Свободно доступен для исследования
итальянский SUT - Siena University Treebank ??
итальянский TUT - Treebank Туринского университета Dependency Открытый исходный код (лицензия Creative Commons )
итальянский ISDT (итальянский Stanford Dependency Treebank) зависимость Свободно доступен для исследования
Японский Kyoto Text Corpus ??
Японский Универсальные зависимости, B CCWJЗависимость CC BY-NC-SA
Японский Универсальные зависимости, GSDЗависимость CC BY-SA
Японский Универсальные зависимости, KTCЗависимость CC BY-SA
Японский Универсальные зависимости, СовременнаяЗависимость CC BY-NC-ND
Японский Универсальные зависимости, PUDЗависимость CC BY-SA
Японский Keyaki Treebank Структура фраз Открытый исходный код (Лицензия Creative Commons )
Японский Tübingen Древовидный банк японского языка / спонтанной речи (TüBa-J / S) Структура фраз Свободно доступен для исследования
Японский язык Корпус зависимостей ATR Зависимость ?
Карельский Универсальные зависимости, KKPPЗависимость CC BY-SA
Казахский Универсальные зависимости, KTBЗависимость CC BY-SA
Универсальные зависимости, UHЗависимость CC BY-SA
Универсальные зависимости, IKDPЗависимость CC BY-SA
Универсальные зависимости, РешеткаЗависимость C C BY-SA
Корейский Универсальные зависимости, GSDЗависимости CC BY-SA
Корейский Универсальные зависимости, KaistЗависимости CC BY-SA
Корейский Универсальные зависимости, PennЗависимость CC BY-SA
Корейский Универсальные зависимости, PUDЗависимость CC BY-SA
Корейский Универсальные зависимости, СеджонЗависимость CC BY-SA
Корейский Корейский Treebank Структура фраз Консорциум лингвистических данных
Курманджи Универсальные зависимости, MGЗависимости CC BY-SA
Латинский Универсальные зависимости, ITTBЗависимости CC BY-NC- SA
Latin Универсальные зависимости, LLCTЗависимость CC BY-SA
Latin Универсальные зависимости, PerseusЗависимость CC BY- NC-SA
Латинский Универсальные зависимости, PROIELЗависимость CC BY-NC-SA
Латинский Индекс Thomisticus Treebank Зависимость Открытый исходный код ( Лицензия Creative Commons )
Latin PROIEL Treebank Dependency Открытый исходный код (Лицензия Creative Commons )
Latin Latin Dependency Treebank Dependency Открытый исходный код (Лицензия Creative Commons )
Latvian Универсальные зависимости, LVTBЗависимость CC BY-SA
Литовский Универсальные зависимости, ALKSNISЗависимость CC BY-SA
Литовский Универсальные зависимости, HSEЗависимость CC BY-SA
Livvi Универсальные зависимости, KKPPЗависимость CC BY-SA
Magahi Универсальные зависимости, MGTBЗависимость CC BY-SA
Мальтийский Универсальные зависимости, MUDTЗависимость CC BY-SA
Маратхи Универсальные зависимости, UFALЗависимость CC BY-SA
Mbya Guarani Универсальные зависимости, DooleyЗависимость CC BY-NC-SA
Мбья Гуарани Универсальные зависимости, ТомасЗависимость CC BY-NC-SA
Среднеирландский Универсальные зависимости, CritMITBЗависимость CC BY- SA
Среднеирландский Универсальные зависимости, DipMITBЗависимость CC BY-SA
Мокша Универсальные зависимости, JRЗависимость CC BY -SA
Naija Universal Dependencies, NSCDependency CC BY-SA
North Sami Universal Dependencies, GiellaDependency CC BY-SA
Норвежский Древовидная инфраструктура INESS LFG ?
Норвежский Универсальные зависимости, BokmaalЗависимость CC BY-SA
Норвежский Универсальный Зависимости, НюнорскЗависимость CC BY-SA
Норвежский Универсальные зависимости, НюнорскLIAЗависимость CC BY-SA
Старославянский язык Универсальные зависимости, PROIELЗависимость CC BY-NC-SA
Старославянский язык TOROT Treebank Зависимость Открытый исходный код (Лицензия Creative Commons )
Старофранцузский Универсальные зависимости, SRCMFЗависимость CC BY-NC-SA
Старорусский Универсальные зависимости, RNCЗависимость CC BY-SA
Древнерусский Универсальные зависимости, TOROTЗависимость CC BY-NC-SA
Древнерусский TOROT Treebank Зависимость Открыть источник (Лицензия Creative Commons )
Персидский Персидский Dependency Treebank (PerDT) Dependency Свободно доступен для исследования
Персидский PerTreeBank HPSG Свободно доступен для исследование
Персидский Универсальные зависимости, СераджиЗависимость CC BY-SA
Польский Treebank / Test Suite для польского языка HPSG ?
Польский Универсальные зависимости, LFGЗависимость GPL
Польский Универсальные зависимости, PDBЗависимость CC BY-NC-SA
Польский Универсальные зависимости, PUDЗависимость CC BY-SA
Польский Składnica Структура фраз и Зависимость Открытый исходный код (GNU general публичная лицензия )
португальский универсальные зависимости, Bosqueзависимость CC BY-SA
португальский универсальные зависимости, GSDзависимый ency CC BY-SA
Португальский Универсальные зависимости, PUDЗависимость CC BY-SA
Португальский Projecto Floresta Sintá (c) tica Зависимость, Структура фразы Открытый исходный код (Стандартная общедоступная лицензия GNU )
Румынский Румынский Dependency Treebank Зависимость ?
Румынский Универсальные зависимости, НестандартныйЗависимость CC BY-SA
Румынский Универсальные зависимости, RRTЗависимость CC BY-SA
Румынский Универсальные зависимости, SiMoNERoЗависимость CC BY-SA
Русский Универсальные зависимости, GSDЗависимость CC BY-SA
Русский Универсальные зависимости, PUDЗависимость CC BY-SA
Русский Универсальные зависимости, SynTagRusЗависимость CC BY-NC-SA
Русский Универсальные зависимости, ТайгаЗависимость CC BY-SA
Русский SynTagRus Dependency Treebank (Русский Национальный Корпус )Зависимость Свободно доступен для исследования
Санскрит Универсальные зависимости, UFALЗависимости CC BY-SA
Санскрит Универсальные зависимости, ведическиеЗависимости CC BY-SA
Шотландский гэльский Универсальные зависимости, ARCOSGЗависимость CC BY-SA
Сербский Универсальные зависимости, SETЗависимость CC BY-SA
Синдхи Универсальные зависимости, MazharDootioЗависимость CC BY-SA
Сколт-саами Универсальные зависимости, ГиллагасЗависимость CC BY- SA
Словацкий Универсальные зависимости, SNKЗависимость CC BY-SA
Словенская Словенская зависимость Treebank Зависимость Свободно доступны для исследования
Словенский Универсальные зависимости, SSJЗависимость CC BY-NC-SA
Словенский Универсальные зависимости, SSTЗависимость CC BY-NC- SA
Испанский Cast3LB Структура фразы и зависимость Свободно доступны для исследования
Испанский Универсальные зависимости, AnCoraDep endency GPL
испанский универсальные зависимости, GSDзависимость CC BY-SA
испанский универсальные зависимости, PUDзависимость CC BY-SA
Испанский UAM Treebank of Spanish Структура фраз Свободно доступна для исследования
Шведский Talbanken05 Структура фраз и зависимость Свободно доступен для исследования
Шведский Шведский Treebank Структура фраз Свободно доступен для исследования
Шведский Универсальные зависимости, LinESЗависимость CC BY -NC-SA
Шведский Универсальные зависимости, PUDЗависимость CC BY-SA
Шведский Универсальные зависимости, TalbankenЗависимость CC BY-SA
Шведский SMULTRON - Parallel Treebank EN-DE-SV Структура фраз Свободно доступен для исследования
Универсальные зависимости, SSLCЗависимость CC BY-SA
Швейцарский немецкий Универсальные зависимости, UZHЗависимость CC BY-SA
Тагальский Universal Depe ndencies, TRGDependency CC BY-SA
Tagalog Universal Dependencies, UgnayanDependencies CC BY-NC-SA
Тамильский Universal Dependencies, TTBDependency CC BY-NC-SA
Telugu Universal Dependencies, MTGDependency CC BY-SA
Thai NAiST Thai Treebank Dependency Open source (GNU general public license )
Thai Universal Dependencies, PUDDependency CC BY-SA
Turkish METU-Sabanci Turkish Treebank Dependency Freely available for research
Turkish Universal Dependencies, BOUNDependency CC BY-SA
Turkish Универсальные зависимости, GBЗависимость CC BY-SA
Турецкий Универсальные зависимости, IMSTЗависимость CC BY-NC-SA
Турецкий Универсальные зависимости, PUDЗависимость CC BY-SA
Украинский Институт Украины, НПО Золотой стандарт Зависимость Открытый исходный код (лицензия Creative Commons )
Украинский Универсальные зависимости, IUЗависимость CC BY-NC-SA
Верхний Сорби Универсальные зависимости, UFALЗависимость CC BY-SA
Урду NU-FAST Treebank Структура фраз Обратитесь в службу Computational Learning Strategies Practices
Urdu The URDU.KON-TB Treebank Phrase and Hyper Структура зависимостей Связаться со специалистами Computational Learning Strategies Practices
Urdu Universal Dependencies, UDTBDependencies CC BY-NC-SA
Uyghur Universal Dependencies, UDTЗависимость CC BY-SA
Вьетнамский Универсальные зависимости, VTBЗависимость CC BY -SA
Вьетнамский Вьетнамский Treebank Структура фраз Свободно доступен для исследования
Вьетнамский Вьетнамский Dependency Treebank Dependency Свободно доступен для исследования
Warlpiri Универсальные зависимости, UFALЗависимость CC BY-SA
Валлийский Универсальные зависимости, CCGЗависимость CC BY -SA
Wolof Универсальные зависимости, WTBЗависимость CC BY-SA
Йоруба Универсальные зависимости, YTBЗависимость CC BY-SA

Для облегчения При дальнейших исследованиях между многоязычными задачами некоторые исследователи обсудили универсальную схему аннотации для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества разных корпусов деревьев. Например, универсальный подход к аннотации для дерева зависимостей; и универсальный подход к аннотации для древовидных банков структуры фраз.

Инструменты поиска

Одним из ключевых способов извлечения свидетельств из древовидной структуры являются инструменты поиска. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Сложность пользовательских интерфейсов варьируется от систем запросов на основе выражений, предназначенных для компьютерных программистов, до сред полного исследования, предназначенных для лингвистов общего профиля. Wallis (2008) подробно обсуждает принципы поиска в банках деревьев и рассматривает современное состояние.

См. Также
Ссылки
Последняя правка сделана 2021-06-11 10:43:06
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте