Устранение неоднозначности границы предложения

редактировать
десятичную точку, многоточие или адрес электронной почты, среди других возможностей. Около 47% точек в Wall Street Journal корпус обозначают сокращения. Вопросительные знаки ивосклицательные знаки могут быть одинаково неоднозначными из-за использовать в смайликах , компьютерном коде и сленге.

. Такие языки, как японский и китайский, имеют однозначные маркеры окончания предложений.

4 Ссылки

5 Внешние ссылки

Стратегии

Стандартный 'vanilla ', чтобы найти конец предложения:
  • (a) Если это точка, она заканчивает предложение.
    (b) Если предыдущий токен находится в составленном вручную списке сокращений , то предложение не заканчивается.
    (c) Если следующий токен пишется с заглавной буквы, он завершает предложение.

    Эта стратегия дает правильные примерно 95% предложений. Такие вещи, как сокращенные имена, например «

    Д.Х. Лоуренс » (с пробелами между отдельными словами, образующими полное имя), своеобразное орфографическое написание, используемое в стилистических целях (часто относящееся к одному понятию, например, к названию развлекательного продукта например, «.hack // SIGN ») и использование нестандартной пунктуации (или нестандартное использование пунктуации) в тексте часто подпадают под оставшиеся 5%. Другой подход заключается в автоматическом изучении набора правил из набора документов, в которых разрывы предложений отмечены заранее. Решения основаны на
  • модели максимальной энтропии . Архитектура SATZ использует нейронную сеть для устранения неоднозначности границ предложения и обеспечивает точность 98,5%.
    Программное обеспечение
  • Примеры использования Perl-совместимых
  • PCRE ")
    онлайн-использования, библиотек и API
    Sentence.pm - perl
  • SATZ - Адаптивная система сегментации предложений - Дэвид Д. Палмер - Наборы инструментов C
  • , которые включают обнаружение предложений
    Последняя правка сделана 2021-06-07 10:25:32
    Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).