Сравнение парсеров HTML

редактировать

Анализаторы HTML - это программное обеспечение для автоматического языка разметки гипертекста (HTML) синтаксический анализ. У них есть две основные цели:

  • Обход HTML: предложить программистам интерфейс для легкого доступа и изменения «строкового кода HTML». Канонический пример: парсеры DOM.
  • HTML чистый: исправить неверный HTML и улучшить макет и стиль отступа итоговой разметки. Канонический пример: HTML Tidy.
ParserЛицензия Язык (и) реализацииПоследняя дата *Разбор HTMLСовместимость с HTML5 анализЧистый HTML **Обновить HTML ***
HTML Tidy Лицензия W3C ANSI C 01.03.2017ДаДаДаДа
HtmlUnit Лицензия Apache 2.0Java 24.08.2019Да?НетНет
libxml2 HTMLparserЛицензия MIT C 2017-11-02ДаНет??
ParserЛицензия Язык (и) реализацииПоследняя дата *Разбор HTMLРазбор, совместимый с HTML5Очистить HTML **Обновить HTML ***
* Дата последнего выпуска (существенных изменений).
** очистить (создание стандартных веб-страниц, уменьшение спама и т. Д..) и очистить (удалить излишки презентационных тегов, удалить код XSS и т. д.) HTML-код.
*** Обновляет HTML4.X до XHTML или HTML5, преобразовывая устаревшие теги (например, CENTER) в действительные. единицы (например, DIV с style = "text-align: center;").
Refe rences
Последняя правка сделана 2021-05-15 08:00:57
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте