Очистка данных

редактировать

Метод извлечения данных

Очистка данных - это метод, при котором компьютерная программа извлекает данные из удобочитаемого вывода, поступающего из другой программы.

Содержание

1 Описание
2 Технические варианты
- 2.1 Очистка экрана
- 2.2 Очистка веб-страниц
- 2.3 Анализ отчетов
3 См. Также
4 Ссылки
5 Дополнительная литература

Описание

Обычно передача данных между программами выполняется с использованием структур данных, подходящих для автоматической обработки компьютерами, а не люди. Такие форматы обмена и протоколы обычно жестко структурированы, хорошо документированы, легко анализируются и сводят к минимуму двусмысленность. Очень часто эти передачи вообще не удобочитаемы.

Таким образом, ключевым элементом, который отличает очистку данных от обычного синтаксического анализа, является то, что очищаемый вывод предназначен для отображения конечному пользователю, а не как ввод в другую программу и поэтому обычно не документируется и не структурируется для удобного анализа. При извлечении данных часто игнорируются двоичные данные (обычно изображения или мультимедийные данные), форматирование отображения, избыточные метки, лишние комментарии и другая информация, которая либо не имеет отношения к делу, либо препятствует автоматической обработке.

Сбор данных чаще всего выполняется либо для взаимодействия с устаревшей системой, у которой нет другого механизма, совместимого с текущим оборудованием, либо для взаимодействия с третьим -партийная система, не обеспечивающая более удобного API. Во втором случае оператор сторонней системы часто будет рассматривать очистку экрана как нежелательную по таким причинам, как увеличение нагрузки на систему , потеря рекламы дохода., или потеря контроля над информационным содержанием.

Очистка данных обычно считается специальной, неэлегантной техникой, часто используемой только как «крайнее средство», когда нет другого механизма для обмена данными. Помимо более высокого уровня программирования и накладных расходов на обработку, выходные данные, предназначенные для потребления человеком, часто меняют структуру. Люди могут легко справиться с этим, но компьютерная программа может сообщать о чепухе, если ей сказали читать данные в определенном формате или месте и не зная, как проверить свои результаты на достоверность.

Технические варианты

Очистка экрана

Фрагмент экрана и интерфейс очистки экрана (синяя рамка с красной стрелкой) для настройки процесса сбора данных.

Хотя использование физического " немой терминал "IBM 3270s постепенно уменьшается, поскольку все больше и больше приложений для мэйнфреймов приобретают Web интерфейсы, некоторые Web-приложения просто продолжают использовать технику" очистки экрана «для захвата старых экранов и передачи данных в современные интерфейсы.

Очистка экрана обычно связана с программным сбором визуальных данных из источника, а не с анализом данных, как при очистке веб-страниц. Первоначально очистка экрана относилась к практике чтения текстовых данных с экрана компьютерного дисплея терминала. Обычно это делалось путем чтения памяти терминала через его вспомогательный порт или путем подключения выходного порта терминала одной компьютерной системы к входному порту другого. Термин очистка экрана также обычно используется для обозначения двунаправленного обмена данными. Это могут быть простые случаи, когда управляющая программа перемещается через пользовательский интерфейс, или более сложные сценарии, когда управляющая программа вводит данные в интерфейс, предназначенный для использования человеком.

В качестве конкретного примера классического скребка экрана рассмотрим гипотетическую устаревшую систему, датируемую 1960-ми годами - рассвет компьютеризированной обработки данных. Компьютерные пользовательские интерфейсы с той эпохи часто были просто текстовыми тупыми терминалами, которые были не чем иным, как виртуальными телепринтерами (такие системы используются до сих пор, по разным причинам). Желание связать такую систему с более современными системами является обычным явлением. Для надежного решения часто требуются вещи, которые больше не доступны, например исходный код, системная документация, API или программисты. с опытом работы в компьютерной системе 50-летней давности. В таких случаях единственное возможное решение может заключаться в написании скребка экрана, который «притворяется» пользователем терминала. Скребок экрана может подключаться к устаревшей системе через Telnet, имитировать нажатия клавиш, необходимые для навигации по старому пользовательскому интерфейсу, обработки результирующего вывода на дисплее, извлечения требуемых данных и их передачи. к современной системе. Сложная и надежная реализация такого рода, построенная на платформе, обеспечивающей управление и контроль, необходимые для крупного предприятия, например. контроль изменений, безопасность, управление пользователями, защита данных, операционный аудит, балансировка нагрузки, управление очередями и т. д. - можно сказать, что это пример программного обеспечения для автоматизации роботизированных процессов, называемого RPA или RPAAI для самообслуживания. управляемая RPA 2.0 на основе искусственного интеллекта.

В 1980-х годах такие поставщики финансовых данных, как Reuters, Telerate и Quotron, отображали данные в 24 × 80 формат, предназначенный для человеческого читателя. Пользователи этих данных, в частности инвестиционные банки, написали приложения для захвата и преобразования этих символьных данных в числовые данные для включения в вычисления для принятия торговых решений без повторного ввода данных. Обычным термином для этой практики, особенно в Соединенном Королевстве, было измельчение страниц, поскольку можно было представить, что результаты прошли через уничтожитель бумаги. Для внутреннего пользования Reuters использовало термин «логизированный» для этого процесса преобразования, запустив сложную компьютерную систему на VAX / VMS под названием Logicizer.

Более современные методы очистки экрана включают в себя захват растровых данных из screen и прогоняя его с помощью механизма OCR или для некоторых специализированных автоматизированных систем тестирования, сравнивая растровые данные экрана с ожидаемыми результатами. В случае приложений GUI это можно комбинировать с запросом графических элементов управления путем программного получения ссылок на лежащие в их основе программные объекты. Последовательность экранов автоматически фиксируется и преобразуется в базу данных.

Другая современная адаптация к этим методам заключается в использовании вместо последовательности экранов в качестве входных данных набора изображений или файлов PDF, поэтому есть некоторые совпадения с общим «парсингом документов» и интеллектуальным анализом отчетов. техники.

Существует множество инструментов, которые можно использовать для очистки экрана.

Очистка веб-страниц

Веб-страницы созданы с использованием языков разметки на основе текста (HTML и XHTML ) и часто содержат множество полезных данных в текстовой форме. Однако большинство веб-страниц предназначены для людей конечных пользователей, а не для простоты автоматизированного использования. Из-за этого были созданы наборы инструментов для очистки веб-контента. парсер - это API или инструмент для извлечения данных с веб-сайта. Такие компании, как Amazon AWS и Google, бесплатно предоставляют конечным пользователям инструменты, сервисы и общедоступные данные для парсинга. Новые формы веб-парсинга включают прослушивание потоков данных с веб-серверов. Например, JSON обычно используется в качестве транспортного механизма хранения между клиентом и веб-сервером.

Недавно компании разработали системы парсинга веб-страниц, основанные на использовании методов компьютерного зрения и обработки естественного языка для имитации обработки человеком, который происходит при просмотре веб-страницы. для автоматического извлечения полезной информации.

Крупные веб-сайты обычно используют защитные алгоритмы для защиты своих данных от веб-парсеров и ограничения количества запросов, которые IP или IP-сеть может отправлять. Это вызвало непрекращающуюся борьбу между разработчиками веб-сайтов и разработчиками парсинга.

Анализ отчетов

Анализ отчетов - это извлечение данных из компьютерных отчетов, удобочитаемых человеком. Обычное извлечение данных требует подключения к действующей исходной системе, подходящих стандартов подключения или API и, как правило, сложных запросов. Используя стандартные параметры отчетов исходной системы и направляя вывод в буферный файл вместо принтера, можно создавать статические отчеты, подходящие для автономного анализа с помощью интеллектуального анализа отчетов. Такой подход позволяет избежать интенсивного использования ЦП в рабочее время, может минимизировать затраты на лицензию конечного пользователя для клиентов ERP и может предложить очень быстрое прототипирование и разработку индивидуальных отчеты. В то время как очистка данных и веб-анализ включают взаимодействие с динамическим выводом, интеллектуальный анализ отчетов включает извлечение данных из файлов в удобочитаемом формате, таком как HTML, PDF или текст. Их можно легко сгенерировать практически из любой системы, перехватив подачу данных на принтер. Этот подход может обеспечить быстрый и простой путь к получению данных без необходимости программирования API для исходной системы.

См. Также

Ссылки

Дополнительная литература

Хеменуэй, Кевин и Калишайн, Тара. Spidering Hacks. Кембридж, Массачусетс: O'Reilly, 2003. ISBN 0-596-00577-6.