Очистка веб-страниц

редактировать

Очистка данных, используемая для извлечения данных с веб-сайтов

Очистка веб-страниц, сбор данных из веб-страниц или извлечение веб-данных - это извлечение данных, используемое для извлечения данных с веб-сайтов. Программное обеспечение для очистки веб-страниц может обращаться к World Wide Web напрямую с помощью протокола передачи гипертекста или через веб-браузер. Хотя веб-скрапинг может выполняться вручную пользователем программного обеспечения, этот термин обычно относится к автоматизированным процессам, реализованным с помощью бота или поискового робота. Это форма копирования, при которой определенные данные собираются и копируются из Интернета, обычно в центральную локальную базу данных или электронную таблицу, для последующего извлечения или анализа.

Веб-очистка веб-страницы включает ее выборку и извлечение из нее. Получение - это загрузка страницы (что делает браузер, когда пользователь просматривает страницу). Следовательно, сканирование веб-страниц является основным компонентом очистки веб-страниц для получения страниц для последующей обработки. После извлечения может происходить извлечение. Содержимое страницы может быть проанализировано, выполнено поиск, переформатировано, его данные могут быть скопированы в электронную таблицу и т. Д. Веб-парсеры обычно берут что-то со страницы, чтобы использовать это для других целей в другом месте. Примером может служить поиск и копирование имен и номеров телефонов или компаний и их URL-адресов в список (сбор контактов).

Веб-парсинг используется для парсинга контактов и как компонент приложений, используемых для веб-индексирования, веб-майнинга и данных. добыча полезных ископаемых, онлайн-мониторинг изменения цен и сравнение цен, анализ продуктов (для просмотра соревнований), сбор списков недвижимости, мониторинг погодных данных, обнаружение изменений веб-сайтов, исследования, отслеживание присутствия в Интернете и репутации, веб-мэшап и интеграция веб-данных.

Веб-страницы создаются с использованием текстовых языков разметки (HTML и XHTML ) и часто содержат множество полезных данных в текстовой форме. Однако большинство веб-страниц предназначены для людей конечных пользователей, а не для простоты автоматизированного использования. В результате были разработаны специальные инструменты и программное обеспечение для облегчения очистки веб-страниц.

Новые формы парсинга веб-страниц предполагают прослушивание потоков данных с веб-серверов. Например, JSON обычно используется в качестве транспортного механизма хранения между клиентом и веб-сервером.

Существуют методы, которые используют некоторые веб-сайты для предотвращения парсинга, например обнаружение и запрет ботам сканировать (просматривать) свои страницы. В ответ существуют системы парсинга веб-страниц, которые используют методы синтаксического анализа DOM, компьютерного зрения и обработки естественного языка для имитации просмотра человеком, чтобы обеспечить сбор веб-страниц. контент для автономного анализа.

Содержание

1 История
2 Методы
- 2.1 Копирование и вставка человеком
- 2.2 Сопоставление текстового шаблона
- 2.3 HTTP-программирование
- 2.4 Анализ HTML
- 2.5 Анализ DOM
- 2.6 Вертикальное агрегирование
- 2.7 Распознавание семантической аннотации
- 2.8 Анализ веб-страницы с компьютерным зрением
3 Программное обеспечение
4 Юридические вопросы
- 4.1 США
- 4.2 ЕС
- 4.3 Австралия
5 Методы предотвращения парсинга веб-страниц
6 См. Также
7 Ссылки

История

История парсинга веб-страниц восходит к тому времени, когда зародился Интернет.

После рождения World Wide Web в 1989 году, первый веб-робот, World Wide Web Wanderer, был создан в Июнь 1993 года, который был предназначен только для измерения размера сети.
В декабре 1993 года была запущена первая поисковая машина на основе поискового робота, JumpStation.. Поскольку в сети было не так много веб-сайтов, поисковые системы в то время полагались на своих администраторов веб-сайтов для сбора и редактирования ссылок в определенном формате. Для сравнения, JumpStation совершила новый скачок, став первой поисковой системой в Интернете, которая полагалась на веб-робота.
В 2000 году появился первый веб-API и поисковый робот по API . API означает интерфейс прикладного программирования . Это интерфейс, который значительно упрощает разработку программы, предоставляя строительные блоки. В 2000 году Salesforce и eBay запустили свой собственный API, с помощью которого программисты могли получать доступ и загружать некоторые данные, доступные общественности. С тех пор многие веб-сайты предлагают веб-API для доступа людей к их общедоступной базе данных.

Методы

Веб-скрапинг - это процесс автоматического анализа данных или сбора информации из всемирной паутины. Это область активных разработок, разделяющих общую цель с видением семантической сети, амбициозной инициативой, которая все еще требует прорывов в обработке текста, семантическом понимании, искусственном интеллекте и взаимодействии человека и компьютера. Текущие решения для веб-скрапинга варьируются от специальных, требующих человеческих усилий, до полностью автоматизированных систем, способных с ограничениями преобразовывать целые веб-сайты в структурированную информацию.

Копирование и вставка человеком

Самая простая форма извлечения информации из веб-страниц - это ручное копирование и вставка данных с веб-страницы в текстовый файл или электронную таблицу. Иногда даже лучшая технология веб-скрапинга не может заменить ручную проверку и копирование и вставку, выполняемую человеком, а иногда это может быть единственным работающим решением, когда веб-сайты для очистки явно устанавливают барьеры для предотвращения автоматизации машин.

Сопоставление текстового шаблона

Простой, но мощный подход к извлечению информации с веб-страниц может быть основан на команде UNIX grep или на средствах сопоставления регулярного выражения языки программирования (например, Perl или Python ).

HTTP-программирование

Статические и динамические веб-страницы могут быть получены путем отправки HTTP-запросов на удаленный веб-сервер с использованием программирования сокетов.

HTML-синтаксический анализ

Многие веб-сайты имеют большие коллекции страниц, динамически генерируемых из базового структурированного источника, такого как база данных. Данные одной и той же категории обычно кодируются в похожие страницы с помощью общего сценария или шаблона. При интеллектуальном анализе данных программа, которая обнаруживает такие шаблоны в конкретном источнике информации, извлекает его содержимое и переводит в реляционную форму, называется оболочкой. Алгоритмы генерации оболочки предполагают, что входные страницы системы индукции оболочки соответствуют общему шаблону и что их можно легко идентифицировать с точки зрения общей схемы URL. Более того, некоторые языки запросов полуструктурированных данных, такие как XQuery и HTQL, могут использоваться для анализа HTML-страниц, а также для извлечения и преобразования содержимого страницы.

Парсинг DOM

Путем встраивания полноценного веб-браузера, такого как Internet Explorer или элемент управления браузера Mozilla, программы могут получать динамический контент, генерируемый клиентскими скриптами. Эти элементы управления браузера также анализируют веб-страницы в дерево DOM, на основе которого программы могут извлекать части страниц. Такие языки, как Xpath, можно использовать для анализа результирующего дерева DOM.

Вертикальное агрегирование

Есть несколько компаний, которые разработали специальные вертикальные уборочные платформы. Эти платформы создают и контролируют множество «ботов» для определенных вертикалей без какого-либо «человека в курсе» (без прямого участия человека) и без работы, связанной с конкретным целевым сайтом. Подготовка включает создание базы знаний для всей вертикали, а затем платформа автоматически создает ботов. Надежность платформы измеряется качеством информации, которую она извлекает (обычно количеством полей), и ее масштабируемостью (насколько быстро она может масштабироваться до сотен или тысяч сайтов). Эта масштабируемость в основном используется для нацеливания на длинный хвост сайтов, которые обычные агрегаторы считают сложными или слишком трудоемкими для сбора контента.

Распознавание семантической аннотации

Очищаемые страницы могут включать метаданные или семантические разметки и аннотации, которые можно использовать для поиска определенных фрагментов данных. Если аннотации встроены в страницы, как это делает Microformat, этот метод можно рассматривать как частный случай синтаксического анализа DOM. В другом случае аннотации, организованные в семантический уровень, хранятся и управляются отдельно от веб-страниц, поэтому скребки могут извлекать схему данных и инструкции с этого уровня перед очисткой страниц.

Анализ веб-страниц с использованием компьютерного зрения

Существуют попытки использования машинного обучения и компьютерного зрения, которые пытаются идентифицировать и извлекать информацию с веб-страниц с помощью интерпретировать страницы визуально, как это может сделать человек.

Программное обеспечение

Существует множество доступных программных инструментов, которые можно использовать для настройки решений для веб-скрапинга. Это программное обеспечение может пытаться автоматически распознавать структуру данных страницы или предоставлять интерфейс записи, который устраняет необходимость вручную писать код веб-скрейпинга, или некоторые функции сценариев, которые можно использовать для извлечения и преобразования контента, и интерфейсы баз данных, которые могут хранить очищенные данные в локальных базах данных. Некоторое программное обеспечение для очистки веб-страниц также можно использовать для извлечения данных напрямую из API.

Правовые вопросы

Законность парсинга веб-страниц варьируется во всем мире. В общем, сбор данных может противоречить условиям использования некоторых веб-сайтов, но возможность принудительного исполнения этих условий неясна.

Соединенные Штаты

В Соединенных Штатах, Владельцы веб-сайтов могут использовать три основных судебных иска для предотвращения нежелательного парсинга веб-сайтов: (1) нарушение авторских прав (компиляция), (2) нарушение Закона о компьютерном мошенничестве и злоупотреблении («CFAA»), и (3) посягательство на движимое имущество. Однако эффективность этих требований зависит от соответствия различным критериям, и прецедентное право все еще развивается. Например, в отношении авторского права, хотя прямое копирование оригинального выражения во многих случаях будет незаконным, в Соединенных Штатах суды постановили в деле Feist Publications против Rural Telephone Service, что дублирование фактов допустимо.

США суды признали, что пользователи «скребков» или «роботов» могут быть привлечены к ответственности за совершение посягательства на движимое имущество, что подразумевает, что компьютерная система сама считается личной собственностью, в отношении которой нарушает владение скребком. Самый известный из этих случаев, eBay против Bidder's Edge, привел к судебному запрету, предписывающему Bidder's Edge прекратить доступ, сбор и индексирование аукционов с веб-сайта eBay. Этот случай связан с автоматическим размещением ставок, известным как аукционный снайпер. Однако для того, чтобы добиться успеха по иску о нарушении права владения движимым имуществом, истец должен продемонстрировать, что ответчик намеренно и без разрешения препятствовал собственническому интересу истца в компьютерной системы и что несанкционированное использование ответчиком нанесло ущерб истцу. Не все дела о веб-пауках, доведенные до суда, рассматривались как нарушение владения движимым имуществом.

Одним из первых крупных тестов скрапинга с экрана участвовал American Airlines (AA) и фирма FareChase. AA успешно добилась судебного запрета в суде Техаса, запретив FareChase продавать программное обеспечение, которое позволяет пользователям сравнивать онлайн-тарифы, если программное обеспечение также выполняет поиск на веб-сайте AA. Авиакомпания утверждала, что программное обеспечение веб-поиска FareChase проникло на серверы AA, когда оно собирало общедоступные данные. FareChase подала апелляцию в марте 2003 года. К июню FareChase и AA договорились об урегулировании, и апелляция была отклонена.

Southwest Airlines также оспорила методы очистки экрана и привлекла как FareChase, так и другую фирму Outtask, в судебном иске. Southwest Airlines утверждала, что очистка экрана является незаконной, поскольку является примером «компьютерного мошенничества и злоупотребления» и привела к «повреждению и потере» и «несанкционированному доступу» к сайту Southwest. Это также является «вмешательством в деловые отношения», «нарушением права владения» и «вредоносным доступом с компьютера». Они также утверждали, что очистка экрана представляет собой то, что юридически известно как «незаконное присвоение и неосновательное обогащение», а также является нарушением пользовательского соглашения веб-сайта. Outtask отверг все эти претензии, заявив, что в данном случае преобладающим законом должен быть Закон об авторском праве США, и что в соответствии с авторским правом удаляемые фрагменты информации не подлежат защите авторских прав. Хотя дела так и не были разрешены в Верховном суде США, FareChase в конечном итоге была закрыта материнской компанией Yahoo!, а Outtask была куплена компанией Concur, производящей командировочные расходы. В 2012 году стартап под названием 3Taps удалил с Craigslist объявления о продаже жилья. Craigslist разослал 3Taps письмо о запрещении противоправных действий и заблокировал их IP-адреса, а затем подал в суд в Craigslist v. 3Taps. Суд постановил, что письма о запрете и блокировке IP-адресов было достаточно для Craigslist, чтобы обоснованно заявить, что 3Taps нарушили Закон о компьютерном мошенничестве и злоупотреблениях.

. Хотя это ранние решения по очистке, и теории ответственности не единообразно, трудно игнорировать тенденцию к тому, что суды готовы защищать частный контент на коммерческих сайтах от использования, которое нежелательно для владельцев таких сайтов. Однако степень защиты такого контента не определена и будет зависеть от типа доступа, сделанного парсером, объема информации, к которой осуществляется доступ и копируется, степени, в которой доступ отрицательно влияет на систему владельца сайта, а также от типов и способ запрета на такое поведение.

В то время как закон в этой области становится более строгим, организации, рассматривающие возможность использования программ очистки для доступа к общедоступному веб-сайту, должны также рассмотреть вопрос о том, разрешено ли такое действие, путем проверки условий использования и других условия или уведомления, размещенные на сайте или доступные через него. В постановлении 2010 года по делу Cvent, Inc. v. Eventbrite, Inc. В окружном суде США в восточном округе Вирджинии суд постановил, что условия использования должны быть доведены до сведения пользователей для обтекания страниц договор или лицензия должны быть исполнены. В деле 2014 года, поданном в Окружной суд Соединенных Штатов Восточного округа Пенсильвании, сайт электронной коммерции QVC возражал против того, что агрегатор покупок, подобный Pinterest, Resultly "очистил сайт QVC". для получения данных о ценах в реальном времени. QVC утверждает, что в результате "чрезмерное сканирование" розничного сайта QVC (якобы отправка 200-300 поисковых запросов на веб-сайт QVC в минуту, иногда до 36 000 запросов в минуту) привело к сбою сайта QVC на два дня, что привело к потере продаж для QVC.. В жалобе QVC утверждается, что ответчик замаскировал свой веб-сканер, чтобы замаскировать исходный IP-адрес, и таким образом помешал QVC быстро устранить проблему. Это особенно интересный случай соскабливания, потому что QVC требует возмещения ущерба из-за недоступности их веб-сайта, что, по утверждению QVC, было вызвано Resultly.

На веб-сайте истца в течение периода этого судебного разбирательства ссылка с условиями использования отображается среди всех ссылок сайта, внизу страницы, как и на большинстве сайтов в Интернете. Это постановление противоречит постановлению Ирландии, описанному ниже. Суд также отклонил аргумент истца о том, что ограничения на перенос информации при просмотре имели исковую силу ввиду принятия Вирджинией Закона о едином документе о транзакциях с компьютерной информацией (UCITA) - единообразного закона, который, по мнению многих, одобрял общие методы заключения договоров на перенос информации при просмотре.

В деле Facebook, Inc. против Power Ventures, Inc. окружной суд в 2012 году постановил, что Power Ventures не может очищать страницы Facebook от имени пользователя Facebook. Дело находится в апелляционном порядке, и Electronic Frontier Foundation в 2015 году подали заявление с просьбой отменить его. В деле Associated Press против Meltwater U.S. Holdings, Inc. суд в США признал Meltwater ответственным за сбор и переиздание новостной информации от Associated Press, но суд в Соединенном Королевстве вынес решение в пользу Meltwater.

Интернет-архив собирает и распространяет значительное количество общедоступных веб-страниц, что не считается нарушением законов об авторских правах.

ЕС

В феврале 2006 года Морской и коммерческий суд Дании (Копенгаген) постановил, что систематическое сканирование, индексирование и глубокие ссылки на портале сайта ofir.dk сайта недвижимости Home.dk не допускаются. не противоречит датскому законодательству или директиве Европейского Союза о базах данных.

В феврале 2010 г. по делу, усложненному вопросами юрисдикции, Высокий суд Ирландии вынес вердикт, который иллюстрирует начальное состояние развития прецедентное право. В деле Ryanair Ltd против Billigfluege.de GmbH Высокий суд Ирландии признал юридически обязательным соглашение Ryanair. В отличие от выводов Окружного суда Восточного округа Вирджинии и Датского морского и коммерческого суда, судья Майкл Ханна постановил, что гиперссылка на условия и положения Ryanair была явно видна, и что размещение бремя ответственности пользователя за согласие с условиями и положениями для получения доступа к онлайн-сервисам достаточно для заключения договорных отношений. Решение находится на апелляции в Верховном суде Ирландии.

30 апреля 2020 года Французское управление по защите данных (CNIL) опубликовало новые правила по парсингу веб-страниц. В правилах CNIL четко указано, что общедоступные данные по-прежнему являются личными данными и не могут быть повторно использованы без ведома лица, которому эти данные принадлежат.

Австралия

В Австралии Закон о спаме 2003 запрещает некоторые формы сбора информации в Интернете, хотя это относится только к адресам электронной почты.

Способы предотвращения парсинг веб-страниц

Администратор веб-сайта может использовать различные меры, чтобы остановить или замедлить работу бота. Некоторые методы включают:

Блокирование IP-адреса вручную или на основе таких критериев, как геолокация и DNSRBL. Это также заблокирует любой просмотр с этого адреса.
Отключение любой веб-службы API, которую может открыть система веб-сайта.
Иногда боты объявляют, кто они есть (с использованием пользовательского агента строк ) и могут быть заблокированы на этом основании с помощью robots.txt ; «googlebot » является примером. Другие боты не делают различий между собой и человеком, использующим браузер.
Ботов можно заблокировать, отслеживая избыточный трафик
Иногда ботов можно заблокировать с помощью инструментов, чтобы убедиться, что это реальный человек сайт, например CAPTCHA. Иногда боты кодируются таким образом, чтобы явно нарушать определенные шаблоны CAPTCHA, или могут использовать сторонние сервисы, которые используют человеческий труд для чтения и ответа в режиме реального времени на запросы CAPTCHA.
Коммерческие услуги по борьбе с ботами: компании предлагают антиботы и антискребковые услуги для веб-сайтов. Некоторые брандмауэры веб-приложений также имеют ограниченные возможности обнаружения ботов. Однако многие такие решения не очень эффективны.

Обнаружение ботов с помощью приманки или другого метода для определения IP-адресов автоматизированных поисковых роботов.
Обфускация с помощью CSS-спрайтов для отображения таких данных, как номера телефонов или адреса электронной почты, за счет доступности для пользователей программ чтения с экрана.
Поскольку боты полагаются на согласованность во внешнем виде. конечный код целевого веб-сайта, добавление небольших изменений в HTML / CSS, окружающий важные данные и элементы навигации, потребует большего участия человека в первоначальной настройке бота, и, если все будет сделано эффективно, может сделать целевой веб-сайт слишком сложным для очистки из-за ограниченная возможность автоматизировать процесс сканирования.
Веб-сайты могут объявлять, разрешено ли сканирование в файле robots.txt, и разрешать частичный доступ, ограничивать скорость сканирования, указывать оптимальное время для сканирование и др.