Очистка веб-страниц, сбор данных из веб-страниц или извлечение веб-данных - это извлечение данных, используемое для извлечения данных с веб-сайтов. Программное обеспечение для очистки веб-страниц может обращаться к World Wide Web напрямую с помощью протокола передачи гипертекста или через веб-браузер. Хотя веб-скрапинг может выполняться вручную пользователем программного обеспечения, этот термин обычно относится к автоматизированным процессам, реализованным с помощью бота или поискового робота. Это форма копирования, при которой определенные данные собираются и копируются из Интернета, обычно в центральную локальную базу данных или электронную таблицу, для последующего извлечения или анализа.
Веб-очистка веб-страницы включает ее выборку и извлечение из нее. Получение - это загрузка страницы (что делает браузер, когда пользователь просматривает страницу). Следовательно, сканирование веб-страниц является основным компонентом очистки веб-страниц для получения страниц для последующей обработки. После извлечения может происходить извлечение. Содержимое страницы может быть проанализировано, выполнено поиск, переформатировано, его данные могут быть скопированы в электронную таблицу и т. Д. Веб-парсеры обычно берут что-то со страницы, чтобы использовать это для других целей в другом месте. Примером может служить поиск и копирование имен и номеров телефонов или компаний и их URL-адресов в список (сбор контактов).
Веб-парсинг используется для парсинга контактов и как компонент приложений, используемых для веб-индексирования, веб-майнинга и данных. добыча полезных ископаемых, онлайн-мониторинг изменения цен и сравнение цен, анализ продуктов (для просмотра соревнований), сбор списков недвижимости, мониторинг погодных данных, обнаружение изменений веб-сайтов, исследования, отслеживание присутствия в Интернете и репутации, веб-мэшап и интеграция веб-данных.
Веб-страницы создаются с использованием текстовых языков разметки (HTML и XHTML ) и часто содержат множество полезных данных в текстовой форме. Однако большинство веб-страниц предназначены для людей конечных пользователей, а не для простоты автоматизированного использования. В результате были разработаны специальные инструменты и программное обеспечение для облегчения очистки веб-страниц.
Новые формы парсинга веб-страниц предполагают прослушивание потоков данных с веб-серверов. Например, JSON обычно используется в качестве транспортного механизма хранения между клиентом и веб-сервером.
Существуют методы, которые используют некоторые веб-сайты для предотвращения парсинга, например обнаружение и запрет ботам сканировать (просматривать) свои страницы. В ответ существуют системы парсинга веб-страниц, которые используют методы синтаксического анализа DOM, компьютерного зрения и обработки естественного языка для имитации просмотра человеком, чтобы обеспечить сбор веб-страниц. контент для автономного анализа.
История парсинга веб-страниц восходит к тому времени, когда зародился Интернет.
Веб-скрапинг - это процесс автоматического анализа данных или сбора информации из всемирной паутины. Это область активных разработок, разделяющих общую цель с видением семантической сети, амбициозной инициативой, которая все еще требует прорывов в обработке текста, семантическом понимании, искусственном интеллекте и взаимодействии человека и компьютера. Текущие решения для веб-скрапинга варьируются от специальных, требующих человеческих усилий, до полностью автоматизированных систем, способных с ограничениями преобразовывать целые веб-сайты в структурированную информацию.
Самая простая форма извлечения информации из веб-страниц - это ручное копирование и вставка данных с веб-страницы в текстовый файл или электронную таблицу. Иногда даже лучшая технология веб-скрапинга не может заменить ручную проверку и копирование и вставку, выполняемую человеком, а иногда это может быть единственным работающим решением, когда веб-сайты для очистки явно устанавливают барьеры для предотвращения автоматизации машин.
.
Простой, но мощный подход к извлечению информации с веб-страниц может быть основан на команде UNIX grep или на средствах сопоставления регулярного выражения языки программирования (например, Perl или Python ).
Статические и динамические веб-страницы могут быть получены путем отправки HTTP-запросов на удаленный веб-сервер с использованием программирования сокетов.
Многие веб-сайты имеют большие коллекции страниц, динамически генерируемых из базового структурированного источника, такого как база данных. Данные одной и той же категории обычно кодируются в похожие страницы с помощью общего сценария или шаблона. При интеллектуальном анализе данных программа, которая обнаруживает такие шаблоны в конкретном источнике информации, извлекает его содержимое и переводит в реляционную форму, называется оболочкой. Алгоритмы генерации оболочки предполагают, что входные страницы системы индукции оболочки соответствуют общему шаблону и что их можно легко идентифицировать с точки зрения общей схемы URL. Более того, некоторые языки запросов полуструктурированных данных, такие как XQuery и HTQL, могут использоваться для анализа HTML-страниц, а также для извлечения и преобразования содержимого страницы.
Путем встраивания полноценного веб-браузера, такого как Internet Explorer или элемент управления браузера Mozilla, программы могут получать динамический контент, генерируемый клиентскими скриптами. Эти элементы управления браузера также анализируют веб-страницы в дерево DOM, на основе которого программы могут извлекать части страниц. Такие языки, как Xpath, можно использовать для анализа результирующего дерева DOM.
Есть несколько компаний, которые разработали специальные вертикальные уборочные платформы. Эти платформы создают и контролируют множество «ботов» для определенных вертикалей без какого-либо «человека в курсе» (без прямого участия человека) и без работы, связанной с конкретным целевым сайтом. Подготовка включает создание базы знаний для всей вертикали, а затем платформа автоматически создает ботов. Надежность платформы измеряется качеством информации, которую она извлекает (обычно количеством полей), и ее масштабируемостью (насколько быстро она может масштабироваться до сотен или тысяч сайтов). Эта масштабируемость в основном используется для нацеливания на длинный хвост сайтов, которые обычные агрегаторы считают сложными или слишком трудоемкими для сбора контента.
Очищаемые страницы могут включать метаданные или семантические разметки и аннотации, которые можно использовать для поиска определенных фрагментов данных. Если аннотации встроены в страницы, как это делает Microformat, этот метод можно рассматривать как частный случай синтаксического анализа DOM. В другом случае аннотации, организованные в семантический уровень, хранятся и управляются отдельно от веб-страниц, поэтому скребки могут извлекать схему данных и инструкции с этого уровня перед очисткой страниц.
Существуют попытки использования машинного обучения и компьютерного зрения, которые пытаются идентифицировать и извлекать информацию с веб-страниц с помощью интерпретировать страницы визуально, как это может сделать человек.
Существует множество доступных программных инструментов, которые можно использовать для настройки решений для веб-скрапинга. Это программное обеспечение может пытаться автоматически распознавать структуру данных страницы или предоставлять интерфейс записи, который устраняет необходимость вручную писать код веб-скрейпинга, или некоторые функции сценариев, которые можно использовать для извлечения и преобразования контента, и интерфейсы баз данных, которые могут хранить очищенные данные в локальных базах данных. Некоторое программное обеспечение для очистки веб-страниц также можно использовать для извлечения данных напрямую из API.
Законность парсинга веб-страниц варьируется во всем мире. В общем, сбор данных может противоречить условиям использования некоторых веб-сайтов, но возможность принудительного исполнения этих условий неясна.
В Соединенных Штатах, Владельцы веб-сайтов могут использовать три основных судебных иска для предотвращения нежелательного парсинга веб-сайтов: (1) нарушение авторских прав (компиляция), (2) нарушение Закона о компьютерном мошенничестве и злоупотреблении («CFAA»), и (3) посягательство на движимое имущество. Однако эффективность этих требований зависит от соответствия различным критериям, и прецедентное право все еще развивается. Например, в отношении авторского права, хотя прямое копирование оригинального выражения во многих случаях будет незаконным, в Соединенных Штатах суды постановили в деле Feist Publications против Rural Telephone Service, что дублирование фактов допустимо.
США суды признали, что пользователи «скребков» или «роботов» могут быть привлечены к ответственности за совершение посягательства на движимое имущество, что подразумевает, что компьютерная система сама считается личной собственностью, в отношении которой нарушает владение скребком. Самый известный из этих случаев, eBay против Bidder's Edge, привел к судебному запрету, предписывающему Bidder's Edge прекратить доступ, сбор и индексирование аукционов с веб-сайта eBay. Этот случай связан с автоматическим размещением ставок, известным как аукционный снайпер. Однако для того, чтобы добиться успеха по иску о нарушении права владения движимым имуществом, истец должен продемонстрировать, что ответчик намеренно и без разрешения препятствовал собственническому интересу истца в компьютерной системы и что несанкционированное использование ответчиком нанесло ущерб истцу. Не все дела о веб-пауках, доведенные до суда, рассматривались как нарушение владения движимым имуществом.
Одним из первых крупных тестов скрапинга с экрана участвовал American Airlines (AA) и фирма FareChase. AA успешно добилась судебного запрета в суде Техаса, запретив FareChase продавать программное обеспечение, которое позволяет пользователям сравнивать онлайн-тарифы, если программное обеспечение также выполняет поиск на веб-сайте AA. Авиакомпания утверждала, что программное обеспечение веб-поиска FareChase проникло на серверы AA, когда оно собирало общедоступные данные. FareChase подала апелляцию в марте 2003 года. К июню FareChase и AA договорились об урегулировании, и апелляция была отклонена.
Southwest Airlines также оспорила методы очистки экрана и привлекла как FareChase, так и другую фирму Outtask, в судебном иске. Southwest Airlines утверждала, что очистка экрана является незаконной, поскольку является примером «компьютерного мошенничества и злоупотребления» и привела к «повреждению и потере» и «несанкционированному доступу» к сайту Southwest. Это также является «вмешательством в деловые отношения», «нарушением права владения» и «вредоносным доступом с компьютера». Они также утверждали, что очистка экрана представляет собой то, что юридически известно как «незаконное присвоение и неосновательное обогащение», а также является нарушением пользовательского соглашения веб-сайта. Outtask отверг все эти претензии, заявив, что в данном случае преобладающим законом должен быть Закон об авторском праве США, и что в соответствии с авторским правом удаляемые фрагменты информации не подлежат защите авторских прав. Хотя дела так и не были разрешены в Верховном суде США, FareChase в конечном итоге была закрыта материнской компанией Yahoo!, а Outtask была куплена компанией Concur, производящей командировочные расходы. В 2012 году стартап под названием 3Taps удалил с Craigslist объявления о продаже жилья. Craigslist разослал 3Taps письмо о запрещении противоправных действий и заблокировал их IP-адреса, а затем подал в суд в Craigslist v. 3Taps. Суд постановил, что письма о запрете и блокировке IP-адресов было достаточно для Craigslist, чтобы обоснованно заявить, что 3Taps нарушили Закон о компьютерном мошенничестве и злоупотреблениях.
. Хотя это ранние решения по очистке, и теории ответственности не единообразно, трудно игнорировать тенденцию к тому, что суды готовы защищать частный контент на коммерческих сайтах от использования, которое нежелательно для владельцев таких сайтов. Однако степень защиты такого контента не определена и будет зависеть от типа доступа, сделанного парсером, объема информации, к которой осуществляется доступ и копируется, степени, в которой доступ отрицательно влияет на систему владельца сайта, а также от типов и способ запрета на такое поведение.
В то время как закон в этой области становится более строгим, организации, рассматривающие возможность использования программ очистки для доступа к общедоступному веб-сайту, должны также рассмотреть вопрос о том, разрешено ли такое действие, путем проверки условий использования и других условия или уведомления, размещенные на сайте или доступные через него. В постановлении 2010 года по делу Cvent, Inc. v. Eventbrite, Inc. В окружном суде США в восточном округе Вирджинии суд постановил, что условия использования должны быть доведены до сведения пользователей для обтекания страниц договор или лицензия должны быть исполнены. В деле 2014 года, поданном в Окружной суд Соединенных Штатов Восточного округа Пенсильвании, сайт электронной коммерции QVC возражал против того, что агрегатор покупок, подобный Pinterest, Resultly "очистил сайт QVC". для получения данных о ценах в реальном времени. QVC утверждает, что в результате "чрезмерное сканирование" розничного сайта QVC (якобы отправка 200-300 поисковых запросов на веб-сайт QVC в минуту, иногда до 36 000 запросов в минуту) привело к сбою сайта QVC на два дня, что привело к потере продаж для QVC.. В жалобе QVC утверждается, что ответчик замаскировал свой веб-сканер, чтобы замаскировать исходный IP-адрес, и таким образом помешал QVC быстро устранить проблему. Это особенно интересный случай соскабливания, потому что QVC требует возмещения ущерба из-за недоступности их веб-сайта, что, по утверждению QVC, было вызвано Resultly.
На веб-сайте истца в течение периода этого судебного разбирательства ссылка с условиями использования отображается среди всех ссылок сайта, внизу страницы, как и на большинстве сайтов в Интернете. Это постановление противоречит постановлению Ирландии, описанному ниже. Суд также отклонил аргумент истца о том, что ограничения на перенос информации при просмотре имели исковую силу ввиду принятия Вирджинией Закона о едином документе о транзакциях с компьютерной информацией (UCITA) - единообразного закона, который, по мнению многих, одобрял общие методы заключения договоров на перенос информации при просмотре.
В деле Facebook, Inc. против Power Ventures, Inc. окружной суд в 2012 году постановил, что Power Ventures не может очищать страницы Facebook от имени пользователя Facebook. Дело находится в апелляционном порядке, и Electronic Frontier Foundation в 2015 году подали заявление с просьбой отменить его. В деле Associated Press против Meltwater U.S. Holdings, Inc. суд в США признал Meltwater ответственным за сбор и переиздание новостной информации от Associated Press, но суд в Соединенном Королевстве вынес решение в пользу Meltwater.
Интернет-архив собирает и распространяет значительное количество общедоступных веб-страниц, что не считается нарушением законов об авторских правах.
В феврале 2006 года Морской и коммерческий суд Дании (Копенгаген) постановил, что систематическое сканирование, индексирование и глубокие ссылки на портале сайта ofir.dk сайта недвижимости Home.dk не допускаются. не противоречит датскому законодательству или директиве Европейского Союза о базах данных.
В феврале 2010 г. по делу, усложненному вопросами юрисдикции, Высокий суд Ирландии вынес вердикт, который иллюстрирует начальное состояние развития прецедентное право. В деле Ryanair Ltd против Billigfluege.de GmbH Высокий суд Ирландии признал юридически обязательным соглашение Ryanair. В отличие от выводов Окружного суда Восточного округа Вирджинии и Датского морского и коммерческого суда, судья Майкл Ханна постановил, что гиперссылка на условия и положения Ryanair была явно видна, и что размещение бремя ответственности пользователя за согласие с условиями и положениями для получения доступа к онлайн-сервисам достаточно для заключения договорных отношений. Решение находится на апелляции в Верховном суде Ирландии.
30 апреля 2020 года Французское управление по защите данных (CNIL) опубликовало новые правила по парсингу веб-страниц. В правилах CNIL четко указано, что общедоступные данные по-прежнему являются личными данными и не могут быть повторно использованы без ведома лица, которому эти данные принадлежат.
В Австралии Закон о спаме 2003 запрещает некоторые формы сбора информации в Интернете, хотя это относится только к адресам электронной почты.
Администратор веб-сайта может использовать различные меры, чтобы остановить или замедлить работу бота. Некоторые методы включают: