Веб-интеллектуальный анализ

редактировать

Веб-интеллектуальный анализ - это применение методов интеллектуального анализа данных для обнаружения закономерностей из мира Широкая паутина. Как следует из названия, это информация, собранная путем майнинга в сети. Он использует автоматизированные устройства для выявления и извлечения данных с серверов и отчетов web2, а также позволяет организациям получать как организованную, так и неструктурированную информацию из действий браузера, журналов серверов, структуры веб-сайтов и ссылок, содержимого страниц и различных источников.

Цель исследования веб-структуры - создать структурную сводку веб-сайта и веб-страницы. Технически, анализ веб-контента в основном фокусируется на структуре внутреннего документа, в то время как анализ веб-структуры пытается обнаружить структуру ссылок гиперссылок на междокументном уровне. На основе топологии гиперссылок анализ веб-структуры классифицирует веб-страницы и генерирует такую информацию, как сходство и взаимосвязь между различными веб-сайтами.

Анализ веб-структуры может иметь и другое направление - обнаружение структуры самого веб-документа. Этот тип исследования структуры может использоваться для выявления структуры (схемы) веб-страниц, это будет полезно для целей навигации и дает возможность сравнивать / интегрировать схемы веб-страниц. Этот тип исследования структуры будет способствовать внедрению методов базы данных для доступа к информации на веб-страницах путем предоставления справочной схемы.

Содержание

1 Типы веб-интеллектуального анализа
2 Веб-анализ использования
- 2.1 Плюсы
- 2.2 Минусы
3 Анализ веб-структуры
4 Анализ веб-содержимого
- 4.1 Анализ веб-содержимого в иностранные языки
  - 4.1.1 Китайский
5 См. также
6 Ссылки
7 Ссылки
- 7.1 Книги
- 7.2 Библиографические ссылки

Типы веб-интеллектуального анализа данных

Веб-интеллектуальный анализ можно разделить на три различных типа - интеллектуальный анализ веб-использования, интеллектуальный анализ веб-содержимого и интеллектуальный анализ веб-структуры .

Общая взаимосвязь между категориями веб-интеллектуального анализа и целями данных. интеллектуальный анализ

Сравнение типов веб-интеллектуального анализа
	интеллектуальный анализ веб-содержимого		интеллектуальный анализ веб-структуры	интеллектуальный анализ использования веб-ресурсов
	ИК-представление	представление БД	интеллектуальный анализ веб-структуры	интеллектуальный анализ использования веб-ресурсов
представление данных	Неструктурированный Структурированный	Полуструктурированный Веб-сайт как БД	Структура ссылок	Интерактивность
Основные данные	Текстовые документы Гипертекст документы	Гипертекстовые документы	Структура ссылок	Журналы сервера Журналы браузера
Представляют ation	Набор слов, n-gram terms фраз, понятий или онтологий Relational	Edge labed graph Реляционная	График	Реляционная таблица График
Метод	Машинное обучение Статистический (включая NLP )	Собственные алгоритмы Правила ассоциации	Собственные алгоритмы	Машинное обучение Статистические Правила ассоциации
Категории приложений	Категоризация Кластеризация Поиск правил извлечения Поиск закономерностей в текст	Поиск часто встречающихся подструктур Обнаружение схемы веб-сайта	Категоризация Кластеризация	Создание сайта Адаптация и управление

Анализ использования веб-сайтов

Анализ использования веб-ресурсов - это применение методов интеллектуального анализа данных для обнаружения интересных моделей использования из веб-данных с целью понимания и лучшего удовлетворения потребностей веб-приложений. Данные об использовании фиксируют личность или происхождение веб-пользователей, а также их поведение при просмотре веб-сайта.

Сам анализ использования Интернета может быть дополнительно классифицирован в зависимости от типа рассматриваемых данных об использовании:

Данные веб-сервера : журналы пользователей собираются веб-сервером. Типичные данные включают IP-адрес, ссылку на страницу и время доступа.
Данные сервера приложений : коммерческие серверы приложений имеют важные функции, позволяющие без особых усилий создавать приложения электронной коммерции на их основе. Ключевой особенностью является возможность отслеживать различные виды бизнес-событий и регистрировать их в журналах сервера приложений.
Данные уровня приложения : в приложении могут быть определены новые виды событий, и для них можно включить ведение журнала. таким образом создавая истории этих специально определенных событий. Многие конечные приложения требуют сочетания одного или нескольких методов, применяемых в вышеперечисленных категориях.

Исследования, связанные с работой, касаются двух областей: алгоритмы интеллектуального анализа данных на основе ограничений, применяемые в интеллектуальном анализе использования Интернета, и разработанные программные инструменты (системы). Коста и Seco продемонстрировали, что интеллектуальный анализ веб-журнала может использоваться для извлечения семантической информации (в частности, гипонимии отношений) о пользователе и данном сообществе.

Плюсы

Анализ использования веб-ресурсов по существу имеет множество преимуществ, которые делают эту технологию привлекательной для корпораций, включая правительственные учреждения. Эта технология позволила электронной коммерции осуществлять персонализированный маркетинг, что в конечном итоге приводит к увеличению объемов торговли. Государственные органы используют эту технологию для классификации угроз и борьбы с терроризмом. Возможность прогнозирования приложений для горнодобывающей промышленности может принести пользу обществу за счет выявления преступной деятельности. Компании могут улучшить отношения с клиентами, лучше понимая потребности клиентов и быстрее реагируя на них. Компании могут находить, привлекать и удерживать клиентов; они могут сэкономить на производственных затратах, используя полученное понимание требований клиентов. Они могут увеличить прибыльность на целевую цену на основе созданных профилей. Они даже могут найти клиентов, которые могут по умолчанию уступить конкурентам, которых компания будет пытаться удержать, предоставляя им рекламные предложения, тем самым снижая риск потери покупателя или покупателей.

Дополнительные преимущества интеллектуального анализа использования Интернета, особенно в области персонализации, описаны в конкретных структурах, таких как модель вероятностного скрытого семантического анализа, которая предлагает дополнительные функции к поведению пользователя и шаблону доступа. Это связано с тем, что этот процесс предоставляет пользователю более релевантный контент через совместные рекомендации. Эти модели также демонстрируют способность технологии интеллектуального анализа веб-использования решать проблемы, связанные с традиционными методами, такие как предубеждения и вопросы относительно достоверности, поскольку полученные данные и шаблоны не являются субъективными и не ухудшаются со временем. Существуют также элементы, уникальные для интеллектуального анализа использования веб-ресурсов, которые могут показать преимущества технологии, и они включают способ применения семантических знаний при интерпретации, анализе и рассуждении о шаблонах использования на этапе интеллектуального анализа данных.

Минусы

Анализ использования Интернета сам по себе не создает проблем, но эта технология при использовании данных личного характера может вызвать проблемы. Наиболее критикуемая этическая проблема, связанная с использованием веб-интеллектуального анализа данных, - это вторжение в конфиденциальность. Конфиденциальность считается утраченной, когда информация о человеке получена, используется или распространяется, особенно если это происходит без ведома или согласия человека. Полученные данные будут проанализированы, сделаны анонимными, затем кластеризованы для формирования анонимных профилей. Эти приложения де- индивидуализируют пользователей, оценивая их по щелчкам мыши, а не по идентифицирующей информации. Деиндивидуализацию в целом можно определить как тенденцию оценивать людей и относиться к ним на основе групповых характеристик, а не их собственных индивидуальных характеристик и достоинств.

Еще одна важная проблема заключается в том, что компании, собирающие данные для конкретная цель может использовать данные для совершенно разных целей, и это существенно нарушает интересы пользователя.

Растущая тенденция продажи личных данных как товара побуждает владельцев веб-сайтов обменивать личные данные, полученные с их сайтов. Эта тенденция увеличила объем собираемых и обмениваемых данных, повышая вероятность вторжения в частную жизнь. Компании, покупающие данные, обязаны делать их анонимными, и эти компании считаются авторами любых конкретных выпусков схем майнинга. Они несут юридическую ответственность за содержание релиза; любые неточности в выпуске приведут к серьезным судебным искам, но нет закона, запрещающего им торговать данными.

Некоторые алгоритмы интеллектуального анализа данных могут использовать противоречивые атрибуты, такие как пол, раса, религия или сексуальная ориентация, для классификации людей. Такая практика может противоречить антидискриминационному законодательству. Приложения затрудняют идентификацию использования таких спорных атрибутов, и нет строгого правила против использования таких алгоритмов с такими атрибутами. Этот процесс может привести к отказу в обслуживании или привилегии для человека на основании его расы, религии или сексуальной ориентации. Этой ситуации можно избежать с помощью высоких этических стандартов, поддерживаемых компанией по интеллектуальному анализу данных. Собранные данные становятся анонимными, поэтому полученные данные и полученные закономерности нельзя отследить до конкретного человека. Может показаться, что это не представляет угрозы для конфиденциальности, однако приложение может получить дополнительную информацию, объединив две отдельные недобросовестные данные пользователя.

Анализ веб-структуры

Анализ веб-структуры использует теорию графов для анализа узлов и структуры соединений веб-сайта. В зависимости от типа данных веб-структуры, интеллектуальный анализ веб-структуры можно разделить на два вида:

Извлечение шаблонов из гиперссылок в сети: гиперссылка - это структурный компонент, который соединяет веб-страницу с другим местоположение.
Анализ структуры документа : анализ древовидной структуры структур страницы для описания использования тегов HTML или XML.

Терминология интеллектуального анализа веб-структуры:

Веб-граф: направленный граф, представляющий сеть.
Узел: веб-страница в графе.
Край: гиперссылки.
По степени: количество ссылок, указывающих на конкретный узел.
Исходная степень: количество ссылок, сгенерированных из определенного узла.

Примером метода анализа веб-структуры является PageRank алгоритм, используемый Google для ранжирования результатов поиска. Рейтинг страницы определяется количеством и качеством ссылок, указывающих на целевой узел.

Интеллектуальный анализ веб-содержимого

Анализ веб-содержимого - это анализ, извлечение и интеграция полезных данных, информации и знаний из содержимого веб-страницы. Неоднородность и отсутствие структуры, которые позволяют большую часть постоянно расширяющихся источников информации во всемирной паутине, таких как гипертекстовые документы, делают автоматическое обнаружение, инструменты организации, поиска и индексирования в Интернете и World Wide Web, такие как Lycos, Alta Vista, WebCrawler, Aliweb, MetaCrawler и другие обеспечивают некоторое удобство для пользователей, но обычно они не предоставляют структурную информацию, не классифицируют, не фильтруют и не интерпретируют документы. Эти факторы побудили исследователей разработать более интеллектуальные инструменты для поиска информации, такие как интеллектуальные веб-агенты, а также расширить базы данных и методы интеллектуального анализа данных, чтобы обеспечить более высокий уровень организации для полуструктурированные данные доступны в Интернете. Агентный подход к веб-майнингу предполагает разработку сложных систем искусственного интеллекта, которые могут действовать автономно или полуавтономно от имени конкретного пользователя, чтобы обнаруживать и систематизировать информацию из Интернета..

Интеллектуальный анализ веб-контента различается с двух разных точек зрения: представление поиска информации и представление базы данных. обобщены исследовательские работы, выполненные для неструктурированных данных и полуструктурированных данных с точки зрения поиска информации. Это показывает, что большинство исследователей используют набор слов, который основан на статистике отдельных слов по отдельности, для представления неструктурированного текста и рассматривают одно слово, найденное в обучающем корпусе, как функции. Для полуструктурированных данных все работы используют структуры HTML внутри документов, а некоторые использовали структуру гиперссылок между документами для представления документа. Что касается представления базы данных, чтобы иметь лучшее управление информацией и выполнение запросов в Интернете, интеллектуальный анализ всегда пытается вывести структуру веб-сайта, чтобы преобразовать веб-сайт в базу данных.

Есть несколько способов представления документов; Модель векторного пространства обычно используется. Документы составляют все векторное пространство. Это представление не осознает важность слов в документе. Чтобы решить эту проблему, вводится tf-idf (частота термина, время обратная частота документа).

Посредством многократного сканирования документа мы можем реализовать выбор функций. При условии, что результат категории редко изменяется, требуется извлечение подмножества признаков. Общий алгоритм состоит в построении оценивающей функции для оценки характеристик. В качестве набора функций обычно используются коэффициент передачи информации, перекрестная энтропия, взаимная информация и отношение шансов. Классификатор и анализ шаблонов методы интеллектуального анализа текстовых данных очень похожи на традиционные методы интеллектуального анализа данных. Обычные оценочные достоинства: точность и отзывчивость и.

Веб-интеллектуальный анализ - важный компонент конвейера контента для веб-порталов. Он используется для подтверждения и проверки достоверности данных, целостности данных и построения таксономий, управления контентом, генерации контента и анализа мнений.

Веб-майнинг может дополнять извлечение структурированные данные, передаваемые с помощью открытых протоколов, например OAI-PMH : примером является объединение работ из академических публикаций, которые используются для идентификации открытого доступа версий с помощью сочетания методов с открытым исходным кодом и с открытыми данными с помощью академических баз данных, например Unpaywall.

интеллектуального анализа веб-контента на иностранных языках

Китайский

Код языка из китайских слов очень сложен по сравнению с английским. Код GB, Big5 и HZ - это обычные китайские коды слов в веб-документах. Перед интеллектуальным анализом текста необходимо определить стандарт кода документов HTML и преобразовать его во внутренний код, а затем использовать другие методы интеллектуального анализа данных, чтобы найти полезные знания и полезные шаблоны.

См. Также

Ссылки

Книги

Хесус Мена, «Интеллектуальный анализ данных на вашем веб-сайте», Digital Press, 1999 г.
Сумен Чакрабарти, «Майнинг в Интернете: анализ гипертекста и полуструктурированных данных», Морган Кауфманн, 2002 г.
Advances in Web Mining and Web Usage Analysis 2005 - исправленные статьи 7-го семинара по открытию знаний в Интернете, Ольфа Насрауи, Осмар Зайан, Майра Спилиопулу, Бамшад Мобашер, Филип Ю, Бридж Масанд, ред., Springer Lecture Notes по искусственному интеллекту, LNAI 4198, 2006
Web Mining and Web Usage Analysis 2004 - исправленные документы 6-го семинара по открытию знаний в Интернете, Бамшад Мобашер, Ольфа Насрауи, Бинг Лю, Бридж Масанд, ред., Лекции Springer в Искусственный интеллект, 2006

Библиографические ссылки

Баралья, Р. Сильвестри, Ф. (2007) «Динамическая персонализация веб-сайтов без вмешательства пользователя. ion ", В сообщениях ACM 50 (2): 63-67
Кули, Р. Мобашер, Б. и Сривастав Дж. (1997)« Веб-майнинг: открытие информации и шаблонов на Всемирная паутина »в материалах 9-й Международной конференции IEEE по инструментам с искусственным интеллектом
Кули, Р., Мобашер, Б. и Сривастава, Дж.« Подготовка данных для майнинга при просмотре Интернета Паттерны », Журнал знаний и информационных систем, Том 1, вып. 1, pp. 5–32, 1999
Коста, Р.П. и Секо, Н. «Извлечение гипонимии и анализ поведения веб-поиска на основе переформулирования запроса», 11-я Иберо-американская конференция по искусственному Intelligence, 2008 г., октябрь.
Кохави, Р., Мейсон, Л. и Чжэн, З. (2004) «Уроки и проблемы, извлеченные из данных электронной коммерции в горнодобывающей промышленности » Машинное обучение, том 57, pp. 83–113
Лиллиан Кларк, И-Сянь Тинг, Питер Райт, Даниэль Куденко (2006) «Объединение этнографических данных и данных потока посещений для определения стратегий просмотра веб-страниц пользователями» Journal of Информационные исследования, Vol. 11 № 2, январь 2006 г.
Эйринаки, М., Вазирджаннис, М. (2003) «Веб-майнинг для веб-персонализации », Транзакции ACM по Интернет-технологиям, Том 3, №.1, февраль 2003 г.
Мобашер, Б., Кули, Р. и Сривастава, Дж. (2000) «Автоматическая персонализация на основе использования веб-ресурсов Mining » Сообщения ACM, Vol. 43, № 8, стр. 142–151
Мобашер, Б., Дай, Х., Луо, Т. и Накагава, М. (2001) «Эффективная персонализация на основе правила ассоциации Discover из данных об использовании веб-сайтов ”В материалах WIDM 2001, Атланта, Джорджия, США, стр. 9–15
Насрауи О., Петенс К., « Объединение интеллектуального анализа данных об использовании веб-сайтов и нечеткого вывода для персонализации веб-сайта », в Proc. WebKDD 2003 - Семинар KDD по веб-майнингу как предпосылки для эффективных и интеллектуальных веб-приложений, Вашингтон, округ Колумбия, август 2003 г., стр. 37
Насрауи О., Фригуи Х., Джоши А. и Кришнапурам Р., «Майнинг журналов веб-доступа с использованием реляционной конкурентной нечеткой кластеризации», Труды Восьмой Международной ассоциации нечетких систем Конгресс, Синьчжу, Тайвань, август 1999 г.
Насрауи О., «Персонализация всемирной паутины» Приглашенная глава в «Энциклопедии интеллектуального анализа данных и хранилищ данных», Дж. Ван, Эд, Idea Group, 2005
Пьерракос, Д., Палиоурас, Г., Папатеодору, К., Спиропулос, компакт-диск (2003) «Интеллектуальный анализ использования Интернета как инструмент персонализации: опрос», Моделирование пользователей и взаимодействие с пользователем. journal, Vol.13, Issue 4, pp. 311–372
И-Сянь Тинг, Крис Кимбл, Даниэль Куденко (2005) «Метод восстановления шаблонов для восстановления отсутствующих шаблонов в данных потока обращений на стороне сервера "
И-Сянь Тинг, Крис Кимбл, Даниэль Куденко (2006) «UBB Mining: обнаружение неожиданного поведения при просмотре в данных потока посещений для улучшения дизайна веб-сайта»
Вайхброт, П., Овок, М., Плешкун, М. (2012) "Обнаружение шаблонов навигации веб-пользователей из файлов журналов сервера WWW "
Madria S.K., Bhowmick S.S., Ng W.K., Lim E.P. (1999) Проблемы исследования в области интеллектуального анализа данных в Интернете. В: Mohania M., Tjoa A.M. (eds) DataWarehousing и Knowledge Discovery. DaWaK 1999. Конспект лекций по информатике, том 1676. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-48298-9_32.