Интеллектуальный анализ данных - это процесс выявления закономерностей в больших наборы данных, включающие методы на пересечении машинного обучения, статистики и систем баз данных. Интеллектуальный анализ данных - это междисциплинарное подполе информатики и статистики с общей целью извлечения информации (с помощью интеллектуальных методов) из набора данных и преобразования информации в понятная структура для дальнейшего использования. Интеллектуальный анализ данных - это этап анализа процесса «обнаружения знаний в базах данных» или KDD. Помимо этапа первичного анализа, он также включает аспекты базы данных и управления данными, предварительную обработку данных, модель и выводы. метрики интереса, сложность соображения, постобработка обнаруженных структур, визуализация и онлайн-обновление.
Термин «интеллектуальный анализ данных» - неправильное употребление, потому что целью является извлечение закономерностей и знаний из больших объемов данных, а не извлечение (интеллектуальный анализ) самих данных. Это также модное слово, которое часто применяется к любой форме крупномасштабных данных или обработки информации (сбор, извлечение, складирование, анализ и статистика), а также любое приложение компьютерной системы поддержки принятия решений, включая искусственный интеллект (например, машинное обучение) и бизнес-аналитику. Книга «Интеллектуальный анализ данных: практические инструменты и методы машинного обучения с Java» (которая охватывает в основном материалы для машинного обучения) изначально должна была называться «Практическое машинное обучение», а термин «интеллектуальный анализ данных» был добавлен только по маркетинговым причинам. Часто более уместны более общие термины (крупномасштабный) анализ данных и аналитика - или, когда речь идет о реальных методах, искусственном интеллекте и машинном обучении.
Фактическая задача интеллектуального анализа данных - это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных закономерностей, таких как группы записей данных (кластерный анализ ), необычные записи (обнаружение аномалий ) и зависимости (анализ правил ассоциации, последовательный анализ шаблонов ). Обычно для этого используются такие методы базы данных, как пространственные индексы. Эти шаблоны затем можно рассматривать как своего рода сводку входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и прогнозной аналитике. Например, этап интеллектуального анализа данных может идентифицировать несколько групп в данных, которые затем могут использоваться для получения более точных результатов прогнозирования с помощью системы поддержки принятия решений. Ни сбор данных, ни подготовка данных, ни интерпретация результатов и отчетность не являются частью этапа интеллектуального анализа данных, но относятся к общему процессу KDD в качестве дополнительных этапов.
Разница между анализом данных и интеллектуальным анализом данных заключается в том, что анализ данных используется для проверки моделей и гипотез по набору данных, например, для анализа эффективности маркетинговой кампании, независимо от количества данные; Напротив, интеллектуальный анализ данных использует машинное обучение и статистические модели для выявления скрытых или скрытых закономерностей в большом объеме данных.
Связанные термины выемка данных, сбор данных и отслеживание данных относятся к использование методов интеллектуального анализа данных для выборки частей более крупного набора данных о населении, которые (или могут быть) слишком малы для того, чтобы можно было сделать надежные статистические выводы о достоверности любых обнаруженных закономерностей. Однако эти методы можно использовать при создании новых гипотез для проверки на более крупных совокупностях данных.
В 1960-х годах статистики и экономисты использовали такие термины, как вылов данных или выемка данных, чтобы обозначить то, что они считали плохой практикой анализа данных без априорной гипотезы. Термин «интеллектуальный анализ данных» так же критически использовал экономист Майкл Ловелл в статье, опубликованной в Review of Economic Studies в 1983 году. Ловелл указывает, что эта практика «маскируется под множество псевдонимов, от «экспериментирования» (положительный) до «рыбалки» или «слежки» (отрицательного).
Термин интеллектуальный анализ данных появился в сообществе баз данных примерно в 1990 году, как правило, с положительной коннотацией. Некоторое время назад в 1980-е годы использовалась фраза «интеллектуальный анализ баз данных» ™, но поскольку она была зарегистрирована торговой маркой HNC, компании из Сан-Диего, для презентации своей рабочей станции интеллектуального анализа данных, исследователи обратились к интеллектуальному анализу данных. археология, сбор информации, открытие информации, извлечение знаний и т. д. Грегори Пятецкий-Шапиро ввел термин «открытие знаний в базах данных» для первого семинара по той же теме (KDD-1989), и этот термин стал более популярным в AI и машинном обучении. Сообщество нин. Однако термин интеллектуальный анализ данных стал более популярным в деловых кругах и в прессе. В настоящее время термины интеллектуальный анализ данных и обнаружение знаний используются как синонимы.
В академическом сообществе основные форумы для исследований начались в 1995 году, когда в Монреале была открыта Первая международная конференция по интеллектуальному анализу данных и открытию знаний () при спонсорской поддержке AAAI. Его сопредседателями были Усама Файяд и Рамасами Утурусами. Год спустя, в 1996 году, Усама Файяд в качестве главного редактора-основателя выпустил журнал Клувера под названием Data Mining and Knowledge Discovery. Позже он начал SIGKDD Информационный бюллетень SIGKDD Explorations. Конференция KDD International стала основной конференцией высочайшего качества в области интеллектуального анализа данных с уровнем приема исследовательских работ менее 18%. Журнал Data Mining and Knowledge Discovery - это основной исследовательский журнал в этой области.
Ручное извлечение шаблонов из данных происходило веками. Ранние методы выявления закономерностей в данных включают теорему Байеса (1700-е годы) и регрессионный анализ (1800-е годы). Распространение, повсеместное распространение и растущая мощь компьютерных технологий резко повысили возможности сбора, хранения и обработки данных. По мере того, как наборы данных росли в размерах и сложности, прямой «практический» анализ данных все чаще дополнялся косвенной автоматической обработкой данных, чему способствовали другие открытия в области информатики, особенно в области машинного обучения., например, нейронные сети, кластерный анализ, генетические алгоритмы (1950-е годы), деревья решений и правила принятия решений (1960-е) и поддерживают векторные машины (1990-е). Интеллектуальный анализ данных - это процесс применения этих методов с целью выявления скрытых закономерностей. в больших наборах данных. Он устраняет разрыв между прикладной статистикой и искусственным интеллектом (которые обычно обеспечивают математическую основу) и управлением базами данных, используя способ хранения и индексации данных в базах данных для выполнения фактического обучения и алгоритмы обнаружения более эффективно, что позволяет применять такие методы к постоянно растущим наборам данных.
Процесс обнаружения знаний в базах данных (KDD) обычно определяется с помощью этапов:
Однако существует множество вариаций на эту тему, таких как Межотраслевой стандартный процесс интеллектуального анализа данных ( CRISP-DM), который определяет шесть этапов:
или упрощенный процесс, такой как (1) предварительная обработка, (2) интеллектуальный анализ данных и (3) проверка результатов.
Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой майнерами данных. Единственным другим стандартом интеллектуального анализа данных, названным в этих опросах, был SEMMA. Однако в 3–4 раза больше людей сообщили об использовании CRISP-DM. Несколько групп исследователей опубликовали обзоры моделей процессов интеллектуального анализа данных, а Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году.
Прежде, чем алгоритмы интеллектуального анализа данных могут быть используется, необходимо собрать целевой набор данных. Поскольку интеллектуальный анализ данных может выявить только закономерности, реально присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти шаблоны, но при этом оставаться достаточно кратким, чтобы быть добытым в приемлемый срок. Обычным источником данных является витрина данных или хранилище данных. Предварительная обработка необходима для анализа многомерных наборов данных перед интеллектуальным анализом данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум и наблюдения с отсутствующими данными.
Интеллектуальный анализ данных включает шесть общих классов задач:
Интеллектуальный анализ данных может быть непреднамеренно использован неправильно, и тогда результаты могут оказаться значительными; но которые на самом деле не предсказывают будущее поведение и не могут быть воспроизведены на новой выборке данных и не имеют большого смысла. Часто это является результатом исследования слишком большого количества гипотез и неправильного выполнения статистической проверки гипотез. Простая версия этой проблемы в машинном обучении известна как переоснащение, но одна и та же проблема может возникнуть на разных этапах процесса и, следовательно, при разделении обучения / тестирования - если это вообще возможно - может быть недостаточно, чтобы этого не произошло.
Последним шагом обнаружения знаний из данных является проверка того, что шаблоны, созданные алгоритмами интеллектуального анализа данных, встречаются в более широком наборе данных. Не все шаблоны, обнаруженные алгоритмами интеллектуального анализа данных, обязательно действительны. Алгоритмы интеллектуального анализа данных обычно находят в обучающем наборе шаблоны, которых нет в общем наборе данных. Это называется переоборудованием. Чтобы преодолеть это, при оценке используется набор тестов данных, на которых алгоритм интеллектуального анализа данных не обучен. Выученные шаблоны применяются к этому набору тестов, и полученный результат сравнивается с желаемым. Например, алгоритм интеллектуального анализа данных, пытающийся отличить «спам» от «законных» сообщений электронной почты, будет обучен на обучающем наборе образцов сообщений электронной почты. После обучения выученные шаблоны будут применяться к тестируемому набору сообщений электронной почты, на котором он не был обучен. Затем точность шаблонов можно измерить по тому, сколько электронных писем они правильно классифицируют. Для оценки алгоритма можно использовать несколько статистических методов, таких как кривые ROC.
. Если изученные шаблоны не соответствуют желаемым стандартам, впоследствии необходимо повторно оценить и изменить этапы предварительной обработки и интеллектуального анализа данных.. Если усвоенные шаблоны действительно соответствуют желаемым стандартам, тогда последним шагом будет интерпретация усвоенных шаблонов и превращение их в знания.
Основным профессиональным органом в этой области является Специальная группа по интересам Association for Computing Machinery (ACM) (SIG) по открытию знаний и интеллектуальному анализу данных ( SIGKDD ). С 1989 года ACM SIG проводит ежегодную международную конференцию и публикует свои труды, а с 1999 года он издает два раза в год академический журнал под названием «SIGKDD Explorations».
Конференции по компьютерным наукам по данным майнинг включает:
Темы интеллектуального анализа данных также присутствуют на многих конференциях по управлению данными / базам данных, таких как конференция ICDE, конференция SIGMOD и Международная конференция по очень большим базам данных
Были предприняты некоторые попытки определить стандарты для процесса интеллектуального анализа данных, например, Европейский межотраслевой стандартный процесс для интеллектуального анализа данных 1999 г. (CRISP-DM 1.0) и стандарт 2004 Java Data Mining. Дард (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) была активна в 2006 году, но с тех пор остановилась. JDM 2.0 был отозван, не дойдя до окончательной версии.
Для обмена извлеченными моделями - в частности для использования в прогнозной аналитике - ключевым стандартом является язык разметки прогнозных моделей (PMML), который является Язык на основе XML, разработанный группой интеллектуального анализа данных (DMG) и поддерживаемый в качестве формата обмена многими приложениями интеллектуального анализа данных. Как следует из названия, он охватывает только модели прогнозирования - особую задачу интеллектуального анализа данных, имеющую большое значение для бизнес-приложений. Однако расширения для охвата (например) кластеризации подпространств были предложены независимо от DMG.
Интеллектуальный анализ данных используется везде, где сегодня доступны цифровые данные. Известные примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке и надзоре.
Хотя термин «интеллектуальный анализ данных» сам по себе может не иметь этических последствий, он часто ассоциируется с интеллектуальным анализом информации, касающейся поведения людей (этического и прочего).
Способы использования интеллектуального анализа данных в некоторых случаях и контекстах могут вызывать вопросы, касающиеся конфиденциальности, законности и этики. В частности, правительственные или коммерческие наборы данных по сбору данных для целей национальной безопасности или правоохранительных органов, например, в программе Total Information Awareness или в ADVISE, вызвали проблемы с конфиденциальностью.
Интеллектуальный анализ данных требует подготовки данных, которая раскрывает информацию или шаблоны, которые ставят под угрозу конфиденциальность и обязательства по обеспечению конфиденциальности. Обычно это происходит с помощью агрегации данных. Агрегирование данных включает объединение данных вместе (возможно, из различных источников) таким образом, чтобы облегчить анализ (но это также может сделать идентификацию частных данных на индивидуальном уровне выводимой или иным образом очевидной). Это не интеллектуальный анализ данных как таковой, а результат подготовки данных перед анализом и для его целей. Угроза частной жизни человека вступает в игру, когда данные после компиляции приводят к тому, что майнер данных или любое лицо, имеющее доступ к недавно скомпилированному набору данных, может идентифицировать конкретных лиц, особенно если данные изначально были анонимными.
Перед сбором данных рекомендуется знать следующее: :
Данные также могут быть изменены, чтобы стать анонимными, так что отдельные лица не могут быть легко идентифицированы. Однако даже «анонимные» наборы данных потенциально могут содержать достаточно информации, чтобы позволить идентифицировать людей, как это произошло, когда журналисты смогли найти нескольких людей на основе набора историй поиска, которые были непреднамеренно опубликованы AOL.
непреднамеренное раскрытие личной информации, ведущее к провайдеру, нарушает добросовестную информационную практику. Эта неосмотрительность может причинить указанному лицу финансовые, эмоциональные или телесные повреждения. В одном случае нарушения конфиденциальности покровители Walgreens подали иск против компании в 2011 году за продажу информации о рецептах компаниям по добыче данных, которые, в свою очередь, предоставили данные фармацевтическим компаниям.
В Европе действуют довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Однако U.S.–E.U. Принципы Safe Harbor, разработанные в период с 1998 по 2000 год, в настоящее время фактически подвергают европейских пользователей риску использования конфиденциальности компаниями США. Вследствие того, что Эдвард Сноуден раскрыл глобальное наблюдение, было усилено обсуждение отмены этого соглашения, так как, в частности, данные будут полностью доступны для Национальной безопасности Агентство и попытки достичь соглашения с Соединенными Штатами потерпели неудачу.
В Соединенных Штатах вопросы конфиденциальности были решены Конгресс США посредством принятия регулирующих мер, таких как Закон о переносимости и подотчетности медицинского страхования (HIPAA). HIPAA требует, чтобы люди дали свое «осознанное согласие» в отношении информации, которую они предоставляют, и ее предполагаемого использования в настоящем и будущем. Согласно статье в Biotech Business Week, «[в] практике HIPAA не может обеспечить более надежную защиту, чем давно принятые правила в области исследований», - говорится в AAHC. Что еще более важно, цель правила - защита посредством информированного согласия - это приблизиться к уровню непонятности для обычных людей ". Это подчеркивает необходимость анонимности данных при агрегировании данных и методах интеллектуального анализа.
США Законодательство о конфиденциальности информации, такое как HIPAA и Закон о правах семьи на образование и неприкосновенность частной жизни (FERPA), применяется только к определенным областям, которые затрагивает каждый такой закон. Использование интеллектуального анализа данных большинством предприятий в США не регулируется никаким законодательством.
Согласно европейским законам об авторском праве и законам о базах данных, добыча охраняемых авторским правом произведений ( например, с помощью веб-майнинга ) без разрешения владельца авторских прав не является законным. Если база данных представляет собой чистые данные в Европе, может быть, что нет авторских прав, но могут существовать права на базу данных, поэтому интеллектуальный анализ данных становится предметом интеллектуальной собственности прав владельцев, которые защищены Директивой о базах данных. По рекомендации правительства это привело к тому, что в 2014 году правительство Великобритании внесло поправки в свой закон об авторском праве, разрешив добычу контента в качестве ограничения и исключения. Великобритания стала второй страной в мире, которая сделала это после Японии, которая в 2009 году ввела исключение для интеллектуального анализа данных. Однако из-за ограничения Директивы об информационном обществе (2001) исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон об авторском праве Великобритании также не позволяет отменять это положение договорными условиями.
Европейская комиссия способствовала обсуждению заинтересованными сторонами вопросов интеллектуального анализа текста и данных в 2013 году под названием «Лицензии для Европы». Сосредоточение внимания на решении этого юридического вопроса, таком как лицензирование, а не ограничения и исключения, побудило представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинуть диалог с заинтересованными сторонами в мае 2013 года..
Закон об авторском праве США и, в частности, его положение о добросовестном использовании, подтверждает законность добычи контента в Америке и другие принципы добросовестного использования такие страны, как Израиль, Тайвань и Южная Корея. Поскольку интеллектуальный анализ контента является трансформирующим, то есть он не заменяет исходную работу, он рассматривается как законный при добросовестном использовании. Например, в рамках мирового соглашения с Google Book председательствующий судья постановил, что проект Google по оцифровке книг, охраняемых авторским правом, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки. интеллектуальный анализ текста и данных.
Следующие приложения доступны по свободным / открытым лицензиям. Также доступен открытый доступ к исходному коду приложения.
Следующие приложения доступны по частным лицензиям.
Дополнительные сведения об извлечении информации из данных (в отличие от для анализа данных) см.:
Викискладе есть носители, связанные с интеллектуальным анализом данных. |