Oracle Data Mining

редактировать

Oracle Data Mining (ODM) - это опция Oracle Database Enterprise Edition. Он содержит несколько алгоритмов интеллектуального анализа данных и анализа данных для ассоциаций классификации, прогнозирования, регрессии, , выбор функций, обнаружение аномалий, извлечение признаков и специализированная аналитика. Он предоставляет средства для создания, управления и оперативного развертывания моделей интеллектуального анализа данных в среде базы данных.

Oracle Data Mining
Разработчик (и) Oracle Corporation
Стабильный выпуск 11gR2 / сентябрь 2009 г.
Тип
Лицензия проприетарный
Веб-сайтOracle Data Mining

Содержание

  • 1 Обзор
  • 2 История
  • 3 Функциональность
  • 4 Источники ввода и подготовка данных
  • 5 Графический интерфейс пользователя: Oracle Data Miner
  • 6 PL / SQL и Интерфейсы Java
  • 7 Функции оценки SQL
  • 8 PMML
  • 9 Надстройка Predictive Analytics MS Excel
  • 10 Ссылки и дополнительная литература
  • 11 См. Также
  • 12 Ссылки
  • 13 Внешние ссылки

Обзор

Корпорация Oracle внедрила различные алгоритмы интеллектуального анализа данных в свой продукт Oracle Database реляционной базы данных. Эти реализации интегрируются непосредственно с Oracle и изначально работают с данными, хранящимися в таблицах реляционной базы данных. Это устраняет необходимость извлечения или передачи данных на отдельные серверы добычи / анализа. Платформа реляционной базы данных используется для безопасного управления моделями и эффективного выполнения запросов SQL для больших объемов данных. Система организована вокруг нескольких общих операций, обеспечивающих общий унифицированный интерфейс для функций интеллектуального анализа данных. Эти операции включают в себя функции для создания, apply, test и управления моделями интеллектуального анализа данных. Модели создаются и хранятся как, а управление ими осуществляется в базе данных - аналогично таблицам, представлениям, индексам и другим объектам базы данных.

В интеллектуальном анализе данных процесс использования модели для получения прогнозов или описаний поведения, которое еще не произошло, называется «оценкой». В традиционных аналитических инструментальных средствах модель, построенная в аналитическом механизме, должна быть развернута в критически важной системе для оценки новых данных, или данные перемещаются из реляционных таблиц в аналитическую рабочую среду - большинство инструментальных средств предлагает собственные интерфейсы для оценки. ODM упрощает развертывание модели, предлагая функции Oracle SQL для оценки данных, хранящихся прямо в базе данных. Таким образом, пользователь / разработчик приложения может использовать всю мощь Oracle SQL - с точки зрения возможности конвейеризации и управления результатами на нескольких уровнях, а также с точки зрения распараллеливания и разделения доступа к данным для повышения производительности.

Модели можно создавать и управлять ими одним из нескольких способов. Oracle Data Miner предоставляет графический пользовательский интерфейс, который помогает пользователю в процессе создания, тестирования и применения моделей (например, в соответствии с методологией CRISP-DM ). Разработчики приложений и инструментов могут встраивать возможности прогнозного и описательного интеллектуального анализа данных, используя PL / SQL или Java API. Бизнес-аналитики могут быстро поэкспериментировать или продемонстрировать возможности прогнозной аналитики с помощью надстройки Oracle Spreadsheet для Predictive Analytics, специального интерфейса адаптера Microsoft Excel. ODM предлагает выбор из хорошо известных подходов машинного обучения, таких как Деревья решений, Наивный Байес, Поддержка векторных машин, Обобщенная линейная модель (GLM) для прогнозного интеллектуального анализа данных, правила ассоциации, K-средних и ортогональное разбиение кластеризация и неотрицательная матрица факторизация для описательного анализа. Также предоставляется метод на основе минимальной длины описания для оценки относительной важности входных атрибутов интеллектуального анализа данных для данной проблемы. Большинство функций Oracle Data Mining также позволяют интеллектуальный анализ текста, принимая атрибуты текста (неструктурированные данные ) в качестве входных данных. Пользователям не нужно настраивать параметры интеллектуального анализа текста - параметр базы данных Database_options обрабатывает это за кулисами.

История

Oracle Data Mining был впервые представлен в 2002 году, и его выпуски названы в соответствии с соответствующим выпуском базы данных Oracle:

  • Oracle Data Mining 9iR2 (9.2.0.1.0 - май 2002 г.))
  • Oracle Data Mining 10gR1 (10.1.0.2.0 - февраль 2004 г.)
  • Oracle Data Mining 10gR2 (10.2.0.1.0 - июль 2005 г.)
  • Oracle Data Mining 11gR1 (11.1 - сентябрь 2007 г.)
  • Oracle Data Mining 11gR2 (11.2 - сентябрь 2009 г.)

Oracle Data Mining является логическим преемником набора инструментов интеллектуального анализа данных Darwin, разработанного Thinking Machines Corporation в середине 1990-х годов и позже распространен Oracle после приобретения Thinking Machines в 1999 году. Однако сам продукт является полностью переработанным и переписанным с нуля - в то время как Darwin был классическим аналитическим инструментом на основе графического интерфейса пользователя. workbench, ODM предлагает платформу разработки / развертывания интеллектуального анализа данных, интегрированную в базу данных Oracle, вместе с графическим интерфейсом Oracle Data Miner.

Новый графический интерфейс Oracle Data Miner 11gR2 для рабочих процессов был анонсирован на Oracle Open World 2009. Обновленный графический интерфейс Oracle Data Miner был выпущен в 2012 году. Он является бесплатным и доступен как расширение Oracle SQL Developer 3.1.

Функциональные возможности

Начиная с версии 11gR1 Oracle Data Mining содержит следующие функции интеллектуального анализа данных :

Источники ввода и подготовка данных

Большинство функций Oracle Data Mining принимают в качестве входных данных одну реляционную таблицу или представление. Плоские данные могут быть объединены с транзакционными данными с помощью вложенных столбцов, что обеспечивает интеллектуальный анализ данных, включающих отношения «один-ко-многим» (например, звездообразная схема ). Полная функциональность SQL может использоваться при подготовке данных для интеллектуального анализа данных, включая даты и пространственные данные.

Oracle Data Mining различает числовые, категориальные и неструктурированные (текстовые) атрибуты. Продукт также предоставляет утилиты для этапов подготовки данных перед построением модели, такие как обработка выбросов, дискретизация, нормализация и биннинг (сортировка в общий язык)

Графический пользовательский интерфейс: Oracle Data Miner

Пользователи могут получить доступ к Oracle Data Mining через Oracle Data Miner, клиентское приложение GUI, которое обеспечивает доступ к функции интеллектуального анализа данных и структурированные шаблоны (называемые операциями интеллектуального анализа данных), которые автоматически определяют порядок операций, выполняют необходимые преобразования данных и задают параметры модели. Пользовательский интерфейс также позволяет автоматизировать создание кода Java и / или SQL, связанного с действиями интеллектуального анализа данных. Генератор кода Java - это расширение Oracle JDeveloper. Также существует независимый интерфейс: надстройка электронных таблиц для прогнозной аналитики, которая обеспечивает доступ к пакету Oracle Data Mining Predictive Analytics PL / SQL из Microsoft Excel.

из версии 11.2 из База данных Oracle, Oracle Data Miner интегрируется с Oracle SQL Developer.

PL / SQL и интерфейсами Java

Oracle Data Mining предоставляет собственный пакет PL / SQL ( DBMS_DATA_MINING) для создания, уничтожения, описания, применения, тестирования, экспорта и импорта моделей. В приведенном ниже коде показан типичный вызов для построения модели классификации :

BEGIN DBMS_DATA_MINING.CREATE_MODEL (model_name =>'credit_risk_model', function =>DBMS_DATA_MINING.classification, data_table_name =>'credit_card_data', case_card_data '>'customer_id', target_column_name =>'credit_risk', settings_table_name =>'credit_risk_model_settings'); КОНЕЦ;

где 'credit_risk_model' - это название модели, созданное для прямой цели классификации будущих клиентов '' credit_risk '' на основе данных обучения, представленных в таблице 'credit_card_data', каждый случай отличается уникальным 'customer_id', с остальные параметры модели указаны в таблице credit_risk_model_settings.

Oracle Data Mining также поддерживает Java API в соответствии со стандартом Java Data Mining (JDM) для интеллектуального анализа данных (JSR-73) для обеспечения интеграции с веб-приложениями и приложениями Java EE, а также для облегчения переносимости между платформами.

Функции оценки SQL

Начиная с версии 10gR2, Oracle Data Mining содержит встроенные функции SQL для оценки моделей интеллектуального анализа данных. Эти однорядные функции поддерживают классификацию, регрессию, обнаружение аномалий, кластеризацию и извлечение признаков. Приведенный ниже код иллюстрирует типичное использование модели классификации :

ВЫБРАТЬ имя_клиента ИЗ данных кредитной_карты ГДЕ ПРОГНОЗ (кредитная_риск_модель ИСПОЛЬЗОВАНИЕ *) = 'НИЗКОЕ' И customer_value = 'ВЫСОКОЕ';

PMML

В версии 11gR2 (11.2.0.2) ODM поддерживает импорт созданного извне PMML для некоторых моделей интеллектуального анализа данных. PMML - это стандарт на основе XML для представления моделей интеллектуального анализа данных.

Надстройка Predictive Analytics для MS Excel

Пакет PL / SQL DBMS_PREDICTIVE_ANALYTICS автоматизирует процесс интеллектуального анализа данных, включая предварительную обработку данных, построение модели и оценку, а также оценку новых данных. Операция PREDICT используется для прогнозирования классификации или регрессии целевых значений, в то время как EXPLAIN ранжирует атрибуты в порядке влияния при объяснении выбора функции целевого столбца. Новая функция 11g PROFILE находит сегменты клиентов и их профили по целевому атрибуту. Эти операции могут использоваться как часть рабочего конвейера, предоставляющего действенные результаты, или отображаться для интерпретации конечными пользователями.

Ссылки и дополнительная литература

  • T. Х. Давенпорт, Конкуренция по аналитике, Harvard Business Review, январь 2006 г.
  • I. Бен-Гал, Обнаружение выбросов, В: Маймон О. и Рокач Л. (ред.) Сборник данных и обнаружение знаний: Полное руководство для практиков и исследователей, Kluwer Academic Publishers, 2005, ISBN 0-387-24435-2.
  • Кампос М.М., Стенгард П.Дж., Миленова Б.Л., Data-centric Automated Data Mining. В трудах Четвертой Международной конференции по машинному обучению и приложениям 2005 г., 15 –17 декабря 2005 г., стр. 8, ISBN 0-7695-2495-8
  • MF Hornick, Erik Marcade, and Sunil Venkayala. Java Data Mining: стратегия, стандарт и практика. Morgan-Kaufmann, 2006, ISBN 0-12-370452-9.
  • BL Milenova, JS Yarmus и MM Campos. SVM в базе данных Oracle 10g: устранение препятствий для широкое распространение машин опорных векторов. В материалах 31-й международной конференции по очень большим базам данных (Тронхейм, Норвегия, 30 августа - 2 сентября 2005 г.). pp1152–1163, ISBN 1-59593-154-6.
  • Миленова Б.Л. и М. М. Кампос. O-Cluster: масштабируемая кластеризация больших массивов данных большого размера. В трудах Международной конференции по интеллектуальному анализу данных IEEE 2002: ICDM 2002. pp290–297, ISBN 0-7695-1754-4.
  • P. Тамайо, К. Бергер, М. М. Кампос, Дж. С. Ярмус, Б. Л. Миленова, А. Мозес, М. Тафт, М. Хорник, Р. Кришнан, С. Томас, М. Келли, Д. Мухин, Р. Хаберстро, С. Стивенс и Я. Мычковски. Oracle Data Mining - интеллектуальный анализ данных в среде баз данных. В Части VII Справочника по интеллектуальному анализу данных и открытию знаний, Maimon, O.; Рокач, Л. (ред.) 2005, p315-1329, ISBN 0-387-24435-2.
  • Брендан Тирни, Predictive Analytics с использованием Oracle Data Miner: для данных ученый, аналитик Oracle, разработчик Oracle и администратор базы данных, Oracle Press, McGraw Hill, Spring 2014.

См. также

  • Oracle LogMiner - в отличие от общего интеллектуального анализа данных, нацелен на извлечение информации из внутренних журналов база данных Oracle

Ссылки

Внешние ссылки

Последняя правка сделана 2021-06-01 13:41:53
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте