Oracle Data Mining (ODM) - это опция Oracle Database Enterprise Edition. Он содержит несколько алгоритмов интеллектуального анализа данных и анализа данных для ассоциаций классификации, прогнозирования, регрессии, , выбор функций, обнаружение аномалий, извлечение признаков и специализированная аналитика. Он предоставляет средства для создания, управления и оперативного развертывания моделей интеллектуального анализа данных в среде базы данных.
Разработчик (и) | Oracle Corporation |
---|---|
Стабильный выпуск | 11gR2 / сентябрь 2009 г. |
Тип | |
Лицензия | проприетарный |
Веб-сайт | Oracle Data Mining |
Корпорация Oracle внедрила различные алгоритмы интеллектуального анализа данных в свой продукт Oracle Database реляционной базы данных. Эти реализации интегрируются непосредственно с Oracle и изначально работают с данными, хранящимися в таблицах реляционной базы данных. Это устраняет необходимость извлечения или передачи данных на отдельные серверы добычи / анализа. Платформа реляционной базы данных используется для безопасного управления моделями и эффективного выполнения запросов SQL для больших объемов данных. Система организована вокруг нескольких общих операций, обеспечивающих общий унифицированный интерфейс для функций интеллектуального анализа данных. Эти операции включают в себя функции для создания, apply, test и управления моделями интеллектуального анализа данных. Модели создаются и хранятся как, а управление ими осуществляется в базе данных - аналогично таблицам, представлениям, индексам и другим объектам базы данных.
В интеллектуальном анализе данных процесс использования модели для получения прогнозов или описаний поведения, которое еще не произошло, называется «оценкой». В традиционных аналитических инструментальных средствах модель, построенная в аналитическом механизме, должна быть развернута в критически важной системе для оценки новых данных, или данные перемещаются из реляционных таблиц в аналитическую рабочую среду - большинство инструментальных средств предлагает собственные интерфейсы для оценки. ODM упрощает развертывание модели, предлагая функции Oracle SQL для оценки данных, хранящихся прямо в базе данных. Таким образом, пользователь / разработчик приложения может использовать всю мощь Oracle SQL - с точки зрения возможности конвейеризации и управления результатами на нескольких уровнях, а также с точки зрения распараллеливания и разделения доступа к данным для повышения производительности.
Модели можно создавать и управлять ими одним из нескольких способов. Oracle Data Miner предоставляет графический пользовательский интерфейс, который помогает пользователю в процессе создания, тестирования и применения моделей (например, в соответствии с методологией CRISP-DM ). Разработчики приложений и инструментов могут встраивать возможности прогнозного и описательного интеллектуального анализа данных, используя PL / SQL или Java API. Бизнес-аналитики могут быстро поэкспериментировать или продемонстрировать возможности прогнозной аналитики с помощью надстройки Oracle Spreadsheet для Predictive Analytics, специального интерфейса адаптера Microsoft Excel. ODM предлагает выбор из хорошо известных подходов машинного обучения, таких как Деревья решений, Наивный Байес, Поддержка векторных машин, Обобщенная линейная модель (GLM) для прогнозного интеллектуального анализа данных, правила ассоциации, K-средних и ортогональное разбиение кластеризация и неотрицательная матрица факторизация для описательного анализа. Также предоставляется метод на основе минимальной длины описания для оценки относительной важности входных атрибутов интеллектуального анализа данных для данной проблемы. Большинство функций Oracle Data Mining также позволяют интеллектуальный анализ текста, принимая атрибуты текста (неструктурированные данные ) в качестве входных данных. Пользователям не нужно настраивать параметры интеллектуального анализа текста - параметр базы данных Database_options обрабатывает это за кулисами.
Oracle Data Mining был впервые представлен в 2002 году, и его выпуски названы в соответствии с соответствующим выпуском базы данных Oracle:
Oracle Data Mining является логическим преемником набора инструментов интеллектуального анализа данных Darwin, разработанного Thinking Machines Corporation в середине 1990-х годов и позже распространен Oracle после приобретения Thinking Machines в 1999 году. Однако сам продукт является полностью переработанным и переписанным с нуля - в то время как Darwin был классическим аналитическим инструментом на основе графического интерфейса пользователя. workbench, ODM предлагает платформу разработки / развертывания интеллектуального анализа данных, интегрированную в базу данных Oracle, вместе с графическим интерфейсом Oracle Data Miner.
Новый графический интерфейс Oracle Data Miner 11gR2 для рабочих процессов был анонсирован на Oracle Open World 2009. Обновленный графический интерфейс Oracle Data Miner был выпущен в 2012 году. Он является бесплатным и доступен как расширение Oracle SQL Developer 3.1.
Начиная с версии 11gR1 Oracle Data Mining содержит следующие функции интеллектуального анализа данных :
Большинство функций Oracle Data Mining принимают в качестве входных данных одну реляционную таблицу или представление. Плоские данные могут быть объединены с транзакционными данными с помощью вложенных столбцов, что обеспечивает интеллектуальный анализ данных, включающих отношения «один-ко-многим» (например, звездообразная схема ). Полная функциональность SQL может использоваться при подготовке данных для интеллектуального анализа данных, включая даты и пространственные данные.
Oracle Data Mining различает числовые, категориальные и неструктурированные (текстовые) атрибуты. Продукт также предоставляет утилиты для этапов подготовки данных перед построением модели, такие как обработка выбросов, дискретизация, нормализация и биннинг (сортировка в общий язык)
Пользователи могут получить доступ к Oracle Data Mining через Oracle Data Miner, клиентское приложение GUI, которое обеспечивает доступ к функции интеллектуального анализа данных и структурированные шаблоны (называемые операциями интеллектуального анализа данных), которые автоматически определяют порядок операций, выполняют необходимые преобразования данных и задают параметры модели. Пользовательский интерфейс также позволяет автоматизировать создание кода Java и / или SQL, связанного с действиями интеллектуального анализа данных. Генератор кода Java - это расширение Oracle JDeveloper. Также существует независимый интерфейс: надстройка электронных таблиц для прогнозной аналитики, которая обеспечивает доступ к пакету Oracle Data Mining Predictive Analytics PL / SQL из Microsoft Excel.
из версии 11.2 из База данных Oracle, Oracle Data Miner интегрируется с Oracle SQL Developer.
Oracle Data Mining предоставляет собственный пакет PL / SQL ( DBMS_DATA_MINING) для создания, уничтожения, описания, применения, тестирования, экспорта и импорта моделей. В приведенном ниже коде показан типичный вызов для построения модели классификации :
BEGIN DBMS_DATA_MINING.CREATE_MODEL (model_name =>'credit_risk_model', function =>DBMS_DATA_MINING.classification, data_table_name =>'credit_card_data', case_card_data '>'customer_id', target_column_name =>'credit_risk', settings_table_name =>'credit_risk_model_settings'); КОНЕЦ;
где 'credit_risk_model' - это название модели, созданное для прямой цели классификации будущих клиентов '' credit_risk '' на основе данных обучения, представленных в таблице 'credit_card_data', каждый случай отличается уникальным 'customer_id', с остальные параметры модели указаны в таблице credit_risk_model_settings.
Oracle Data Mining также поддерживает Java API в соответствии со стандартом Java Data Mining (JDM) для интеллектуального анализа данных (JSR-73) для обеспечения интеграции с веб-приложениями и приложениями Java EE, а также для облегчения переносимости между платформами.
Начиная с версии 10gR2, Oracle Data Mining содержит встроенные функции SQL для оценки моделей интеллектуального анализа данных. Эти однорядные функции поддерживают классификацию, регрессию, обнаружение аномалий, кластеризацию и извлечение признаков. Приведенный ниже код иллюстрирует типичное использование модели классификации :
ВЫБРАТЬ имя_клиента ИЗ данных кредитной_карты ГДЕ ПРОГНОЗ (кредитная_риск_модель ИСПОЛЬЗОВАНИЕ *) = 'НИЗКОЕ' И customer_value = 'ВЫСОКОЕ';
В версии 11gR2 (11.2.0.2) ODM поддерживает импорт созданного извне PMML для некоторых моделей интеллектуального анализа данных. PMML - это стандарт на основе XML для представления моделей интеллектуального анализа данных.
Пакет PL / SQL DBMS_PREDICTIVE_ANALYTICS автоматизирует процесс интеллектуального анализа данных, включая предварительную обработку данных, построение модели и оценку, а также оценку новых данных. Операция PREDICT используется для прогнозирования классификации или регрессии целевых значений, в то время как EXPLAIN ранжирует атрибуты в порядке влияния при объяснении выбора функции целевого столбца. Новая функция 11g PROFILE находит сегменты клиентов и их профили по целевому атрибуту. Эти операции могут использоваться как часть рабочего конвейера, предоставляющего действенные результаты, или отображаться для интерпретации конечными пользователями.