Анализ последовательного шаблона - это к Рисунок интеллектуального анализа данных связан с поиском статистически значимых закономерностей между примерами данных, где значения доставляются в последовательности. Обычно предполагается, что значения дискретны, и, таким образом, добыча временных рядов тесно связана, но обычно считается другой деятельностью. Последовательный анализ шаблонов - это частный случай анализа структурированных данных..
В этой области решаются несколько ключевых традиционных вычислительных проблем. К ним относятся создание эффективных баз данных и индексов для информации о последовательностях, извлечение часто встречающихся шаблонов, сравнение последовательностей на предмет сходства и восстановление отсутствующих членов последовательности. В общем, проблемы интеллектуального анализа последовательности могут быть классифицированы как интеллектуальный анализ строк, который обычно основан на алгоритмах обработки строк и интеллектуальный анализ набора элементов, который обычно основан на изучении правил ассоциации. Модели локальных процессов расширяют последовательный анализ шаблонов до более сложных шаблонов, которые могут включать (исключительные) варианты выбора, циклы и конструкции параллелизма в дополнение к конструкции последовательного упорядочения.
Анализ строки обычно имеет дело с ограниченным алфавитом для элементов, которые появляются в последовательности, но сама последовательность обычно может быть очень длинной. Примерами алфавита могут быть символы в наборе символов ASCII, используемые в тексте на естественном языке, нуклеотид с основаниями 'A', 'G', 'C' и 'T' в Последовательности ДНК или аминокислот для белковых последовательностей. В приложениях биология анализ расположения алфавита в строках можно использовать для изучения последовательностей гена и белка для определения их свойств. Знание последовательности букв ДНК или белка само по себе не является конечной целью. Скорее, основная задача состоит в том, чтобы понять последовательность с точки зрения ее структуры и биологической функции. Обычно это достигается сначала путем идентификации отдельных регионов или структурных единиц в каждой последовательности, а затем присвоения функции каждой структурной единице. Во многих случаях это требует сравнения заданной последовательности с ранее изученными. Сравнение между строками усложняется, когда в строке встречаются вставки, удаления и мутации.
Обзор и систематика ключевых алгоритмов сравнения последовательностей для биоинформатики представлены Abouelhoda Ghanem (2010), которые включают:
Некоторые проблемы при интеллектуальном анализе последовательностей поддаются обнаружению часто встречающихся наборов элементов и порядка их появления, например, кто-то ищет правила формы «если {покупатель покупает автомобиль}, он или она, вероятно, {купят страховку} в течение 1 недели ", или в контексте цен на акции," если {Nokia подорожает, а Ericsson подорожает}, вполне вероятно, что {Motorola подорожает, а Samsung поднимается} в течение 2 дней ». Традиционно интеллектуальный анализ наборов элементов данных используется в маркетинговых приложениях для выявления закономерностей между часто встречающимися элементами в крупных транзакциях. Например, анализируя транзакции покупательских корзин в супермаркете, можно выработать правило, которое гласит: «Если клиент покупает лук и картофель вместе, он или она, вероятно, также купит мясо для гамбургеров в той же транзакции».
Обзор и таксономия ключевых алгоритмов интеллектуального анализа наборов элементов представлены Han et al. (2007).
Двумя общими методами, которые применяются к базам данных последовательностей для частого анализа наборов элементов, являются влиятельный априорный алгоритм и более поздний FP -рост техника.
С большим разнообразием продуктов и покупательского поведения пользователей полка, на которой выставлены продукты, является одним из наиболее важных ресурсов в розничной торговле. Розничные торговцы могут не только увеличить свою прибыль, но и снизить затраты за счет правильного управления распределением полочного пространства и выкладкой товаров. Чтобы решить эту проблему, Джордж и Бину (2013) предложили подход к поиску пользовательских моделей покупок с использованием алгоритма PrefixSpan и размещению продуктов на полках в соответствии с порядком добытых моделей покупок.
Обычно используемые алгоритмы включают: