Анализ последовательного шаблона

редактировать

Анализ последовательного шаблона - это к Рисунок интеллектуального анализа данных связан с поиском статистически значимых закономерностей между примерами данных, где значения доставляются в последовательности. Обычно предполагается, что значения дискретны, и, таким образом, добыча временных рядов тесно связана, но обычно считается другой деятельностью. Последовательный анализ шаблонов - это частный случай анализа структурированных данных..

В этой области решаются несколько ключевых традиционных вычислительных проблем. К ним относятся создание эффективных баз данных и индексов для информации о последовательностях, извлечение часто встречающихся шаблонов, сравнение последовательностей на предмет сходства и восстановление отсутствующих членов последовательности. В общем, проблемы интеллектуального анализа последовательности могут быть классифицированы как интеллектуальный анализ строк, который обычно основан на алгоритмах обработки строк и интеллектуальный анализ набора элементов, который обычно основан на изучении правил ассоциации. Модели локальных процессов расширяют последовательный анализ шаблонов до более сложных шаблонов, которые могут включать (исключительные) варианты выбора, циклы и конструкции параллелизма в дополнение к конструкции последовательного упорядочения.

Содержание

1 Анализ строк
2 Анализ набора элементов
3 Приложения
4 Алгоритмы
5 См. Также
6 Ссылки
7 Внешние ссылки

Анализ строк

Анализ строки обычно имеет дело с ограниченным алфавитом для элементов, которые появляются в последовательности, но сама последовательность обычно может быть очень длинной. Примерами алфавита могут быть символы в наборе символов ASCII, используемые в тексте на естественном языке, нуклеотид с основаниями 'A', 'G', 'C' и 'T' в Последовательности ДНК или аминокислот для белковых последовательностей. В приложениях биология анализ расположения алфавита в строках можно использовать для изучения последовательностей гена и белка для определения их свойств. Знание последовательности букв ДНК или белка само по себе не является конечной целью. Скорее, основная задача состоит в том, чтобы понять последовательность с точки зрения ее структуры и биологической функции. Обычно это достигается сначала путем идентификации отдельных регионов или структурных единиц в каждой последовательности, а затем присвоения функции каждой структурной единице. Во многих случаях это требует сравнения заданной последовательности с ранее изученными. Сравнение между строками усложняется, когда в строке встречаются вставки, удаления и мутации.

Обзор и систематика ключевых алгоритмов сравнения последовательностей для биоинформатики представлены Abouelhoda Ghanem (2010), которые включают:

проблемы, связанные с повторением:, которые имеют дело с операциями с отдельными последовательностями и может быть основан на точном сопоставлении строк или приблизительном сопоставлении строк, методах поиска рассредоточенных повторов фиксированной длины и максимальной длины, нахождения тандемных повторов, а также нахождения уникальных подпоследовательностей и пропущенных (без написания) подпоследовательности.
Проблемы выравнивания:, которые касаются сравнения между строками путем первого выравнивания одной или нескольких последовательностей; Примеры популярных методов включают BLAST для сравнения одной последовательности с несколькими последовательностями в базе данных и ClustalW для множественных выравниваний. Алгоритмы выравнивания могут быть основаны либо на точных, либо на приближенных методах, а также могут быть классифицированы как глобальные выравнивания, полуглобальные выравнивания и локальные выравнивания. См. выравнивание последовательностей.

интеллектуальный анализ наборов элементов

Некоторые проблемы при интеллектуальном анализе последовательностей поддаются обнаружению часто встречающихся наборов элементов и порядка их появления, например, кто-то ищет правила формы «если {покупатель покупает автомобиль}, он или она, вероятно, {купят страховку} в течение 1 недели ", или в контексте цен на акции," если {Nokia подорожает, а Ericsson подорожает}, вполне вероятно, что {Motorola подорожает, а Samsung поднимается} в течение 2 дней ». Традиционно интеллектуальный анализ наборов элементов данных используется в маркетинговых приложениях для выявления закономерностей между часто встречающимися элементами в крупных транзакциях. Например, анализируя транзакции покупательских корзин в супермаркете, можно выработать правило, которое гласит: «Если клиент покупает лук и картофель вместе, он или она, вероятно, также купит мясо для гамбургеров в той же транзакции».

Обзор и таксономия ключевых алгоритмов интеллектуального анализа наборов элементов представлены Han et al. (2007).

Двумя общими методами, которые применяются к базам данных последовательностей для частого анализа наборов элементов, являются влиятельный априорный алгоритм и более поздний FP -рост техника.

Приложения

С большим разнообразием продуктов и покупательского поведения пользователей полка, на которой выставлены продукты, является одним из наиболее важных ресурсов в розничной торговле. Розничные торговцы могут не только увеличить свою прибыль, но и снизить затраты за счет правильного управления распределением полочного пространства и выкладкой товаров. Чтобы решить эту проблему, Джордж и Бину (2013) предложили подход к поиску пользовательских моделей покупок с использованием алгоритма PrefixSpan и размещению продуктов на полках в соответствии с порядком добытых моделей покупок.

Алгоритмы

Обычно используемые алгоритмы включают:

алгоритм GSP
обнаружение последовательного шаблона с использованием классов эквивалентности (SPADE)
FreeSpan
PrefixSpan
MAPres
Seq2Pat (для последовательного анализа шаблонов на основе ограничений)

См. Также

Ссылки

Внешние ссылки

SPMF включает реализации с открытым исходным кодом GSP, PrefixSpan, SPADE, SPAM и многие другие.