Теория образов, сформулированная Ульфом Гренандером, представляет собой математический формализм описывать познание мира как паттерны. Он отличается от других подходов к искусственному интеллекту тем, что не начинается с предписания алгоритмов и механизмов для распознавания и классификации шаблонов; скорее, он предписывает словарь, чтобы сформулировать и преобразовать концепции шаблонов точным языком. Обширная по своему математическому охвату теория шаблонов охватывает алгебру и статистику, а также локальные топологические и глобальные энтропийные свойства.
В дополнение к новому алгебраическому словарю, его статистический подход является новым по своей цели:
Группа теории паттернов Университета Брауна была сформирована в 1972 году Ульфом Гренандером. В настоящее время в этой группе работают многие математики, среди которых стоит отметить медалист Филдса Дэвид Мамфорд. Мамфорд считает Гренандера своим «гуру» в теории образов.
Мы начинаем с примера, чтобы мотивировать следующие алгебраические определения. Если мы хотим представить языковые шаблоны, наиболее непосредственным кандидатом на роль примитивов могут быть слова. Однако задайте фразы, такие как «для того, чтобы» немедленно указать на несоответствие слов как атомов. При поиске других примитивов мы могли бы попробовать правила грамматики. Мы можем представить грамматики как конечные автоматы или контекстно-свободные грамматики. Ниже приведен образец конечного автомата грамматики.
Следующие фразы генерируются из несколько простых правил автомата и программного кода в теории шаблонов:
Для создания таких предложений правила переписывания в конечных автоматах действуют как генераторы для создания предложений следующим образом: если машина запускается в состоянии 1, она переходит в состояние 2 и записывает слово «the». Из состояния 2 она записывает одно из четырех слов: принц, мальчик, принцесса, девочка, выбран в Rando м. Вероятность выбора любого данного слова дается цепью Маркова, соответствующей автомату. Такой упрощенный автомат иногда порождает более неудобные предложения:
Из диаграммы конечных состояний мы можем вывести следующие генераторы (показанные справа), которые создают сигнал. Генератор - это 4-кортеж: текущее состояние, следующее состояние, написанное слово, вероятность написания слова, когда есть несколько вариантов выбора. То есть каждый генератор является стрелкой перехода между состояниями на диаграмме состояний для цепи Маркова.
Представьте, что конфигурация генераторов связана линейно, так что ее выходные данные образуют предложение, так что каждый генератор «привязывается» к генераторам до и после него. Обозначим эти связи как 1x, 1y, 2x, 2y,... 12x, 12y. Каждая числовая метка соответствует состоянию автомата, а каждая буква «x» и «y» соответствует входящим и исходящим связям. Тогда следующая таблица связей (слева) эквивалентна диаграмме автомата. Для простоты показана только половина таблицы связей - на самом деле таблица симметричная.
1x | 1y | 2x | 2y | 3x | 3y | 4x | 4y | 5x | 5y | 6x | 6y | 7x | 7y | 8x | 8y | 9x | 9y | 10x | 10y | 11x | 11y | 12x | 12y | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1x | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | 1 | — | — |
1y | — | 1 | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | |
2x | — | 1 | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | ||
2y | — | 1 | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | |||
3x | — | — | — | — | — | — | — | — | — | 1 | — | — | — | — | — | — | — | — | — | — | ||||
3y | — | 1 | — | — | — | — | — | — | — | 1 | — | — | — | — | — | — | — | — | — | |||||
4x | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | ||||||
4y | — | 1 | — | 1 | — | — | — | — | — | — | — | — | — | — | — | — | — | |||||||
5x | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | ||||||||
5y | — | 1 | — | — | — | — | — | — | — | — | — | — | — | — | — | |||||||||
6x | — | — | — | — | — | — | — | — | — | — | — | — | — | — | ||||||||||
6y | — | 1 | — | — | — | — | — | — | — | — | — | — | — | |||||||||||
7x | — | 1 | — | — | — | — | — | — | — | — | — | — | ||||||||||||
7y | — | — | — | — | — | — | — | — | — | — | — | |||||||||||||
8x | — | — | — | — | — | — | — | — | — | — | ||||||||||||||
8y | — | 1 | — | — | — | — | — | — | — | |||||||||||||||
9x | — | — | — | — | — | — | — | — | ||||||||||||||||
9y | — | 1 | — | — | — | — | — | |||||||||||||||||
10x | — | — | — | — | — | — | ||||||||||||||||||
10y | — | 1 | — | — | — | |||||||||||||||||||
11x | — | 1 | — | — | ||||||||||||||||||||
11y | — | 1 | — | |||||||||||||||||||||
12x | — | — | ||||||||||||||||||||||
12y | — |
Как видно из этого примера, что характерно для исследуемых сигналов, идентификация примитивов и таблиц связей требует некоторого размышления. В этом примере подчеркивается еще один важный факт, не очевидный в других проблемах с сигналами: конфигурация не является наблюдаемым сигналом; скорее наблюдается его образ как предложения. В этом заключается существенное обоснование различия наблюдаемой и ненаблюдаемой конструкции. Кроме того, он предоставляет алгебраическую структуру для связи со скрытыми марковскими моделями. В сенсорных примерах, таких как пример видения ниже, скрытые конфигурации и наблюдаемые изображения гораздо более похожи, и такое различие может показаться неоправданным. К счастью, пример грамматики напоминает нам об этом различии.
Более сложный пример можно найти в грамматике ссылок теория естественного языка.
На основе этого примера мы имеем следующее определения:
С помощью генераторов и полных таблиц связей выполняется сложная часть анализа структуры. При рассмотрении нового класса сигналов и функций задача разработки генераторов и таблицы связей становится намного более сложной.
Опять же, как и в грамматиках, определение генераторов и таблиц связей требует некоторого размышления. Столь же тонкий факт, что конфигурация - это не сигнал, который мы наблюдаем. Скорее, мы наблюдаем его изображение как силуэтные проекции правила идентификации.
Связь. Значения | 0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|---|
0 | 1 | — | — | — | 1 | — |
1 | 1 | — | — | — | 1 | |
2 | — | 1 | — | — | ||
3 | — | — | — | |||
4 | — | — | ||||
5 | — |
Теория паттернов определяет порядок в терминах интересующей характеристики, заданной p (c).
Теория паттернов Гренандера, рассматривающая байесовский вывод в теории паттернов, кажется, смещена в сторону реконструкции изображения (например, память с адресацией по содержимому ). Это изображение I-деформированное, найти I. Однако Мамфорд интерпретирует теорию паттернов шире, и он определяет PT как включающий в себя многие другие хорошо известные статистические методы. Критерии Мамфорда для включения темы в качестве теории шаблонов - это методы, «характеризующиеся общими приемами и мотивациями», такие как HMM, алгоритм EM, динамическое программирование круг идей. Темы в этом разделе будут отражать подход Мамфорда к теории образов. Его принципы статистической теории паттернов заключаются в следующем:
Статистический PT повсеместно использует условную вероятность в форме теоремы Байеса и моделей Маркова. Оба эти понятия используются для выражения связи между скрытыми состояниями (конфигурациями) и наблюдаемыми состояниями (изображениями). Марковские модели также фиксируют локальные свойства стимула, напоминающие цель таблицы связей для регулярности.
Общая настройка следующая:
Пусть s = скрытое состояние данных, которые мы хотим знать. i = наблюдаемое изображение. Теорема Байеса дает:
Следующие примеры условной вероятности иллюстрируют эти методы в действии:
Текстовые строки N-грамм: см. Теорию шаблонов Мамфорда на примерах, глава 1.
MAP ~ MDL (MDL дает представление о том, почему вероятностная формулировка MAP имеет аналитический смысл)
Предположим, мы хотим перевести предложения французского на английский. Здесь скрытые конфигурации - это предложения на английском языке, а наблюдаемый сигнал, который они генерируют, - предложения на французском языке. Теорема Байеса дает p (e | f) p (f) = p (e, f) = p (f | e) p (e) и сводится к фундаментальному уравнению машинного перевода: максимизировать p (e | f) = p (f | e) p (e) над соответствующим e (обратите внимание, что p (f) не зависит от e и поэтому выпадает, когда мы максимизируем над e). Это сводит проблему к трем основным вычислениям для:
Анализ кажется симметричным по отношению к двум языкам, и если мы думаем, что можем вычислить p (f | e), почему бы не перевернуть анализ и не вычислить p (e | f) напрямую? Причина в том, что при вычислении p (f | e) делается асимметричное предположение о том, что исходное предложение правильно сформировано, и мы не можем сделать такое предположение о целевом переводе, потому что мы не знаем, во что оно будет переводиться.
Теперь мы сосредоточимся на p (f | e) в разложении на три части выше. Две другие части, p (e) и максимизация e, используют те же методы, что и модель N-грамм. Учитывая французско-английский перевод большого набора обучающих данных (такие наборы данных существуют в канадском парламенте ):
NULL И программа была реализована Le program a ete mis en application
пара предложений может быть закодирована как выравнивание (2, 3, 4, 5, 6, 6, 6), которое читается следующим образом: первое слово во французском языке происходит от второго английского слова, второе слово в Французский происходит от третьего английского слова и так далее. Хотя выравнивание - это прямое кодирование перевода, более удобный в вычислительном отношении подход к выравниванию - разбить его на четыре параметра:
Для простоты демонстрации алгоритма EM мы проведем простое вычисление, включающее только вероятности трансляции t (), но, разумеется, этот метод применим ко всем параметрам во всей их красе. Рассмотрим упрощенный случай (1) без слова NULL (2), где каждое слово имеет фертильность 1 и (3) вероятность искажения отсутствует. Наш корпус обучающих данных будет содержать пары из двух предложений: bc → xy и b → y. Перевод английского предложения из двух слов «b c» во французское предложение «x y» имеет два возможных выравнивания, включая слова из одного предложения, выравнивания следующие:
b c b c b | | х | x y x y y
называются Parallel, Crossed и Singleton соответственно.
Чтобы проиллюстрировать алгоритм EM, сначала установите желаемый параметр единообразно, то есть
Затем EM выполняет итерацию следующим образом
Итерации алгоритма EMВероятность выравнивания для «перекрестного выравнивания» (где b соединяется с y) получила повышение от второй пары предложений b / y. Это еще больше укрепило t (y | b), но как побочный эффект также увеличило t (x | c), потому что x соединяется с c в том же «перекрестном выравнивании». Эффект повышения t (x | c) обязательно означает понижение рейтинга t (y | c), потому что они в сумме равны единице. Итак, даже если y и c встречаются одновременно, анализ показывает, что они не являются переводами друг друга. С реальными данными EM также подвержена обычным ловушкам локальных экстремумов.
В течение десятилетий распознавание речи казалось, зашло в тупик, поскольку ученые искали описательное и аналитическое решение. Звуковая волна p (t) ниже создается при произнесении слова «лыжа».
Его четыре отдельных сегмента имеют очень разные характеристики. Можно выбрать один из многих уровней генераторов (скрытых переменных): намерение мозга говорящего, состояние рта и голосовых связок, или ' сами телефоны. Телефоны являются генератором выбора, и он кодирует слово шумным, очень разнообразным способом. Ранние работы по распознаванию речи пытались сделать этот вывод детерминированным образом, используя логические правила, основанные на двоичных характеристиках, извлеченных из p (t). Например, в таблице ниже показаны некоторые особенности, используемые для различения английских согласных.
В реальных ситуациях сигнал дополнительно усложняется фоновыми шумами, такими как проезжающие машины, или артефактами, такими как кашель в середине предложения (2-е подкрепление Мамфорда). Детерминированный подход, основанный на правилах, потерпел неудачу, и современное состояние (например, Dragon NaturallySpeaking ) заключается в использовании семейства точно настроенных HMM и байесовских оценок MAP для повышения эффективности. Подобные истории разыгрываются в видении и других категориях стимулов.
p | t | k | b | d | g | m | n | f | s | v | z | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Континуант | — | — | — | — | — | — | — | — | + | + | + | + |
Звонкий | — | — | — | + | + | + | + | + | — | — | + | + |
Носовой | — | — | — | — | — | — | + | + | — | — | — | — |
Лабиальный | + | — | — | + | — | — | + | — | + | — | + | — |
Венечный | — | + | — | — | + | — | — | + | — | + | — | + |
Передний | + | + | — | + | + | — | + | + | + | + | + | + |
Страйдент | — | — | — | — | — | — | — | — | + | + | + | + |
(см. Теорию образов Мамфорда: математика восприятия) Марковский стохастический процесс изображен следующим образом: экспоненты, алгоритм EM |