Теория образов

редактировать

Теория образов, сформулированная Ульфом Гренандером, представляет собой математический формализм описывать познание мира как паттерны. Он отличается от других подходов к искусственному интеллекту тем, что не начинается с предписания алгоритмов и механизмов для распознавания и классификации шаблонов; скорее, он предписывает словарь, чтобы сформулировать и преобразовать концепции шаблонов точным языком. Обширная по своему математическому охвату теория шаблонов охватывает алгебру и статистику, а также локальные топологические и глобальные энтропийные свойства.

В дополнение к новому алгебраическому словарю, его статистический подход является новым по своей цели:

  • Идентифицировать скрытые переменные в наборе данных с использованием реальных данных, а не искусственных стимулов, что раньше было обычным явлением.
  • Сформулируйте априорные распределения для скрытых переменных и модели для наблюдаемых переменных, которые образуют вершины гиббса -подобного график.
  • Изучите случайность и изменчивость этих графиков.
  • Создайте базовые классы стохастических моделей, применяемых, перечислив деформации шаблонов.
  • Синтезируйте (выборку) из моделей, а не просто анализируйте сигналы с их помощью.

Группа теории паттернов Университета Брауна была сформирована в 1972 году Ульфом Гренандером. В настоящее время в этой группе работают многие математики, среди которых стоит отметить медалист Филдса Дэвид Мамфорд. Мамфорд считает Гренандера своим «гуру» в теории образов.

Содержание
  • 1 Пример: грамматика естественного языка
  • 2 Алгебраические основы
  • 3 Энтропия
  • 4 Статистика
    • 4.1 Условная вероятность для местных свойств
    • 4.2 Условная вероятность для скрытых наблюдаемых состояний
      • 4.2.1 Теорема Байеса для машинного перевода
      • 4.2.2 HMM для распознавания речи
  • 5 См. Также
  • 6 Ссылки
  • 7 Дополнительная литература
  • 8 Внешние ссылки
Пример: Грамматика естественного языка
Грамматический автомат Генераторы грамматики

Мы начинаем с примера, чтобы мотивировать следующие алгебраические определения. Если мы хотим представить языковые шаблоны, наиболее непосредственным кандидатом на роль примитивов могут быть слова. Однако задайте фразы, такие как «для того, чтобы» немедленно указать на несоответствие слов как атомов. При поиске других примитивов мы могли бы попробовать правила грамматики. Мы можем представить грамматики как конечные автоматы или контекстно-свободные грамматики. Ниже приведен образец конечного автомата грамматики.

Следующие фразы генерируются из несколько простых правил автомата и программного кода в теории шаблонов:

мальчик, которому принадлежал небольшой коттедж, ушел в глухой лес
принц пошел к озеру
девушка пошла к озеру, а принцесса пошла к озеру
прекрасный принц пошел в темный лес

Для создания таких предложений правила переписывания в конечных автоматах действуют как генераторы для создания предложений следующим образом: если машина запускается в состоянии 1, она переходит в состояние 2 и записывает слово «the». Из состояния 2 она записывает одно из четырех слов: принц, мальчик, принцесса, девочка, выбран в Rando м. Вероятность выбора любого данного слова дается цепью Маркова, соответствующей автомату. Такой упрощенный автомат иногда порождает более неудобные предложения:

злой злой принц шел к озеру
принц шел в темный лес, а принц шел в лес и принцесса, которая жила в каком-то большом маленьком большой коттедж, которому принадлежал маленький большой маленький дом, ушел в лес

Из диаграммы конечных состояний мы можем вывести следующие генераторы (показанные справа), которые создают сигнал. Генератор - это 4-кортеж: текущее состояние, следующее состояние, написанное слово, вероятность написания слова, когда есть несколько вариантов выбора. То есть каждый генератор является стрелкой перехода между состояниями на диаграмме состояний для цепи Маркова.

Представьте, что конфигурация генераторов связана линейно, так что ее выходные данные образуют предложение, так что каждый генератор «привязывается» к генераторам до и после него. Обозначим эти связи как 1x, 1y, 2x, 2y,... 12x, 12y. Каждая числовая метка соответствует состоянию автомата, а каждая буква «x» и «y» соответствует входящим и исходящим связям. Тогда следующая таблица связей (слева) эквивалентна диаграмме автомата. Для простоты показана только половина таблицы связей - на самом деле таблица симметричная.

1x1y2x2y3x3y4x4y5x5y6x6y7x7y8x8y9x9y10x10y11x11y12x12y
1x1
1y1
2x1
2y1
3x1
3y11
4x
4y11
5x
5y1
6x
6y1
7x1
7y
8x
8y1
9x
9y1
10x
10y1
11x1
11y1
12x
12y

Как видно из этого примера, что характерно для исследуемых сигналов, идентификация примитивов и таблиц связей требует некоторого размышления. В этом примере подчеркивается еще один важный факт, не очевидный в других проблемах с сигналами: конфигурация не является наблюдаемым сигналом; скорее наблюдается его образ как предложения. В этом заключается существенное обоснование различия наблюдаемой и ненаблюдаемой конструкции. Кроме того, он предоставляет алгебраическую структуру для связи со скрытыми марковскими моделями. В сенсорных примерах, таких как пример видения ниже, скрытые конфигурации и наблюдаемые изображения гораздо более похожи, и такое различие может показаться неоправданным. К счастью, пример грамматики напоминает нам об этом различии.

Более сложный пример можно найти в грамматике ссылок теория естественного языка.

Алгебраические основы

На основе этого примера мы имеем следующее определения:

  1. A generatorg ∈ G {\ displaystyle g {\ in} G}g {\ in} G , обозначенный как
    1- и 2-мерные образующие
    , является примитивом теории образов, который генерирует наблюдаемый сигнал. Структурно это значение с интерфейсами, называемое связями b ∈ B {\ displaystyle b {\ in} B}b {\ in} B , которое соединяет g {\ displaystyle g}g для формирования генератора сигналов. 2 соседних генератора подключены, если их значения связи совпадают. Самокарты подобия s ∈ S {\ displaystyle s {\ in} S}s {\ in} S s: G ->G выражают инварианты мира, на который мы смотрим, такие как преобразования твердого тела или масштабирование.
  2. Объединяет генераторы клея в конфигурацию, c, которая создает сигнал на фоне Σ с глобальными характеристиками, описываемыми локально таблицей связывания с именем р {\ Displaystyle \ rho}\ rho . логическая функция ρ {\ displaystyle \ rho}\ rho является главным компонентом кортежа регулярности 4 , который определяется как
    ρ (c) = ∏ соседние связи b ′, b ″ ∈ c ρ (b ′, b ″). {\ displaystyle \ rho (c) = \ prod _ {{\ text {соседние связи}} b ', b' '\ in c} \ rho (b', b '').}\rho (c)=\prod _{{{\text{neighboring bonds }}b',b''\in c}}\rho (b',b'').
    ρ {\ displaystyle \ rho}\ rho похоже отражает понятие допустимых соседей генератора. То есть, регулярность - это закон домена стимула, определяющий через таблицу связей, какие соседи являются приемлемыми для генератора. Это законы стимульной области. Позже мы ослабим регулярность логической функции до значения вероятности, она будет фиксировать, какие соседи стимула являются вероятными. Σ - физическое расположение генераторов. В видении это может быть двухмерная решетка. На языке это линейное расположение.
  3. Изображение (C mod R) фиксирует понятие наблюдаемой Конфигурации, в отличие от той, которая существует независимо от любого аппарата восприятия. Образы - это конфигурации, отличающиеся только своими внешними связями, наследующие преобразования композиции и подобия конфигурации. Формально изображения представляют собой классы эквивалентности, разделенные правилом идентификации «~» с 3 свойствами:
    1. ext (c) = ext (c '), когда c ~ c'
    2. sc ~ sc 'всякий раз, когда c ~ c '
    3. sigma (c1, c2) ~ sigma (c1', c2 ') всякий раз, когда c1 ~ c1', c2 ~ c2 'все регулярны.
    Конфигурация, соответствующая Физический стимул может иметь множество изображений, что соответствует правилу идентификации многих наблюдателей.
  4. A шаблон - это повторяющиеся компоненты изображения, определенные как S-инвариантное подмножество изображения. Сходства - это эталонные преобразования, которые мы используем для определения шаблонов, например преобразования твердого тела. На первый взгляд, это определение подходит только для текстурных узоров, в которых минимальное фрагмент изображения повторяется снова и снова. Если бы мы увидели изображение объекта, такого как собака, оно не повторялось, но казалось бы знакомым и должно быть образцом.
  5. A деформация - это преобразование исходного изображения, которое учитывает шум в окружающей среде и ошибку в аппарате восприятия. Гренандер выделяет 4 типа деформаций: шум и размытие, многомасштабная суперпозиция, искривление домена и прерывания.
    Пример 2 Направленная граница
    Конфигурация Изображение Генераторы
    Эта конфигурация генераторов, генерирующих изображение, создается примитивами, сплетенными вместе таблицей склеивания, и воспринимается наблюдателем с правило идентификации, которое отображает генераторы, отличные от «0» и «1», в один граничный элемент. Девять других не показанных генераторов создаются путем поворота каждого из генераторов, отличных от «0» и «1», на 90 градусов. Имея в виду особенность «направленных границ», генераторы приготовлены с некоторой мыслью и интерпретируются следующим образом: генератор «0» соответствует внутренним элементам, «1» - внешнему, «2» и его вращения - прямые элементы., а остальные - поворотные элементы.
    С логической регулярностью, определенной как Продукт (все связи nbr), любые конфигурации даже с одним генератором, нарушающим таблицу связей, не рассматриваются. Таким образом, разрешены только функции в чистом виде со всеми соседними генераторами, привязанными к таблице связей. Это жесткое условие можно ослабить с помощью вероятностных мер вместо таблиц логических облигаций.
    p (c) = ∏ соседние связи b ', b ″ ∈ c A (b', b ″) {\ displaystyle p (c) = \ prod _ {{\ text {соседние связи}} b ', b '' \ in c} A (b ', b' ')}p(c)=\prod _{{{\text{neighboring bonds }}b',b''\in c}}A(b',b'')
    Новая регулярность больше не диктует идеальную направленную границу, но определяет вероятность конфигурации в терминах функции акцептора A (). Такие конфигурации могут иметь примеси и дефекты по отношению к интересующему признаку.

    С помощью генераторов и полных таблиц связей выполняется сложная часть анализа структуры. При рассмотрении нового класса сигналов и функций задача разработки генераторов и таблицы связей становится намного более сложной.

    Опять же, как и в грамматиках, определение генераторов и таблиц связей требует некоторого размышления. Столь же тонкий факт, что конфигурация - это не сигнал, который мы наблюдаем. Скорее, мы наблюдаем его изображение как силуэтные проекции правила идентификации.

Логическая таблица истинности связывания
Связь. Значения012345
011
111
21
3
4
5
Энтропия

Теория паттернов определяет порядок в терминах интересующей характеристики, заданной p (c).

Энергия (c) = −log P (c)
Статистика

Теория паттернов Гренандера, рассматривающая байесовский вывод в теории паттернов, кажется, смещена в сторону реконструкции изображения (например, память с адресацией по содержимому ). Это изображение I-деформированное, найти I. Однако Мамфорд интерпретирует теорию паттернов шире, и он определяет PT как включающий в себя многие другие хорошо известные статистические методы. Критерии Мамфорда для включения темы в качестве теории шаблонов - это методы, «характеризующиеся общими приемами и мотивациями», такие как HMM, алгоритм EM, динамическое программирование круг идей. Темы в этом разделе будут отражать подход Мамфорда к теории образов. Его принципы статистической теории паттернов заключаются в следующем:

  • Используйте сигналы реального мира, а не построенные, чтобы сделать вывод о скрытых состояниях, представляющих интерес.
  • Такие сигналы содержат слишком много сложности и артефактов, чтобы поддаться чисто детерминированному анализу., поэтому используйте также стохастические методы.
  • Соблюдайте естественную структуру сигнала, включая любые симметрии, независимость частей, маржинальные значения ключевой статистики. Подтвердите выборкой из производных моделей и сделайте вывод о скрытых состояниях с помощью правила Байеса.
  • Во всех модальностях ограниченное семейство деформаций искажает чистые модели в сигналы реального мира.
  • Стохастические факторы, влияющие на наблюдения показывают сильную условную независимость.

Статистический PT повсеместно использует условную вероятность в форме теоремы Байеса и моделей Маркова. Оба эти понятия используются для выражения связи между скрытыми состояниями (конфигурациями) и наблюдаемыми состояниями (изображениями). Марковские модели также фиксируют локальные свойства стимула, напоминающие цель таблицы связей для регулярности.

Общая настройка следующая:

Пусть s = скрытое состояние данных, которые мы хотим знать. i = наблюдаемое изображение. Теорема Байеса дает:

p (s | i) p (i) = p (s, i) = p (i | s) p (s)
Чтобы проанализировать сигнал (распознавание): зафиксируйте i, максимизируйте p, вывести s.
Синтезировать сигналы (выборка): зафиксировать s, сгенерировать i, сравнить с изображениями реального мира

Следующие примеры условной вероятности иллюстрируют эти методы в действии:

Условная вероятность для локальных свойств

Текстовые строки N-грамм: см. Теорию шаблонов Мамфорда на примерах, глава 1.

MAP ~ MDL (MDL дает представление о том, почему вероятностная формулировка MAP имеет аналитический смысл)

Условная вероятность для скрытых наблюдаемых состояний

Теорема Байеса для машинного перевода

Предположим, мы хотим перевести предложения французского на английский. Здесь скрытые конфигурации - это предложения на английском языке, а наблюдаемый сигнал, который они генерируют, - предложения на французском языке. Теорема Байеса дает p (e | f) p (f) = p (e, f) = p (f | e) p (e) и сводится к фундаментальному уравнению машинного перевода: максимизировать p (e | f) = p (f | e) p (e) над соответствующим e (обратите внимание, что p (f) не зависит от e и поэтому выпадает, когда мы максимизируем над e). Это сводит проблему к трем основным вычислениям для:

  1. p (e) для любого заданного e, с использованием метода N-граммы и динамического программирования
  2. p (f | e) для любых заданных e и f, с использованием выравнивания и алгоритма максимизации ожидания (EM)
  3. e, который максимизирует произведение 1 и 2, опять же, с использованием динамического программирования

Анализ кажется симметричным по отношению к двум языкам, и если мы думаем, что можем вычислить p (f | e), почему бы не перевернуть анализ и не вычислить p (e | f) напрямую? Причина в том, что при вычислении p (f | e) делается асимметричное предположение о том, что исходное предложение правильно сформировано, и мы не можем сделать такое предположение о целевом переводе, потому что мы не знаем, во что оно будет переводиться.

Теперь мы сосредоточимся на p (f | e) в разложении на три части выше. Две другие части, p (e) и максимизация e, используют те же методы, что и модель N-грамм. Учитывая французско-английский перевод большого набора обучающих данных (такие наборы данных существуют в канадском парламенте ):

NULL И программа была реализована Le program a ete mis en application

пара предложений может быть закодирована как выравнивание (2, 3, 4, 5, 6, 6, 6), которое читается следующим образом: первое слово во французском языке происходит от второго английского слова, второе слово в Французский происходит от третьего английского слова и так далее. Хотя выравнивание - это прямое кодирование перевода, более удобный в вычислительном отношении подход к выравниванию - разбить его на четыре параметра:

  1. Плодородие: количество слов во французской строке, которые будут связаны с ним. Например. n (3 | реализовано) = вероятность того, что «реализовано» переводится тремя словами - слово «плодовитость»
  2. Ложность: мы вводим артефакт NULL как слово, чтобы представить вероятность подбрасывания ложного французского слова. Например. p 1 и его дополнение будет p 0 = 1 - p 1.
  3. Перевод: переведенная версия каждого слова. Например. t (a | has) = ​​вероятность перевода английского слова «has» на французский «a».
  4. Искажение: фактические позиции во французской строке, которые будут занимать эти слова. Например. d (5 | 2, 4, 6) = искажение французского слова второй позиции, перемещающееся на пятую позицию английского слова для предложения из четырех слов и французского предложения из шести слов. Мы кодируем выравнивания таким образом, чтобы легко представлять и извлекать априорные значения из наших обучающих данных, и новая формула становится
p (f | e) = Sum по всем возможным выравниваниям an of p (a, f | e) = n 0 ( v 0 | ∑ j = 1 lvj) ⋅ ∏ j = 1 ln (vj | ej) vj! ⋅ ∏ J знак равно 1 мт (fj | eaj) ⋅ ∏ j: aj ≠ 0 мд (j | aj, l, m) {\ displaystyle {\ begin {align} p (f | e) = {\ text {Sum по всем возможным выравниваниям an of}} p (a, f | e) \\ = n_ {0} (v_ {0} | \ sum _ {j = 1} ^ {l} {v_ {j}}) \ cdot \ prod _ {j = 1} ^ {l} n (v_ {j} | e_ {j}) v_ {j}! \ ​​cdot \ prod _ {j = 1} ^ {m} t (f_ {j} | e_ {a_ {j}}) \ cdot \ prod _ {j: a_ {j} \ not = 0} ^ {m} d (j | a_ {j}, l, m) \ end {выравнивается}}}{\ displaystyle {\ begin {align} p (f | e) = {\ text {Сумма по всем возможным выравниваниям }} p (a, f | e) \\ = n_ {0} (v_ {0} | \ sum _ {j = 1} ^ {l} {v_ {j}}) \ cdot \ prod _ {j = 1} ^ {l} n (v_ {j} | e_ {j}) v_ {j}! \ ​​Cdot \ prod _ {j = 1} ^ {m} t (f_ {j} | e_ {a_ {j }}) \ cdot \ prod _ {j: a_ {j} \ not = 0} ^ {m} d (j | a_ {j}, l, m) \ end {align}}}

Для простоты демонстрации алгоритма EM мы проведем простое вычисление, включающее только вероятности трансляции t (), но, разумеется, этот метод применим ко всем параметрам во всей их красе. Рассмотрим упрощенный случай (1) без слова NULL (2), где каждое слово имеет фертильность 1 и (3) вероятность искажения отсутствует. Наш корпус обучающих данных будет содержать пары из двух предложений: bc → xy и b → y. Перевод английского предложения из двух слов «b c» во французское предложение «x y» имеет два возможных выравнивания, включая слова из одного предложения, выравнивания следующие:

b c b c b | | х | x y x y y

называются Parallel, Crossed и Singleton соответственно.

Чтобы проиллюстрировать алгоритм EM, сначала установите желаемый параметр единообразно, то есть

t (x | b) = t (y | b) = t (x | c) = t (y | c) = ⁄ 2

Затем EM выполняет итерацию следующим образом

Итерации алгоритма EM

Вероятность выравнивания для «перекрестного выравнивания» (где b соединяется с y) получила повышение от второй пары предложений b / y. Это еще больше укрепило t (y | b), но как побочный эффект также увеличило t (x | c), потому что x соединяется с c в том же «перекрестном выравнивании». Эффект повышения t (x | c) обязательно означает понижение рейтинга t (y | c), потому что они в сумме равны единице. Итак, даже если y и c встречаются одновременно, анализ показывает, что они не являются переводами друг друга. С реальными данными EM также подвержена обычным ловушкам локальных экстремумов.

HMM для распознавания речи

Вибрационное разрушение «лыжи»

В течение десятилетий распознавание речи казалось, зашло в тупик, поскольку ученые искали описательное и аналитическое решение. Звуковая волна p (t) ниже создается при произнесении слова «лыжа».

Его четыре отдельных сегмента имеют очень разные характеристики. Можно выбрать один из многих уровней генераторов (скрытых переменных): намерение мозга говорящего, состояние рта и голосовых связок, или ' сами телефоны. Телефоны являются генератором выбора, и он кодирует слово шумным, очень разнообразным способом. Ранние работы по распознаванию речи пытались сделать этот вывод детерминированным образом, используя логические правила, основанные на двоичных характеристиках, извлеченных из p (t). Например, в таблице ниже показаны некоторые особенности, используемые для различения английских согласных.

В реальных ситуациях сигнал дополнительно усложняется фоновыми шумами, такими как проезжающие машины, или артефактами, такими как кашель в середине предложения (2-е подкрепление Мамфорда). Детерминированный подход, основанный на правилах, потерпел неудачу, и современное состояние (например, Dragon NaturallySpeaking ) заключается в использовании семейства точно настроенных HMM и байесовских оценок MAP для повышения эффективности. Подобные истории разыгрываются в видении и других категориях стимулов.

Детерминированный подход к распознаванию речи
ptkbdgmnfsvz
Континуант++++
Звонкий+++++++
Носовой++
Лабиальный+++++
Венечный+++++
Передний++++++++++
Страйдент++++
(см. Теорию образов Мамфорда: математика восприятия)

Марковский стохастический процесс изображен следующим образом:

…, xk, xk + 1,… Pr (x, s) = ∏ kp 1 (xk | xk - 1) p 2 (sk | xk) {\ displaystyle \ dots, x_ {k}, x_ {k + 1}, \ dots \ Pr (x, s) = \ prod _ {k} p_ {1} (x_ {k} | x_ {k-1}) p_ {2} (s_ {k} | x_ {k})}\ dots, x_ {k}, x _ {{k + 1}}, \ dots \ Pr (x, s) = \ prod _ {k} p_ {1} (x_ {k} | x _ {{k-1}}) p_ {2} (s_ {k} | x_ {k})

экспоненты, алгоритм EM

См. Также
Ссылки
Дополнительная литература
  • 2007. Ульф Гренандер и теория паттернов Майкла Миллера: от представления к выводу. Издательство Оксфордского университета. Мягкая обложка. (ISBN 9780199297061 )
  • 1994. Общая теория шаблонов Ульфа Гренандера. Oxford Science Publications. (ISBN 978-0198536710 )
  • 1996. Ulf Grenander Elements of Pattern Theory. Johns Hopkins University Press. (ISBN 978-0801851889 )
Внешние ссылки
Последняя правка сделана 2021-06-01 05:33:49
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте