Контекст формы - это дескриптор объекта, используемый в распознавании объекта. Серж Белонги и Джитендра Малик предложили термин в своей статье «Сопоставление с контекстами формы» в 2000 году.
Контекст формы предназначен для описания форм, позволяющего измерять сходство форм и восстанавливать точечные соответствия. Основная идея состоит в том, чтобы указать n точек на контурах фигуры. Для каждой точки p i на фигуре рассмотрим n - 1 векторов, полученных путем соединения p i со всеми другими точками. Набор всех этих векторов является богатым описанием формы, локализованной в этой точке, но слишком подробным. Ключевая идея состоит в том, что распределение по относительным позициям является надежным, компактным и очень разборчивым дескриптором. Итак, для точки p i грубая гистограмма относительных координат оставшихся n - 1 точек,
определяется как контекст формы . Бины обычно считаются однородными в лог-полярном пространстве. Тот факт, что контекст формы является богатым и отличительным дескриптором, можно увидеть на рисунке ниже, на котором показаны контексты формы двух различных версий буквы «A».
(a) и (b) - выбранные точки края двух форм. (c) - диаграмма лог-полярных интервалов, используемых для вычисления контекста формы. (d) - контекст формы для точки, отмеченной кружком на (a), (e) - для точки, отмеченной как ромб в (b), и (f) - для треугольника. Как можно видеть, поскольку (d) и (e) являются контекстами формы для двух тесно связанных точек, они очень похожи, в то время как контекст формы в (f) сильно отличается.
Чтобы дескриптор функции был полезным, он должен иметь определенные инварианты. В частности, он должен быть инвариантным к перемещению, масштабированию, небольшим возмущениям и, в зависимости от приложения, вращению. Трансляционная инвариантность естественным образом формирует контекст. Масштабная инвариантность достигается путем нормализации всех радиальных расстояний на среднее расстояние между всеми парами точек в форме, хотя также можно использовать среднее расстояние. С помощью экспериментов по сопоставлению наборов синтетических точек эмпирически продемонстрирована устойчивость контекстов формы к деформациям, шуму и выбросам.
Можно обеспечить полную инвариантность вращения в контекстах формы. Один из способов - измерить углы в каждой точке относительно направления касательной в этой точке (поскольку точки выбираются на краях). Это приводит к полностью инвариантному относительно вращения дескриптору. Но, конечно, это не всегда желательно, поскольку некоторые локальные особенности теряют свою различительную способность, если их не измерить относительно того же кадра. Многие приложения фактически запрещают вращательную инвариантность, например отличая «6» от «9».
Полная система, использующая контексты формы для сопоставления формы, состоит из следующих шагов (которые будут более подробно описаны в Подробности реализации section):
Подход предполагает, что форма объекта, по существу, фиксируется конечным подмножеством точек на внутренних или внешних контурах объекта. Их можно легко получить, используя детектор краев Canny и выбирая случайный набор точек по краям. Обратите внимание, что эти точки не обязательно и, как правило, не соответствуют ключевым точкам, таким как максимумы кривизны или точки перегиба. Предпочтительно брать образец формы с примерно одинаковым интервалом, хотя это не критично.
Этот шаг подробно описан в разделе Теория.
Рассмотрим две точки p и q, которые имеют нормализованные гистограммы K-бинов (то есть контексты формы) g (k) и h (k). Поскольку контексты формы представляют собой распределения, представленные в виде гистограмм, естественно использовать статистику критерия χ в качестве «стоимости контекста формы» для сопоставления двух точек:
Значения этого диапазона от 0 до 1. В дополнение к стоимость контекста формы, может быть добавлена дополнительная стоимость в зависимости от внешнего вида. Например, это может быть мера различия тангенциального угла (особенно полезна при распознавании цифр):
Это равна половине длины хорды в единичной окружности между единичными векторами с углами и . Его значения также находятся в диапазоне от 0 до 1. Теперь общие затраты на сопоставление двух точек могут быть взвешенной суммой двух затрат:
Теперь для каждой точки p i на первой фигуре и точки q j на второй фигуре вычислите стоимость, как описано, и назовите ее C i, j. Это матрица затрат.
Теперь однозначное сопоставление p i, которое соответствует каждой точке p i на фигуре 1 и q j на фигуре 2, что минимизирует общую стоимость сопоставления,
. Это можно сделать за времени, используя венгерский метод, хотя есть более эффективные алгоритмы. Чтобы иметь надежную обработку выбросов, можно добавить «фиктивные» узлы, которые имеют постоянную, но достаточно высокую стоимость сопоставления с матрицей затрат. Это заставит алгоритм сопоставления сопоставить выбросы с «фиктивным», если нет реального сопоставления.
Учитывая набор соответствий между конечным набором точек на двух фигурах, преобразование можно оценить, чтобы отобразить любую точку из одной формы в другую. Есть несколько вариантов этого преобразования, описанных ниже.
аффинная модель - стандартный выбор: . Решение методом наименьших квадратов для матрицы и вектора смещения поступательного движения o получается следующим образом:
Где с аналогичным выражением для . является псевдообратной из .
Модель тонкая шлицевая пластина (TPS) - наиболее широко используемая модель для преобразований, когда работа с контекстами фигур. Двумерное преобразование можно разделить на две функции TPS для моделирования преобразования координат:
, где каждое из ƒ x и ƒ y имеют вид:
и функция ядра определяется как . Точные сведения о том, как найти параметры, можно найти в другом месте, но, по сути, это включает решение линейной системы уравнений. Энергия изгиба (мера того, сколько преобразований необходимо для выравнивания точек) также будет легко получена.
Приведенная выше формулировка TPS требует точного совпадения пар точек на двух формах. Для шумных данных лучше всего ослабить это точное требование. Если мы позволим обозначать значения целевой функции в соответствующих местах (Обратите внимание, что для , будет координата x точки, соответствующей и это будет координата y, ), ослабление требования сводится к минимизации
где - энергия изгиба, а называется параметром регуляризации. Эту, которая минимизирует H [ƒ], можно найти довольно просто. Если использовать нормализованные координаты для , то масштабная инвариантность сохраняется. Однако, если используются исходные ненормализованные координаты, необходимо нормализовать параметр регуляризации.
Обратите внимание, что во многих случаях, независимо от используемого преобразования, первоначальная оценка соответствий содержит некоторые ошибки, которые могут снизить качество преобразования. Если мы повторяем шаги поиска соответствий и оценки преобразований (то есть повторяя шаги 2–5 с вновь преобразованной формой), мы можем решить эту проблему. Как правило, для получения разумных результатов достаточно трех итераций.
Теперь расстояние формы между двумя формами и . Это расстояние будет взвешенной суммой трех потенциальных членов:
Расстояние контекста формы : это симметричная сумма затрат сопоставления контекста формы по точкам наилучшего сопоставления:
где T ( ·) - это расчетное преобразование TPS, которое сопоставляет точки в Q с точками в P.
Стоимость внешнего вида : после установления соответствий изображений и правильного деформирования одного изображения для соответствия другому, можно определить стоимость внешнего вида как сумму квадратов разностей яркости в гауссовых окнах вокруг соответствующих точек изображения:
где и - изображения уровня серого (- изображение после деформации) и - это оконная функция Гаусса.
Стоимость преобразования : Конечная стоимость измеряет, сколько преобразования необходимо для совмещения двух изображений. В случае TPS это энергия изгиба.
Теперь, когда у нас есть способ вычислить расстояние между двумя фигурами, мы можем использовать ближайший сосед классификатор (k-NN) с расстоянием, определенным как фигура расстояние рассчитывается здесь. Результаты применения этого к различным ситуациям приведены в следующем разделе.
Авторы Серж Белонги и Джитендра Малик протестировали свой подход в базе данных MNIST. На данный момент на базе данных протестировано более 50 алгоритмов. База данных содержит обучающий набор из 60 000 примеров и тестовый набор из 10 000 примеров. Частота ошибок для этого подхода составила 0,63% с использованием 20 000 обучающих примеров и 3-NN. На момент публикации этот коэффициент ошибок был самым низким. В настоящее время самый низкий уровень ошибок составляет 0,18%.
Авторы экспериментировали с базой данных силуэтов MPEG-7, выполняя основной эксперимент CE-Shape-1, часть B, который измеряет производительность поиска на основе сходства. База данных содержит 70 категорий фигур и 20 изображений на каждую категорию фигур. Производительность схемы поиска проверяется путем использования каждого изображения в качестве запроса и подсчета количества правильных изображений в первых 40 совпадениях. Для этого эксперимента авторы увеличили количество точек, взятых из каждой формы. Кроме того, поскольку фигуры в базе данных иногда поворачивались или зеркально отражались, авторы определили расстояние между эталонной формой и формой запроса как минимальное расстояние между фигурой запроса и либо неизмененной ссылкой, либо вертикально перевернутой, либо ссылкой по горизонтали. перевернулся. С этими изменениями они получили коэффициент извлечения 76,45%, что в 2002 году было лучшим.
В следующем эксперименте, проведенном с контекстами формы, участвовали 20 обычных предметов домашнего обихода из Колумбийской библиотеки изображений объектов (COIL-20). Каждый объект имеет 72 представления в базе данных. В эксперименте метод был обучен на нескольких равноотстоящих представлениях для каждого объекта, а оставшиеся представления использовались для тестирования. Использовался классификатор 1-НН. Авторы также разработали алгоритм редактирования, основанный на подобии контекста формы и кластеризации k-medoid, который улучшил их производительность.
Контексты формы использовались для извлечения товарные знаки, наиболее близкие к запрашиваемому товарному знаку из базы данных (полезно при обнаружении нарушения прав на товарный знак). Алгоритм не пропустил ни одного визуально похожего товарного знака (проверено авторами вручную).
| journal =
()