Схема распознавания объекта

редактировать

Эта статья посвящена распознаванию объектов в компьютерном зрении. Для распознавания объектов в нейробиологии см когнитивную нейробиологию распознавания визуальных объектов.

Следующий план представляет собой обзор и тематическое руководство по распознаванию объектов:

Распознавание объектов - технология в области компьютерного зрения для поиска и идентификации объектов на изображении или видеопоследовательности. Люди распознают множество объектов на изображениях с небольшими усилиями, несмотря на то, что изображение объектов может несколько отличаться в разных точках обзора, во многих разных размерах и масштабах или даже при их перемещении или повороте. Объекты можно распознать даже тогда, когда они частично закрыты для обзора. Эта задача по-прежнему остается проблемой для систем компьютерного зрения. Многие подходы к этой задаче были реализованы за несколько десятилетий.

СОДЕРЖАНИЕ

1 Подходы, основанные на объектных моделях типа САПР
- 1.1 Распознавание по частям
2 Методы, основанные на внешнем виде
- 2.1 Сопоставление кромок
- 2.2 Поиск по принципу " разделяй и властвуй"
- 2.3 Согласование оттенков серого
- 2.4 Согласование градиента
- 2.5 Гистограммы ответов рецептивного поля
- 2.6 Большие модели
3 Функциональные методы
- 3.1 Деревья интерпретации
- 3.2 Выдвинуть гипотезу и проверить
- 3.3 Последовательность позы
- 3.4 Кластеризация поз
- 3.5 Инвариантность
- 3.6 Геометрическое хеширование
- 3.7 Масштабно-инвариантное преобразование признаков (SIFT)
- 3.8 Ускоренные надежные функции (SURF)
- 3.9 Мешок представлений слов
4 Генетический алгоритм
5 Другие подходы
6 приложений
7 Обзоров
8 См. Также
9 Примечания
10 Ссылки
11 Внешние ссылки

Подходы, основанные на объектных моделях типа САПР

Распознавание по частям

Обобщенные цилиндры ( Томас Бинфорд )
Джеонс ( Ирвинг Бидерман )
Дикинсон, Форсайт и Понсе

Методы, основанные на внешнем виде

Используйте образцы изображений (называемые шаблонами или образцами) объектов для распознавания
Объекты выглядят по-разному в разных условиях:
- Изменения освещения или цвета
- Изменения направления взгляда
- Изменения в размере / форме
Единичный экземпляр вряд ли получится надежно. Однако невозможно представить все образы объекта.

Сопоставление краев

Использует методы обнаружения краев, такие как обнаружение краев Canny, для поиска краев.
Изменения освещения и цвета обычно не сильно влияют на края изображения.
Стратегия:
1. Обнаружение краев в шаблоне и изображении
2. Сравните изображения краев, чтобы найти шаблон
3. Необходимо учитывать диапазон возможных позиций шаблона
Размеры:
- Хорошо - посчитайте количество пересекающихся краев. Не устойчив к изменениям формы
- Лучше - подсчитать количество пикселей края шаблона с некоторым расстоянием до края в поисковом изображении
- Наилучшее - определить распределение вероятностей расстояния до ближайшего края в поисковом изображении (если шаблон находится в правильном положении). Оцените вероятность того, что каждая позиция шаблона генерирует изображение

Разделяй и властвуй поиск

Стратегия:
- Рассматривайте все позиции как набор (ячейку в пространстве позиций)
- Определить нижнюю границу оценки в лучшем положении в ячейке
- Если граница слишком велика, обрежьте ячейку
- Если граница не слишком велика, разделите ячейку на подъячейки и рекурсивно попробуйте каждую подъячейку
- Процесс останавливается, когда ячейка «достаточно мала»
В отличие от поиска с несколькими разрешениями, этот метод гарантированно найдет все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
В поисках границы:
- Чтобы найти нижнюю границу наилучшего результата, посмотрите на оценку для позиции шаблона, представленной центром ячейки.
- Вычтите максимальное изменение из «центрального» положения для любой другой позиции в ячейке (происходит в углах ячейки).
Сложности возникают из-за определения границ расстояния

Соответствие оттенков серого

Края (в основном) устойчивы к изменениям освещения, однако они отбрасывают много информации.
Необходимо вычислять расстояние до пикселя как функцию как от положения пикселя, так и от его интенсивности.
Может применяться и к цвету

Согласование градиента

Еще один способ быть устойчивым к изменениям освещенности, не теряя при этом большого количества информации, - это сравнить градиенты изображения.
Сопоставление выполняется как сопоставление изображений в оттенках серого
Простая альтернатива: использовать (нормализованную) корреляцию

Гистограммы ответов рецептивного поля

Избегает явных точечных соответствий
Отношения между разными точками изображения, неявно закодированные в ответах рецептивного поля
Суэйн и Баллард (1991), Шиле и Кроули (2000), Линде и Линдеберг (2004, 2012)

Большие модельные базы

Один из подходов к эффективному поиску в базе данных конкретного изображения с использованием собственных векторов шаблонов (называемых собственными гранями )
Базы моделей - это набор геометрических моделей объектов, которые следует распознать.

Функциональные методы

Обнаружение функции
Обнаружение края
Canny Deriche Дифференциальный Собель Prewitt Робертс Кросс
Обнаружение углов
Оператор Харриса Ши и Томази Кривизна кривой уровня Меры силы гессенской особенности СЬЮЗЕН БЫСТРЫЙ
Обнаружение BLOB-объектов
Лапласиан Гаусса (LoG) Разница гауссианов (DoG) Определитель Гессе (DoH) Максимально устойчивые экстремальные области PCBR
Обнаружение гребня
Преобразование Хафа
Преобразование Хафа Обобщенное преобразование Хафа
Структурный тензор
Структурный тензор Обобщенный структурный тензор
Обнаружение аффинно-инвариантных признаков
Адаптация аффинной формы Харрис аффинный Гессенское аффинное
Описание функции
ПРОСЕЯТЬ СЕРФ GLOH БОРЬБА
Масштабировать пространство
Аксиомы масштабного пространства Детали реализации Пирамиды
v т е

поиск используется для поиска возможных совпадений между характеристиками объекта и характеристиками изображения.
Основное ограничение состоит в том, что одна позиция объекта должна учитывать все возможные совпадения.
методы, извлекающие особенности из распознаваемых объектов и изображений для поиска.
- пятна на поверхности
- углы
- линейные края

Деревья интерпретации

Метод поиска возможных совпадений - это поиск по дереву.
Каждый узел в дереве представляет собой набор совпадений.
- Корневой узел представляет собой пустой набор
- Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
- Подстановочный знак используется для функций, у которых нет совпадений
Узлы «обрезаются», когда набор совпадений невозможен.
- У обрезанного узла нет потомков
Исторически значимый и до сих пор используется, но реже

Выдвинуть гипотезу и проверить

Главная идея:
- Предположите соответствие между набором характеристик изображения и набором характеристик объекта.
- Затем используйте это, чтобы сгенерировать гипотезу о проекции из кадра координат объекта на кадр изображения.
- Используйте эту гипотезу проекции для создания визуализации объекта. Этот шаг обычно известен как обратная проекция.
- Сравните рендеринг с изображением и, если они достаточно похожи, примите гипотезу.
Получение гипотезы:
- Есть множество различных способов генерировать гипотезы.
- Когда внутренние параметры камеры известны, гипотеза эквивалентна гипотетическому положению и ориентации - позе - для объекта.
- Используйте геометрические ограничения
- Постройте соответствие небольших наборов характеристик объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
Три основных подхода:
- Получение гипотез с помощью последовательности позы
- Получение гипотез с помощью кластеризации поз
- Получение гипотез с помощью инвариантов
Поиск по расходам, который также является избыточным, но может быть улучшен с помощью рандомизации и / или группировки.
- Рандомизация
  - Изучение небольших наборов функций изображения до тех пор, пока вероятность отсутствия объекта не станет небольшой.
  - Для каждого набора элементов изображения необходимо учитывать все возможные совпадающие наборы элементов модели.
  - Формула:
    (1 - W ^c) ^k = Z
    - W = доля "хороших" точек изображения (w ~ m / n)
    - c = необходимое количество соответствий
    - k = количество испытаний
    - Z = вероятность того, что каждое испытание использует одно (или несколько) неверных соответствий
- Группировка
  - Если мы сможем определить группы точек, которые, вероятно, будут исходить от одного и того же объекта, мы сможем уменьшить количество гипотез, которые необходимо проверить.

Последовательность позы

Также называется выравниванием, поскольку объект выравнивается по изображению.
Соответствия между элементами изображения и элементами модели не являются независимыми - геометрические ограничения
Небольшое количество соответствий дает положение объекта - остальные должны согласовываться с этим.
Главная идея:
- Если мы предположим соответствие между достаточно большой группой характеристик изображения и достаточно большой группой характеристик объекта, то мы сможем восстановить недостающие параметры камеры из этой гипотезы (и таким образом отрендерить остальную часть объекта).
Стратегия:
- Создавайте гипотезы, используя небольшое количество соответствий (например, тройки точек для распознавания 3D)
- Спроецируйте другие элементы модели в изображение ( бэкпроект ) и проверьте дополнительные соответствия
Используйте наименьшее количество соответствий, необходимых для достижения дискретных поз объекта.

Кластеризация поз

Главная идея:
- Каждый объект ведет к множеству правильных наборов соответствий, каждый из которых имеет (примерно) одну и ту же позу.
- Проголосуйте за позу. Используйте массив аккумуляторов, представляющий пространство позы для каждого объекта.
- По сути, это преобразование Хафа.
Стратегия:
- Для каждого объекта настройте массив аккумуляторов, который представляет пространство позы - каждый элемент в массиве аккумуляторов соответствует «ведру» в пространстве позы.
- Затем возьмите каждую группу кадров изображения и предположите соответствие между ней и каждой группой кадров на каждом объекте.
- Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта в значении позы.
- Если в массиве аккумуляторов любого объекта имеется большое количество голосов, это можно интерпретировать как свидетельство присутствия этого объекта в этой позе.
- Доказательства можно проверить с помощью метода верификации.
Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
- Реализация проще, так как каждый набор дает небольшое количество возможных поз объекта.
Улучшение
- Шумостойкость этого метода можно улучшить, если не считать голоса за объекты в позах, в которых голосование явно ненадежно.
§ Например, в случаях, когда объект находился в этой позе, группа рамок объекта была бы невидимой.
- Этих улучшений достаточно, чтобы получить работающие системы.

Инвариантность

Есть геометрические свойства, инвариантные к преобразованиям камеры.
Легче всего разрабатывается для изображений плоских объектов, но может применяться и в других случаях.

Геометрическое хеширование

Алгоритм, использующий геометрические инварианты для голосования за объектные гипотезы.
Подобно кластеризации позы, но вместо голосования по позе мы теперь голосуем по геометрии.
Методика, первоначально разработанная для сопоставления геометрических элементов (неоткалиброванные аффинные виды моделей плоскостей) с базой данных таких элементов.
Широко используется для сопоставления с образцом, CAD / CAM и медицинской визуализации.
Сложно подобрать размер ведер
Трудно быть уверенным в том, что означает «достаточно». Поэтому может возникнуть опасность засорения стола.

Масштабно-инвариантное преобразование признаков (SIFT)

Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
Объект распознается в новом изображении путем индивидуального сравнения каждого признака из нового изображения с этой базой данных и поиска подходящих подходящих признаков на основе евклидова расстояния их векторов признаков.
Лоу (2004)

Ускоренные надежные функции (SURF)

Надежный детектор и дескриптор изображений
Стандартная версия в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
На основе сумм приближенных откликов двумерных вейвлетов Хаара и эффективного использования интегральных изображений.
Bay et al. (2008)

Мешок представлений слов

См. Также: Модель мешка слов в компьютерном зрении.

Генетический алгоритм

Генетические алгоритмы могут работать без предварительного знания определенного набора данных и могут разрабатывать процедуры распознавания без вмешательства человека. В рамках недавнего проекта удалось достичь 100-процентной точности на эталонных наборах данных изображений мотоциклов, лиц, самолетов и автомобилей от Caltech и 99,4-процентной точности на наборах данных изображений видов рыб.

Другие подходы

Распознавание и реконструкция 3D-объектов
Биологически вдохновленное распознавание объектов
Искусственные нейронные сети и глубокое обучение, особенно сверточные нейронные сети
Контекст
Явные и неявные 3D-объектные модели
Быстрая индексация
Представления глобальной сцены
Гистограммы градиента
Стохастические грамматики
Внутриклассовое трансферное обучение
Категоризация объектов из поиска изображений
Отражение
Форма от затенения
Соответствие шаблонов
Текстура
Тематические модели
Неконтролируемое обучение
Обнаружение на основе окна
Модель деформируемой детали
Распределение Бингема

Приложения

Методы распознавания объектов имеют следующие применения:

Распознавание активности
Автоматическая аннотация изображения
Автоматическое распознавание цели
Android Eyes - Распознавание объектов
Компьютерная диагностика
Панорамы изображений
Водяной знак изображения
Глобальная локализация роботов
Распознавание лиц
Оптическое распознавание символов
Контроль качества производства
Поиск изображений на основе содержимого
Подсчет и мониторинг объектов
Автоматизированные парковочные системы
Визуальное позиционирование и отслеживание
Стабилизация видео
Обнаружение пешеходов

Обзоры

Даниилидес и Эклунд, Эдельман.
Рот, Питер М. и Винтер, Мартин (2008). «МЕТОДЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ, ОСНОВАННЫЕ НА ОБСЛЕДОВАНИИ ОБЪЕКТА» (PDF). Технический отчет. ICG-TR-01/08.

Смотрите также

Списки

Заметки

Рекомендации

Элгаммал, Ахмед "CS 534: Распознавание на основе трехмерной модели компьютерного зрения", факультет компьютерных наук, Университет Рутгерса;
Хартли, Ричард и Зиссерман, Эндрю "Многоканальная геометрия в компьютерном зрении", Cambridge Press, 2000, ISBN 0-521-62304-9.
Рот, Питер М. и Винтер, Мартин "Обзор методов распознавания объектов на основе внешнего вида", Технический отчет ICG-TR-01/08, Inst. компьютерной графики и зрения, Технологический университет Граца, Австрия; 15 января 2008 г.
Коллинз, Роберт "Лекция 31: Распознавание объектов: ключи SIFT", CSE486, Penn State
IPRG Image Processing - группа открытых онлайн-исследований
Кристиан Сегеди, Александр Тошев и Думитру Эрхан. Глубокие нейронные сети для обнаружения объектов. Достижения в системах обработки нейронной информации 26, 2013. стр. 2553–2561.

Внешние ссылки