Схема распознавания объекта
редактировать
Эта статья посвящена распознаванию объектов в компьютерном зрении. Для распознавания объектов в нейробиологии см
когнитивную нейробиологию распознавания визуальных объектов.
Следующий план представляет собой обзор и тематическое руководство по распознаванию объектов:
Распознавание объектов - технология в области компьютерного зрения для поиска и идентификации объектов на изображении или видеопоследовательности. Люди распознают множество объектов на изображениях с небольшими усилиями, несмотря на то, что изображение объектов может несколько отличаться в разных точках обзора, во многих разных размерах и масштабах или даже при их перемещении или повороте. Объекты можно распознать даже тогда, когда они частично закрыты для обзора. Эта задача по-прежнему остается проблемой для систем компьютерного зрения. Многие подходы к этой задаче были реализованы за несколько десятилетий.
СОДЕРЖАНИЕ
- 1 Подходы, основанные на объектных моделях типа САПР
- 1.1 Распознавание по частям
- 2 Методы, основанные на внешнем виде
- 2.1 Сопоставление кромок
- 2.2 Поиск по принципу " разделяй и властвуй"
- 2.3 Согласование оттенков серого
- 2.4 Согласование градиента
- 2.5 Гистограммы ответов рецептивного поля
- 2.6 Большие модели
- 3 Функциональные методы
- 3.1 Деревья интерпретации
- 3.2 Выдвинуть гипотезу и проверить
- 3.3 Последовательность позы
- 3.4 Кластеризация поз
- 3.5 Инвариантность
- 3.6 Геометрическое хеширование
- 3.7 Масштабно-инвариантное преобразование признаков (SIFT)
- 3.8 Ускоренные надежные функции (SURF)
- 3.9 Мешок представлений слов
- 4 Генетический алгоритм
- 5 Другие подходы
- 6 приложений
- 7 Обзоров
- 8 См. Также
- 9 Примечания
- 10 Ссылки
- 11 Внешние ссылки
Подходы, основанные на объектных моделях типа САПР
Распознавание по частям
Методы, основанные на внешнем виде
- Используйте образцы изображений (называемые шаблонами или образцами) объектов для распознавания
- Объекты выглядят по-разному в разных условиях:
- Изменения освещения или цвета
- Изменения направления взгляда
- Изменения в размере / форме
- Единичный экземпляр вряд ли получится надежно. Однако невозможно представить все образы объекта.
Сопоставление краев
- Использует методы обнаружения краев, такие как обнаружение краев Canny, для поиска краев.
- Изменения освещения и цвета обычно не сильно влияют на края изображения.
- Стратегия:
- Обнаружение краев в шаблоне и изображении
- Сравните изображения краев, чтобы найти шаблон
- Необходимо учитывать диапазон возможных позиций шаблона
- Размеры:
- Хорошо - посчитайте количество пересекающихся краев. Не устойчив к изменениям формы
- Лучше - подсчитать количество пикселей края шаблона с некоторым расстоянием до края в поисковом изображении
- Наилучшее - определить распределение вероятностей расстояния до ближайшего края в поисковом изображении (если шаблон находится в правильном положении). Оцените вероятность того, что каждая позиция шаблона генерирует изображение
Разделяй и властвуй поиск
- Стратегия:
- Рассматривайте все позиции как набор (ячейку в пространстве позиций)
- Определить нижнюю границу оценки в лучшем положении в ячейке
- Если граница слишком велика, обрежьте ячейку
- Если граница не слишком велика, разделите ячейку на подъячейки и рекурсивно попробуйте каждую подъячейку
- Процесс останавливается, когда ячейка «достаточно мала»
- В отличие от поиска с несколькими разрешениями, этот метод гарантированно найдет все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
- В поисках границы:
- Чтобы найти нижнюю границу наилучшего результата, посмотрите на оценку для позиции шаблона, представленной центром ячейки.
- Вычтите максимальное изменение из «центрального» положения для любой другой позиции в ячейке (происходит в углах ячейки).
- Сложности возникают из-за определения границ расстояния
Соответствие оттенков серого
- Края (в основном) устойчивы к изменениям освещения, однако они отбрасывают много информации.
- Необходимо вычислять расстояние до пикселя как функцию как от положения пикселя, так и от его интенсивности.
- Может применяться и к цвету
Согласование градиента
- Еще один способ быть устойчивым к изменениям освещенности, не теряя при этом большого количества информации, - это сравнить градиенты изображения.
- Сопоставление выполняется как сопоставление изображений в оттенках серого
- Простая альтернатива: использовать (нормализованную) корреляцию
Гистограммы ответов рецептивного поля
- Избегает явных точечных соответствий
- Отношения между разными точками изображения, неявно закодированные в ответах рецептивного поля
- Суэйн и Баллард (1991), Шиле и Кроули (2000), Линде и Линдеберг (2004, 2012)
Большие модельные базы
- Один из подходов к эффективному поиску в базе данных конкретного изображения с использованием собственных векторов шаблонов (называемых собственными гранями )
- Базы моделей - это набор геометрических моделей объектов, которые следует распознать.
Функциональные методы
- поиск используется для поиска возможных совпадений между характеристиками объекта и характеристиками изображения.
- Основное ограничение состоит в том, что одна позиция объекта должна учитывать все возможные совпадения.
- методы, извлекающие особенности из распознаваемых объектов и изображений для поиска.
- пятна на поверхности
- углы
- линейные края
Деревья интерпретации
- Метод поиска возможных совпадений - это поиск по дереву.
- Каждый узел в дереве представляет собой набор совпадений.
- Корневой узел представляет собой пустой набор
- Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
- Подстановочный знак используется для функций, у которых нет совпадений
- Узлы «обрезаются», когда набор совпадений невозможен.
- У обрезанного узла нет потомков
- Исторически значимый и до сих пор используется, но реже
Выдвинуть гипотезу и проверить
- Главная идея:
- Предположите соответствие между набором характеристик изображения и набором характеристик объекта.
- Затем используйте это, чтобы сгенерировать гипотезу о проекции из кадра координат объекта на кадр изображения.
- Используйте эту гипотезу проекции для создания визуализации объекта. Этот шаг обычно известен как обратная проекция.
- Сравните рендеринг с изображением и, если они достаточно похожи, примите гипотезу.
- Получение гипотезы:
- Есть множество различных способов генерировать гипотезы.
- Когда внутренние параметры камеры известны, гипотеза эквивалентна гипотетическому положению и ориентации - позе - для объекта.
- Используйте геометрические ограничения
- Постройте соответствие небольших наборов характеристик объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
- Три основных подхода:
- Получение гипотез с помощью последовательности позы
- Получение гипотез с помощью кластеризации поз
- Получение гипотез с помощью инвариантов
- Поиск по расходам, который также является избыточным, но может быть улучшен с помощью рандомизации и / или группировки.
- Рандомизация
- Изучение небольших наборов функций изображения до тех пор, пока вероятность отсутствия объекта не станет небольшой.
- Для каждого набора элементов изображения необходимо учитывать все возможные совпадающие наборы элементов модели.
- Формула:
- (1 - W c) k = Z
- W = доля "хороших" точек изображения (w ~ m / n)
- c = необходимое количество соответствий
- k = количество испытаний
- Z = вероятность того, что каждое испытание использует одно (или несколько) неверных соответствий
- Группировка
- Если мы сможем определить группы точек, которые, вероятно, будут исходить от одного и того же объекта, мы сможем уменьшить количество гипотез, которые необходимо проверить.
Последовательность позы
- Также называется выравниванием, поскольку объект выравнивается по изображению.
- Соответствия между элементами изображения и элементами модели не являются независимыми - геометрические ограничения
- Небольшое количество соответствий дает положение объекта - остальные должны согласовываться с этим.
- Главная идея:
- Если мы предположим соответствие между достаточно большой группой характеристик изображения и достаточно большой группой характеристик объекта, то мы сможем восстановить недостающие параметры камеры из этой гипотезы (и таким образом отрендерить остальную часть объекта).
- Стратегия:
- Создавайте гипотезы, используя небольшое количество соответствий (например, тройки точек для распознавания 3D)
- Спроецируйте другие элементы модели в изображение ( бэкпроект ) и проверьте дополнительные соответствия
- Используйте наименьшее количество соответствий, необходимых для достижения дискретных поз объекта.
- Главная идея:
- Каждый объект ведет к множеству правильных наборов соответствий, каждый из которых имеет (примерно) одну и ту же позу.
- Проголосуйте за позу. Используйте массив аккумуляторов, представляющий пространство позы для каждого объекта.
- По сути, это преобразование Хафа.
- Стратегия:
- Для каждого объекта настройте массив аккумуляторов, который представляет пространство позы - каждый элемент в массиве аккумуляторов соответствует «ведру» в пространстве позы.
- Затем возьмите каждую группу кадров изображения и предположите соответствие между ней и каждой группой кадров на каждом объекте.
- Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта в значении позы.
- Если в массиве аккумуляторов любого объекта имеется большое количество голосов, это можно интерпретировать как свидетельство присутствия этого объекта в этой позе.
- Доказательства можно проверить с помощью метода верификации.
- Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
- Реализация проще, так как каждый набор дает небольшое количество возможных поз объекта.
- Улучшение
- Шумостойкость этого метода можно улучшить, если не считать голоса за объекты в позах, в которых голосование явно ненадежно.
- § Например, в случаях, когда объект находился в этой позе, группа рамок объекта была бы невидимой.
- Этих улучшений достаточно, чтобы получить работающие системы.
- Есть геометрические свойства, инвариантные к преобразованиям камеры.
- Легче всего разрабатывается для изображений плоских объектов, но может применяться и в других случаях.
- Алгоритм, использующий геометрические инварианты для голосования за объектные гипотезы.
- Подобно кластеризации позы, но вместо голосования по позе мы теперь голосуем по геометрии.
- Методика, первоначально разработанная для сопоставления геометрических элементов (неоткалиброванные аффинные виды моделей плоскостей) с базой данных таких элементов.
- Широко используется для сопоставления с образцом, CAD / CAM и медицинской визуализации.
- Сложно подобрать размер ведер
- Трудно быть уверенным в том, что означает «достаточно». Поэтому может возникнуть опасность засорения стола.
- Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
- Объект распознается в новом изображении путем индивидуального сравнения каждого признака из нового изображения с этой базой данных и поиска подходящих подходящих признаков на основе евклидова расстояния их векторов признаков.
- Лоу (2004)
- Надежный детектор и дескриптор изображений
- Стандартная версия в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
- На основе сумм приближенных откликов двумерных вейвлетов Хаара и эффективного использования интегральных изображений.
- Bay et al. (2008)
Мешок представлений слов
См. Также:
Модель мешка слов в компьютерном зрении. Генетический алгоритм
Генетические алгоритмы могут работать без предварительного знания определенного набора данных и могут разрабатывать процедуры распознавания без вмешательства человека. В рамках недавнего проекта удалось достичь 100-процентной точности на эталонных наборах данных изображений мотоциклов, лиц, самолетов и автомобилей от Caltech и 99,4-процентной точности на наборах данных изображений видов рыб.
Другие подходы
Приложения
Методы распознавания объектов имеют следующие применения:
Обзоры
Смотрите также
- Списки
Заметки
Рекомендации
- Элгаммал, Ахмед "CS 534: Распознавание на основе трехмерной модели компьютерного зрения", факультет компьютерных наук, Университет Рутгерса;
- Хартли, Ричард и Зиссерман, Эндрю "Многоканальная геометрия в компьютерном зрении", Cambridge Press, 2000, ISBN 0-521-62304-9.
- Рот, Питер М. и Винтер, Мартин "Обзор методов распознавания объектов на основе внешнего вида", Технический отчет ICG-TR-01/08, Inst. компьютерной графики и зрения, Технологический университет Граца, Австрия; 15 января 2008 г.
- Коллинз, Роберт "Лекция 31: Распознавание объектов: ключи SIFT", CSE486, Penn State
- IPRG Image Processing - группа открытых онлайн-исследований
- Кристиан Сегеди, Александр Тошев и Думитру Эрхан. Глубокие нейронные сети для обнаружения объектов. Достижения в системах обработки нейронной информации 26, 2013. стр. 2553–2561.
Внешние ссылки