Поиск изображения на основе содержимого

редактировать

Общая схема поиска изображения на основе содержимого

Поиск изображения на основе содержимого, также известная как запрос по содержанию изображения (QBIC ) и поиск визуальной информации на основе содержания (CBVIR ), является приложением компьютерного зрения для решения проблемы поиска изображений, то есть проблемы поиска цифровых изображений в больших базах данных (см. Этот обзор для получения недавнего научного обзора поле CBIR). Поиск изображений на основе содержимого противоположен традиционным подходам, основанным на концепциях (см. Индексирование изображений на основе концепций ).

«На основе содержимого» означает, что поиск анализирует содержимое изображения, а не метаданные, такие как ключевые слова, теги или описания, связанные с изображением. Термин «контент» в этом контексте может относиться к цветам, формам, текстурам или любой другой информации, которая может быть получена из самого изображения. CBIR желателен, потому что поиски, основанные исключительно на метаданных, зависят от качества и полноты аннотации .

Если люди вручную аннотируют изображения путем ввода ключевых слов или метаданных в большую базу данных, это может занять много времени и может не захватить ключевые слова, необходимые для описания изображения. Оценка эффективности поиска изображений по ключевым словам является субъективной и четко не определена. В том же отношении системы CBIR сталкиваются с аналогичными проблемами в определении успеха. «Ключевые слова также ограничивают объем запросов набором заранее определенных критериев». и, «будучи настроенными» менее надежны, чем использование самого контента.

Содержание

1 История
- 1.1 QBIC - Запрос по содержанию изображения
2 Технический прогресс
3 Методы
- 3.1 Пример запроса
- 3.2 Семантический поиск
- 3.3 Обратная связь по релевантности (взаимодействие с человеком)
- 3.4 Итеративное / машинное обучение
- 3.5 Другие методы запроса
4 Сравнение контента с использованием меры расстояния между изображениями
- 4.1 Цвет
- 4.2 Текстура
- 4.3 Форма
5 Уязвимости, атаки и защита
6 Оценка извлечения изображения
7 Извлечение изображения в системе CBIR одновременно различными методами
8 Приложения
9 См. Также
10 Ссылки
11 Дополнительная литература
- 11.1 Соответствующие исследовательские работы
12 Внешние ссылки

История

Термин «поиск изображений на основе содержимого», кажется, возник в 1992 году, когда он был использован инженером японской электротехнической лаборатории Тошиказу Като для описания экспериментов по автоматическому извлечению изображений из базы данных на основе присутствуют лоры и формы. С тех пор этот термин используется для описания процесса получения желаемых изображений из большой коллекции на основе синтаксических характеристик изображения. Используемые методы, инструменты и алгоритмы происходят из таких областей, как статистика, распознавание образов, обработка сигналов и компьютерное зрение.

Контентный просмотр видео был представлен иранским инженером Фаршидом Арман, тайваньский ученый-компьютерщик Ардинг Хсу и ученый-компьютерщик Минг-Йи Чиу, работая в Siemens, и он был представлен на Международной конференции ACM в августе 1993 года. Они описали алгоритм обнаружения кадра для сжатого видео, которое было изначально закодировано с помощью дискретного косинусного преобразования (DCT) стандартов кодирования видео, таких как JPEG, MPEG и H.26x. Основная идея заключалась в том, что, поскольку коэффициенты DCT математически связаны с пространственной областью и представляют содержимое каждого кадра, их можно использовать для обнаружения различий между видеокадрами. В алгоритме подмножество блоков в кадре и подмножество DCT-коэффициентов для каждого блока используются как представление вектора движения для кадра. Работая со сжатыми представлениями DCT, алгоритм значительно снижает вычислительные требования для распаковки и обеспечивает эффективный просмотр видео. Алгоритм представляет отдельные кадры видеопоследовательности в виде r-кадра, эскиза кадра, обрамленного областью отслеживания движения. Вариант этой концепции позже был принят для мозаики видеоконтента QBIC, где каждый r-кадр представляет собой заметный кадр из кадра, который он представляет.

QBIC - Запрос по содержанию изображения

Самый ранний рекламный ролик Система CBIR была разработана IBM и называлась QBIC (Query By Image C ontent). Недавние сетевые и графические подходы представили простую и привлекательную альтернативу существующим методам.

Хотя хранение нескольких изображений как части единого объекта предшествовало термину BLOB (Binary L arge OB ject), возможность полного поиска по содержанию, а не по описанию должна была ждать IBM QBIC.

Технический прогресс

Интерес к CBIR вырос из-за ограничений, присущих системам на основе метаданных, а также из-за большого диапазона возможных применений для эффективного поиска изображений. Текстовую информацию об изображениях можно легко найти с помощью существующих технологий, но для этого нужно, чтобы люди вручную описывали каждое изображение в базе данных. Это может быть непрактично для очень больших баз данных или для изображений, которые создаются автоматически, например те из камер наблюдения. Также можно пропустить изображения, в описании которых используются разные синонимы. Системы, основанные на категоризации изображений по семантическим классам, таким как «кошка» как подкласс «животное», могут избежать проблемы неправильной категоризации, но потребуют от пользователя дополнительных усилий для поиска изображений, которые могут быть «кошками», но классифицируются только как « животное ". Для категоризации изображений было разработано множество стандартов, но все еще сталкиваются с проблемами масштабирования и неправильной категоризации.

Первоначальные системы CBIR были разработаны для поиска в базах данных на основе свойств цвета, текстуры и формы изображения. После разработки этих систем потребность в удобных интерфейсах стала очевидной. Таким образом, усилия в области CBIR начали включать дизайн, ориентированный на человека, который пытался удовлетворить потребности пользователя, выполняющего поиск. Обычно это означает включение: методов запросов, которые могут допускать описательную семантику, запросов, которые могут включать обратную связь с пользователем, систем, которые могут включать машинное обучение, и систем, которые могут понимать уровни удовлетворенности пользователей.

Методы

Было разработано множество систем CBIR, но по состоянию на 2006 г. проблема извлечения изображений на основе их пиксельного содержимого остается в значительной степени нерешенной.

Различные методы запросов и реализации CBIR используют различные типы пользовательских запросов.

Пример запроса

QBE (Query By Example ) - это метод запроса, который включает в себя предоставление системе CBIR примера изображения, на котором она затем будет основывать свой поиск. Базовые алгоритмы поиска могут различаться в зависимости от приложения, но все изображения результатов должны иметь общие элементы с предоставленным примером.

Варианты для предоставления примеров изображений в систему включают:

Существующее ранее изображение может быть предоставлено пользователя или выбирается из случайного набора.
Пользователь рисует приблизительное изображение искомого изображения, например, с помощью цветных пятен или общих форм.

Этот метод запроса устраняет трудности, которые могут возникают при попытке описать образы словами.

Семантическое извлечение

Семантическое извлечение начинается с того, что пользователь делает запрос типа «найти изображения Авраама Линкольна». Этот тип неограниченной задачи очень сложен для компьютеров - Линкольн не всегда может смотреть в камеру или находиться в одной и той же позе. Поэтому многие системы CBIR обычно используют функции более низкого уровня, такие как текстура, цвет и форма. Эти функции используются либо в сочетании с интерфейсами, которые упрощают ввод критериев, либо с базами данных, которые уже были обучены сопоставлению функций (таких как лица, отпечатки пальцев или сопоставление форм). Однако в целом поиск изображений требует обратной связи от человека для определения концепций более высокого уровня.

Обратная связь по релевантности (взаимодействие с человеком)

Сочетание методов поиска CBIR, доступных широкому кругу потенциальных пользователей и их намерения могут быть сложной задачей. Один из аспектов успеха CBIR полностью зависит от способности понимать намерения пользователя. Системы CBIR могут использовать обратную связь по релевантности, где пользователь постепенно уточняет результаты поиска, отмечая изображения в результатах как «релевантные», «нерелевантные» или «нейтральные» по отношению к поисковому запросу, а затем повторяя поиск с новой информацией. Были разработаны примеры такого типа интерфейса.

Итеративное / машинное обучение

Машинное обучение и применение итерационных методов становятся все более распространенными в CBIR.

Другие методы запросов

Другие методы запроса включают просмотр, например, изображений, навигацию по настраиваемым / иерархическим категориям, запрос по области изображения (а не по всему изображению), запрос по нескольким примерам изображений, запрос по визуальному эскизу, запрос с прямым указанием характеристик изображения., и мультимодальные запросы (например, сочетание сенсорного ввода, голоса и т. д.)

Сравнение содержимого с использованием меры расстояния между изображениями

Наиболее распространенный метод сравнения двух изображений при поиске изображений на основе содержимого (обычно пример изображение и изображение из базы данных) использует меру расстояния до изображения. Измерение расстояния до изображения сравнивает сходство двух изображений в различных измерениях, таких как цвет, текстура, форма и другие. Например, расстояние, равное 0, означает точное совпадение с запросом с учетом рассмотренных измерений. Как можно интуитивно догадаться, значение больше 0 указывает на различную степень сходства между изображениями. Затем результаты поиска можно отсортировать по расстоянию до запрашиваемого изображения. Были разработаны многие меры расстояния между изображениями (модели подобия).

Цвет

Вычисление меры расстояния на основе цветового сходства достигается путем вычисления гистограммы цветов для каждого изображения, которое определяет долю пикселей в изображении, содержащих определенные значения. Изучение изображений на основе содержащихся в них цветов является одним из наиболее широко используемых методов, поскольку его можно выполнять независимо от размера или ориентации изображения. Тем не менее, в исследовании также была предпринята попытка сегментировать пропорции цвета по регионам и по пространственным отношениям между несколькими цветовыми областями.

Текстура

Меры текстуры ищут визуальные шаблоны в изображениях и то, как они пространственно определены. Текстуры представлены текселями, которые затем помещаются в несколько наборов, в зависимости от того, сколько текстур обнаружено в изображении. Эти наборы определяют не только текстуру, но и то, где на изображении расположена текстура.

Текстура представляет собой сложную концепцию. Идентификация конкретных текстур в изображении достигается прежде всего путем моделирования текстуры как двухмерной вариации уровня серого. Относительная яркость пар пикселей вычисляется так, чтобы можно было оценить степень контраста, регулярности, грубости и направленности. Проблема состоит в том, чтобы идентифицировать паттерны вариации сопикселей и связывать их с определенными классами текстур, такими как шелковистая или грубая.

Другие методы классификации текстур включают в себя:

Форма

Форма не относится к форме изображение, а форма конкретной области, которую ищут. Формы часто будут определяться сначала путем применения сегментации или обнаружения краев к изображению. Другие методы используют фильтры формы для определения заданных форм изображения. Дескрипторы формы также могут быть инвариантными к перемещению, повороту и масштабированию.

Некоторые дескрипторы формы включают:

Уязвимости, атаки и защиты

Как и другие задачи в компьютерном зрении, такие как распознавание и обнаружение, новейшие алгоритмы поиска на основе нейронных сетей уязвимы для состязательных атак как в качестве кандидатов, так и в качестве атак по запросу. Показано, что полученное ранжирование может быть резко изменено с помощью лишь небольших возмущений, незаметных для человека. Кроме того, также возможны не зависящие от модели переносимые состязательные примеры, которые позволяют проводить состязательные атаки методом черного ящика на системы глубокого ранжирования, не требуя доступа к их базовым реализациям.

И наоборот, сопротивление таким атакам можно повысить за счет состязательных атак. такие средства защиты, как защита Мадри.

Оценка поиска изображения

Меры поиска изображения могут быть определены в терминах точности и повторения. Однако рассматриваются и другие методы.

Одновременное извлечение изображения в системе CBIR различными методами

Изображение извлекается в системе CBIR путем одновременного применения нескольких методов, таких как интеграция индексации кластера пикселей, гистограмма методы пересечения и дискретного вейвлет-преобразования.

Приложения

Потенциальные применения CBIR включают:

Архитектурный и инженерный дизайн
Коллекции произведений искусства
Предупреждение преступности
Географическая информация и системы дистанционного зондирования
Интеллектуальная собственность
Медицинская диагностика
Военные
Архивы фотографий
Розничные каталоги
Фильтры обнаружения обнаженности
Поиск лиц
Текстильная промышленность

Разработанные коммерческие системы включают:

IBM's QBIC
Virage's VIR Image Engine
Excalibur's Image RetrievalWare
VisualSEEk и WebSEEk
Netra
MARS
Vhoto
Pixolution

Экспериментальные системы включают:

Фотокнига MIT
WebSEEk Колумбийского университета
Информация Университета Карнеги-Меллон
iSearch - PICT

См. Также

Ссылки

Дополнительная литература

Соответствующие исследовательские работы

Запрос по изображениям и видеоконтентам: система QBIC, (Flickner, 1995)
Поиск обнаженных людей (Fleck et al. al., 1996)
Virage Video Engine, (Hampapur, 1997)
Кодирование на основе библиотеки: представление для эффективного сжатия и извлечения видео, (Vasconcelos Lippman, 1997)
Система отбора нежелательных изображений (Wang et al., 1998)
Поиск изображений на основе содержимого (JISC Отчет 39 программы технологических приложений) (Eakins Graham 1999)
Виндсерфинг: поиск изображений по регионам с помощью вейвлетов (Ардиццони, Бартолини и Пателла, 1999)
Вероятностная архитектура для поиска изображений на основе содержимого, (Vasconcelos Lippman, 2000)
Объединяющий взгляд на сходство изображений, (Vasconcelos Lippman, 2000)
Поиск визуального контента в Интернете следующего поколения, (Lew, 2000)
Индексирование изображений с использованием смешанных иерархий, (Vasconcelos, 2001)
SIMPLIcity: Semantics-Sensitive Integrated Сопоставление для библиотек изображений (Ван, Ли и Видерхолд, 2001)
Концептуальный подход к поиску изображений в Интернете (Попеску и Грефенстетт, 2008)
FACERET: интерактивная система поиска лиц, основанная на себе -Организация карт (Руис-дель-Солар и др., 2002)
Автоматическое лингвистическое индексирование изображений с помощью метода статистического моделирования (Ли и Ван, 2003)
Видео google: поиск текста подход к сопоставлению объектов в видеороликах (Sivic Zisserman, 2003)
Минимальная вероятность получения ошибочного изображения (Vasconcelos, 2004)
Эффективная оценка вероятностного S Функции подобия для поиска изображений (Vasconcelos, 2004)
Расширение систем поиска изображений с помощью тезауруса для форм (Hove, 2004)
Имена и лица в новостях (Berg et al., 2004)
Cortina: система для крупномасштабного поиска веб-изображений на основе контента (Quack et al., 2004)
Новый взгляд на визуальный поиск информации (Eidenberger 2004)
Запросы к коллекциям изображений на основе языка на основе расширяемой онтологии (Town and Sinclair, 2004)
Персонализированный механизм просмотра изображений PIBE (Bartolini, Ciaccia, and Patella, 2004)
Костюм: новая функция для автоматической индексации видеоконтента (Jaffre 2005)
Автоматическое распознавание лиц для поиска персонажей в полнометражных фильмах (Аранджелович и Зиссерман, 2005)
Значимые пространства изображений (Rouw, 2005)
Content-based Multimedia Information Retrieval: State of the Art and Challenges (Lew et al. 2006)
Адаптивный просмотр баз данных изображений с помощью PIBE (Bartolini, Ciaccia, and Patella, 2006)
Алгоритм, на котором основаны Retrievr (поиск Flickr) и imgSeek (Jacobs, Finkelstein, Salesin)
Воображение: использование анализа ссылок для точной аннотации изображения (Bartolini and Ciaccia, 2007)
Оценка использования интерфейсов для спецификации визуального запроса. (Hove, 2007)
От пикселей к семантическим пространствам : Достижения в поиске изображений на основе содержимого (Vasconcelos, 2007)
Поиск изображений на основе содержимого путем индексирования случайных подокон с рандомизированными деревьями (Maree et al., 2007)
Поиск изображений: идеи, Влияния и тенденции новой эпохи (Datta et al., 2008)
Компьютеризированная аннотация изображений в реальном времени (Li and Wang, 2008)
Проблемы обработки запросов в изображениях на основе региона Базы данных (Bartolini, Ciaccia, and Patella, 2010)
Шиацу: иерархическая автоматическая маркировка видео на основе семантики путем сегментации с использованием сокращений (Bartolini, Patella и Romani, 2010)
Эффективный и действенный поиск видео на основе сходства (Бартолини и Романи, 2010)
Аннотации и поиск многомерных изображений на основе ключевых слов (Бартолини и Чаччиа, 2010)
Библиотека Windsurf для эффективного извлечения мультимедийных иерархических данных (Bartolini, Patella, and Stromei, 2011)
"Pl @ ntNet: интерактивная идентификация растений на основе данных социальных изображений "(Джоли, Алексис и др.)
"Поиск изображений на основе содержимого (Tyagi, V, 2017)

Superimage: упаковка семантически релевантных изображений для индексирования и поиска (Луо, Чжан, Хуан, Гао, Тянь, 2014)
Индексирование и поиск 100 миллионов изображений с помощью Map-Reduce (Моисе, Шестаков, Гудмундссон и Амсалег, 2013)

Внешние ссылки

Алхазрадж, Хутхафа (2017-08-09). «Исследование относительного изображения на основе констант: обзор». Обработка изображений IET. IEEE (обработка изображений). ISSN 1751-9659. Проверено 22 января 2019 г. CS1 maint: ref = harv (ссылка ) - исходная статья
cbir.info статьи, связанные с CBIR
IJMIR многие статьи, связанные с CBIR
Поиск по рисунку
Демонстрация системы визуального поиска изображений. (Поиск по образцу или цвету)