Поиск изображения на основе содержимого

редактировать
Общая схема поиска изображения на основе содержимого

Поиск изображения на основе содержимого, также известная как запрос по содержанию изображения (QBIC ) и поиск визуальной информации на основе содержания (CBVIR ), является приложением компьютерного зрения для решения проблемы поиска изображений, то есть проблемы поиска цифровых изображений в больших базах данных (см. Этот обзор для получения недавнего научного обзора поле CBIR). Поиск изображений на основе содержимого противоположен традиционным подходам, основанным на концепциях (см. Индексирование изображений на основе концепций ).

«На основе содержимого» означает, что поиск анализирует содержимое изображения, а не метаданные, такие как ключевые слова, теги или описания, связанные с изображением. Термин «контент» в этом контексте может относиться к цветам, формам, текстурам или любой другой информации, которая может быть получена из самого изображения. CBIR желателен, потому что поиски, основанные исключительно на метаданных, зависят от качества и полноты аннотации .

Если люди вручную аннотируют изображения путем ввода ключевых слов или метаданных в большую базу данных, это может занять много времени и может не захватить ключевые слова, необходимые для описания изображения. Оценка эффективности поиска изображений по ключевым словам является субъективной и четко не определена. В том же отношении системы CBIR сталкиваются с аналогичными проблемами в определении успеха. «Ключевые слова также ограничивают объем запросов набором заранее определенных критериев». и, «будучи настроенными» менее надежны, чем использование самого контента.

Содержание
  • 1 История
    • 1.1 QBIC - Запрос по содержанию изображения
  • 2 Технический прогресс
  • 3 Методы
    • 3.1 Пример запроса
    • 3.2 Семантический поиск
    • 3.3 Обратная связь по релевантности (взаимодействие с человеком)
    • 3.4 Итеративное / машинное обучение
    • 3.5 Другие методы запроса
  • 4 Сравнение контента с использованием меры расстояния между изображениями
    • 4.1 Цвет
    • 4.2 Текстура
    • 4.3 Форма
  • 5 Уязвимости, атаки и защита
  • 6 Оценка извлечения изображения
  • 7 Извлечение изображения в системе CBIR одновременно различными методами
  • 8 Приложения
  • 9 См. Также
  • 10 Ссылки
  • 11 Дополнительная литература
    • 11.1 Соответствующие исследовательские работы
  • 12 Внешние ссылки
История

Термин «поиск изображений на основе содержимого», кажется, возник в 1992 году, когда он был использован инженером японской электротехнической лаборатории Тошиказу Като для описания экспериментов по автоматическому извлечению изображений из базы данных на основе присутствуют лоры и формы. С тех пор этот термин используется для описания процесса получения желаемых изображений из большой коллекции на основе синтаксических характеристик изображения. Используемые методы, инструменты и алгоритмы происходят из таких областей, как статистика, распознавание образов, обработка сигналов и компьютерное зрение.

Контентный просмотр видео был представлен иранским инженером Фаршидом Арман, тайваньский ученый-компьютерщик Ардинг Хсу и ученый-компьютерщик Минг-Йи Чиу, работая в Siemens, и он был представлен на Международной конференции ACM в августе 1993 года. Они описали алгоритм обнаружения кадра для сжатого видео, которое было изначально закодировано с помощью дискретного косинусного преобразования (DCT) стандартов кодирования видео, таких как JPEG, MPEG и H.26x. Основная идея заключалась в том, что, поскольку коэффициенты DCT математически связаны с пространственной областью и представляют содержимое каждого кадра, их можно использовать для обнаружения различий между видеокадрами. В алгоритме подмножество блоков в кадре и подмножество DCT-коэффициентов для каждого блока используются как представление вектора движения для кадра. Работая со сжатыми представлениями DCT, алгоритм значительно снижает вычислительные требования для распаковки и обеспечивает эффективный просмотр видео. Алгоритм представляет отдельные кадры видеопоследовательности в виде r-кадра, эскиза кадра, обрамленного областью отслеживания движения. Вариант этой концепции позже был принят для мозаики видеоконтента QBIC, где каждый r-кадр представляет собой заметный кадр из кадра, который он представляет.

QBIC - Запрос по содержанию изображения

Самый ранний рекламный ролик Система CBIR была разработана IBM и называлась QBIC (Query By Image C ontent). Недавние сетевые и графические подходы представили простую и привлекательную альтернативу существующим методам.

Хотя хранение нескольких изображений как части единого объекта предшествовало термину BLOB (Binary L arge OB ject), возможность полного поиска по содержанию, а не по описанию должна была ждать IBM QBIC.

Технический прогресс

Интерес к CBIR вырос из-за ограничений, присущих системам на основе метаданных, а также из-за большого диапазона возможных применений для эффективного поиска изображений. Текстовую информацию об изображениях можно легко найти с помощью существующих технологий, но для этого нужно, чтобы люди вручную описывали каждое изображение в базе данных. Это может быть непрактично для очень больших баз данных или для изображений, которые создаются автоматически, например те из камер наблюдения. Также можно пропустить изображения, в описании которых используются разные синонимы. Системы, основанные на категоризации изображений по семантическим классам, таким как «кошка» как подкласс «животное», могут избежать проблемы неправильной категоризации, но потребуют от пользователя дополнительных усилий для поиска изображений, которые могут быть «кошками», но классифицируются только как « животное ". Для категоризации изображений было разработано множество стандартов, но все еще сталкиваются с проблемами масштабирования и неправильной категоризации.

Первоначальные системы CBIR были разработаны для поиска в базах данных на основе свойств цвета, текстуры и формы изображения. После разработки этих систем потребность в удобных интерфейсах стала очевидной. Таким образом, усилия в области CBIR начали включать дизайн, ориентированный на человека, который пытался удовлетворить потребности пользователя, выполняющего поиск. Обычно это означает включение: методов запросов, которые могут допускать описательную семантику, запросов, которые могут включать обратную связь с пользователем, систем, которые могут включать машинное обучение, и систем, которые могут понимать уровни удовлетворенности пользователей.

Методы

Было разработано множество систем CBIR, но по состоянию на 2006 г. проблема извлечения изображений на основе их пиксельного содержимого остается в значительной степени нерешенной.

Различные методы запросов и реализации CBIR используют различные типы пользовательских запросов.

Пример запроса

QBE (Query By Example ) - это метод запроса, который включает в себя предоставление системе CBIR примера изображения, на котором она затем будет основывать свой поиск. Базовые алгоритмы поиска могут различаться в зависимости от приложения, но все изображения результатов должны иметь общие элементы с предоставленным примером.

Варианты для предоставления примеров изображений в систему включают:

  • Существующее ранее изображение может быть предоставлено пользователя или выбирается из случайного набора.
  • Пользователь рисует приблизительное изображение искомого изображения, например, с помощью цветных пятен или общих форм.

Этот метод запроса устраняет трудности, которые могут возникают при попытке описать образы словами.

Семантическое извлечение

Семантическое извлечение начинается с того, что пользователь делает запрос типа «найти изображения Авраама Линкольна». Этот тип неограниченной задачи очень сложен для компьютеров - Линкольн не всегда может смотреть в камеру или находиться в одной и той же позе. Поэтому многие системы CBIR обычно используют функции более низкого уровня, такие как текстура, цвет и форма. Эти функции используются либо в сочетании с интерфейсами, которые упрощают ввод критериев, либо с базами данных, которые уже были обучены сопоставлению функций (таких как лица, отпечатки пальцев или сопоставление форм). Однако в целом поиск изображений требует обратной связи от человека для определения концепций более высокого уровня.

Обратная связь по релевантности (взаимодействие с человеком)

Сочетание методов поиска CBIR, доступных широкому кругу потенциальных пользователей и их намерения могут быть сложной задачей. Один из аспектов успеха CBIR полностью зависит от способности понимать намерения пользователя. Системы CBIR могут использовать обратную связь по релевантности, где пользователь постепенно уточняет результаты поиска, отмечая изображения в результатах как «релевантные», «нерелевантные» или «нейтральные» по отношению к поисковому запросу, а затем повторяя поиск с новой информацией. Были разработаны примеры такого типа интерфейса.

Итеративное / машинное обучение

Машинное обучение и применение итерационных методов становятся все более распространенными в CBIR.

Другие методы запросов

Другие методы запроса включают просмотр, например, изображений, навигацию по настраиваемым / иерархическим категориям, запрос по области изображения (а не по всему изображению), запрос по нескольким примерам изображений, запрос по визуальному эскизу, запрос с прямым указанием характеристик изображения., и мультимодальные запросы (например, сочетание сенсорного ввода, голоса и т. д.)

Сравнение содержимого с использованием меры расстояния между изображениями

Наиболее распространенный метод сравнения двух изображений при поиске изображений на основе содержимого (обычно пример изображение и изображение из базы данных) использует меру расстояния до изображения. Измерение расстояния до изображения сравнивает сходство двух изображений в различных измерениях, таких как цвет, текстура, форма и другие. Например, расстояние, равное 0, означает точное совпадение с запросом с учетом рассмотренных измерений. Как можно интуитивно догадаться, значение больше 0 указывает на различную степень сходства между изображениями. Затем результаты поиска можно отсортировать по расстоянию до запрашиваемого изображения. Были разработаны многие меры расстояния между изображениями (модели подобия).

Цвет

Вычисление меры расстояния на основе цветового сходства достигается путем вычисления гистограммы цветов для каждого изображения, которое определяет долю пикселей в изображении, содержащих определенные значения. Изучение изображений на основе содержащихся в них цветов является одним из наиболее широко используемых методов, поскольку его можно выполнять независимо от размера или ориентации изображения. Тем не менее, в исследовании также была предпринята попытка сегментировать пропорции цвета по регионам и по пространственным отношениям между несколькими цветовыми областями.

Текстура

Меры текстуры ищут визуальные шаблоны в изображениях и то, как они пространственно определены. Текстуры представлены текселями, которые затем помещаются в несколько наборов, в зависимости от того, сколько текстур обнаружено в изображении. Эти наборы определяют не только текстуру, но и то, где на изображении расположена текстура.

Текстура представляет собой сложную концепцию. Идентификация конкретных текстур в изображении достигается прежде всего путем моделирования текстуры как двухмерной вариации уровня серого. Относительная яркость пар пикселей вычисляется так, чтобы можно было оценить степень контраста, регулярности, грубости и направленности. Проблема состоит в том, чтобы идентифицировать паттерны вариации сопикселей и связывать их с определенными классами текстур, такими как шелковистая или грубая.

Другие методы классификации текстур включают в себя:

Форма

Форма не относится к форме изображение, а форма конкретной области, которую ищут. Формы часто будут определяться сначала путем применения сегментации или обнаружения краев к изображению. Другие методы используют фильтры формы для определения заданных форм изображения. Дескрипторы формы также могут быть инвариантными к перемещению, повороту и масштабированию.

Некоторые дескрипторы формы включают:

Уязвимости, атаки и защиты

Как и другие задачи в компьютерном зрении, такие как распознавание и обнаружение, новейшие алгоритмы поиска на основе нейронных сетей уязвимы для состязательных атак как в качестве кандидатов, так и в качестве атак по запросу. Показано, что полученное ранжирование может быть резко изменено с помощью лишь небольших возмущений, незаметных для человека. Кроме того, также возможны не зависящие от модели переносимые состязательные примеры, которые позволяют проводить состязательные атаки методом черного ящика на системы глубокого ранжирования, не требуя доступа к их базовым реализациям.

И наоборот, сопротивление таким атакам можно повысить за счет состязательных атак. такие средства защиты, как защита Мадри.

.

Оценка поиска изображения

Меры поиска изображения могут быть определены в терминах точности и повторения. Однако рассматриваются и другие методы.

Одновременное извлечение изображения в системе CBIR различными методами

Изображение извлекается в системе CBIR путем одновременного применения нескольких методов, таких как интеграция индексации кластера пикселей, гистограмма методы пересечения и дискретного вейвлет-преобразования.

Приложения

Потенциальные применения CBIR включают:

Разработанные коммерческие системы включают:

  • IBM's QBIC
  • Virage's VIR Image Engine
  • Excalibur's Image RetrievalWare
  • VisualSEEk и WebSEEk
  • Netra
  • MARS
  • Vhoto
  • Pixolution

Экспериментальные системы включают:

  • Фотокнига MIT
  • WebSEEk Колумбийского университета
  • Информация Университета Карнеги-Меллон
  • iSearch - PICT
См. Также
Ссылки
Дополнительная литература

Соответствующие исследовательские работы

Внешние ссылки
Последняя правка сделана 2021-05-15 10:50:56
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте