Компьютерное зрение

редактировать

Компьютерное извлечение информации из изображений

Компьютерное зрение - это междисциплинарная научная область, которая занимается как компьютеры могут получить общее представление о цифровых изображениях или видео. С точки зрения инженерии, он стремится понять и автоматизировать задачи, которые могут выполнять человеческая зрительная система.

Задачи компьютерного зрения включает методы для получение, обработка, анализ и понимание цифровых изображений, а также извлечение данных высокой размерности из реального мира для получения числовой или символьной информации, например в формах решений. Понимание в этом контексте означает преобразование визуальных образов (вход сетчатки глаза) в описания мира, которые имеют смысл для мыслительных процессов и могут вызывать соответствующие действия. Такое понимание изображения можно рассматривать как отделение символической информации от данных изображения с использованием моделей, построенных с помощью геометрии, физики, и теории обучения.

научная дисциплина компьютерного зрения. занимается теорией искусственных систем, извлекающих информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер, многомерные данные с 3D-сканера или медицинского сканирующего устройства. Технологическая дисциплина компьютерного зрения пытается применить свои теории и модели к созданию системного зрения.

Поддомены компьютерного зрения включают реконструкцию сцены, обнаружение событий, отслеживание видео, распознавание объекта, оценку трехмерной позы, обучение, индексция, оценка движения, визуальное отслеживание, моделирование трехмерной сцены и восстановление изображения.

Содержание

1 Определение
2 История
3 Связанные области
- 3.1 Искусственный интеллект
- 3.2 Информационная инженерия
- 3.3 Физика твердого тела
- 3.4 Нейробиология
- 3.5 Обработка сигналов
- 3.6 Другие области
- 3.7 Отличия
4 Приложения
- 4.1 Медицина
- 4.2 Машинное зрение
- 4.3 Военные
- 4.4 Автономные транспортные средства
- 4.5 Тактильная обратная связь
5 Типовые задачи
- 5.1 Распознавание
- 5.2 Анализ движения
- 5.3 Реконструкция сцены
- 5.4 Восстановление изображения
6 Системные методы
- 6.1 Системы распознавания изображений
7 Аппаратное обеспечение ение
8 См. Также
- 8.1 Списки
9 Ссылки
10 Дополнительная литература
11 Внешние ссылки

Определение

Компьютерное зрение - это междисциплинарная область, которая касается того, как могут компьютеры получить общее представление о цифровые изображениях или видео. С точки зрения инженерии, он стремится автоматизировать задачи, которые могут выполнять человеческая зрительная система. «Компьютерное зрение связано с автоматическим извлечением, анализом и пониманием полезной информации одного изображения или изображений. Оно включает в себя программу теоретической и алгоритмической основы для достижения автоматического визуального понимания ». Как научная дисциплина, компьютерное зрение связано с теорией, лежащей в основе искусственных систем, извлекающих информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер или многомерные данные с медицинский сканера. Как технологическая дисциплина, компьютерное зрение применить свои теории и модели для построения компьютерного зрения.

История

В конце 1960-х годов компьютерное зрение началось в университетах, первыми начали искусственный интеллект. Он должен был имитировать человеческую зрительную систему как ступеньку к наделению роботов разумным поведением. В 1966 году считалось, что этого можно достичь с помощью летнего проекта, подключив камеру к компьютеру и заставив ее «описывать то, что он видел».

Чем отличается компьютерное зрение от широко распространенной области обработка цифровых изображений в то время было желанием извлечь трехмерную обработку изображений с целью достижения полного понимания сцены. Исследования 1970-х легли в основе нашего сегодняшнего алгоритмов компьютерного зрения , включая извлечение краев из изображений, маркировку линий, неполиэдральные и многогранные моделирование, представление объектов как взаимосвязей более мелких структур, оптический поток и оценка движения.

В следующем десятилетии проводились исследования, основанные на более строгом математическом анализе и количественных аспектах компьютерного зрения. К ним концепция масштабного пространства, вывод формы из различных сигналов, как таких, текстура и фокус, и контурные модели, известные как змейки. Исследователи также поняли, что многие из этих математических понятий можно рассматривать в рамках той же системы оптимизации, что и регуляризация и марковские случайные поля. К 1990-м годам некоторые из предыдущих исследований стали более активными, чем. Исследование проекта 3-D реконструкций привело к лучшему пониманию калибровки камеры. С появлением методов оптимизации калибровки камеры стало понятно, что многие идеи уже были исследованы в теории пучка из области фотограмметрии. Это к методам разрежженных трехмерных реконструкций сцен из нескольких изображений. Был достигнут прогресс в решении проблемы качественного стерео и дальнейших методов многовидового стерео. В то же время, использовались варианты разреза графики для решения сегментации изображения. Это десятилетие также стало первым разом, когда методы статистического обучения были использованы на практике для распознавания лиц изображениях (см. Eigenface ). К концу 1990-х годов произошли значительные изменения с усилением взаимодействия между областями компьютерной графики и компьютерного зрения. Это включало рендеринг на основе изображения, морфинг изображения, интерполяцию вида, сшивание панорамных изображений и ранний рендеринг светового поля.

Недавние работы были замечены возрождение методы на основе функции, используются в сочетании с методами машинного обучения и сложными структурами оптимизации. Развитие методов глубокого обучения вдохнуло жизнь в область компьютерного зрения. Точность алгоритмов глубокого обучения на нескольких эталонных наборах данных компьютерного зрения для различных задач от классификации, сегментации и оптического потока, превзошла предыдущие методы.

Связанные области

Искусственный интеллект

Области искусственного интеллекта связаны с автономным планированием пути или обдумыванием роботизированных систем для навигации в среде. Для навигации по ним требуется подробное понимание этих сред. Информация об окружающей среде может предоставить систему компьютерного зрения, действующую как датчик технического зрения и предоставляющую высокоуровневую информацию об окружающей среде и роботе.

Искусственный интеллект и компьютерное зрение разделяют другие темы, такие как распознавание образов и методы обучения. Следовательно, компьютерное зрение иногда рассматривается как часть области искусственного интеллекта или области компьютерных наук в целом.

Информационная инженерия

Компьютерное зрение часто считается частью информационной инженерии.

Физика твердого тела

Физика твердого тела - еще одна область, которая связана с компьютерным зрением. Большинство компьютерного зрения полагаются на датчики изображения, которые обнаруживают электромагнитное излучение, которое обычно имеет форму видимого или инфракрасного света. Датчики разработаны с использованием квантовой физики. Процесс взаимодействия света с поверх объясняется с помощью физики. Физика объясняет поведение оптики, которая является основной частью медицинской визуализации. Для сложных датчиков изображения требуется даже квантовая механика, чтобы обеспечить полное понимание процесса формирования изображения. Кроме того, проблемы измерения в физике могут быть решены с помощью компьютерного зрения, например, движение в жидкостях.

Нейробиология

Третьей областью, которая играет важную роль, является нейробиология, а именно изучение системы биологического зрения. За последнее столетие было проведено обширное исследование глаз, нейронов и структур мозга, посвященное обработке зрительных стимулов как у людей, так и у различных животных. Это привело к грубому, но сложному описанию того, как «настоящие» системы технического зрения работают для решения задач определенных, связанных со зрением. Эти результаты приводят к созданию подобласти компьютерного зрения, в которых искусственные предназначены для имитации обработки и поведения биологических систем на разных уровнях сложности. Кроме того, некоторые из основанных на обучении методов, разработанных в рамках компьютерного зрения (например, нейронная сеть и глубокое обучение на основе анализа и классификации изображений и признаков), имеют свою основу в биологии.

Некоторые исследования компьютерного управления связями с изучением биологического зрения - действительно, так же многие направления исследований ИИ точно связаны с исследованиями человеческого сознания. информации. Область биологического зрения изучает и моделирует физиологические процессы, лежащие в основе зрительного восприятия у людей и других животных. Компьютерное зрение, с другой стороны, изучает программные процессы, реализованные в системе искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным зрением оказался плодотворным для области.

Обработка сигналов

Еще одна область, связанная с компьютерным зрением, - обработка сигналов. Многие методы обработки сигналов с двумя переменными, обычно используемыми методами сигналов, можно естественным образом расширить до обработки сигналов с двумя переменными или сигналами с переменными в компьютерном зрении. Однако из-за специфики изображений в компьютерного зрения разработано множество методов, которые не имеют аналогов при обработке сигналов с одной переменной. Вместе с многомерностью сигнала это определяет подполе в обработке как части компьютерного зрения.

Другие области

Помимо вышеупомянутых взглядов на компьютерное зрение, многие связанные темы исследований также изучены с чисто математической точки зрения. Например, многие методы компьютерного зрения основаны на статистике, оптимизации или геометрии. Наконец, значительная часть области посвящена аспекту реализации компьютерного зрения; как методы могут быть реализованы в различных комбинациях программного обеспечения или как эти методы могут быть модифицированы для увеличения скорости обработки без потерь производительности. Компьютерное зрение также используется в электронной коммерции модной одежды, управление запасами, патентном поиске, производстве мебели и индустрии красоты.

Отличия

Области, связанных с компьютерным зрением, - это обработка изображений, анализ изображений и машинное зрение. Эти методы и приложения во многом совпадают. Это означает, что основные методы, которые используются и используются в этих областях, похожи, что можно интерпретировать как одно поле с разными именами. Другая группа, представляющая интерес, представляющая собой различные характеристики, которые отличают каждую из областей от других. представлены.

Компьютерная графика создает данные изображения из 3D-моделей, компьютерное зрение часто создает 3D-модели из данных изображения. Существует также тенденция к объединению этих двух дисциплин, например, как показано в дополненной реальности.

. Следующие характеристики кажутся актуальными, но не должны восприниматься как общепринятые:

Обработка изображений и анализ изображения имеет тенденцию фокусироваться на двухмерных изображениях, как преобразовать одно изображение в другое, например, с помощью пиксельных операций, таких как повышение контрастности, локальных операций, таких как выделение краев или удаление шума, или геометрических преобразований, таких как поворот изображения. Эта подразумевает, что обработка / анализ изображения не требует предположений и не дает интерпретаций содержания изображения.
Компьютерное зрение включает в себя трехмерный анализ из двухмерных изображений. Это анализирует 3D-сцену, проецируемую на одно или несколько изображений, например, как восстановить или другую информацию о 3D-сцене из одного или нескольких изображений. Компьютерное зрение часто основывается на более или менее сложных предположениях о сцене, изображенной на изображении.
Машинное зрение - это процесс применения ряда технологий и методов для обеспечения автоматического контроля на основе изображений, процесса управления и управления роботом в промышленных приложениях. Машинное зрение, как правило, сосредоточено на приложениех, в основном в производстве, например, роботах на основе машинного зрения, измерения или отбора (например, сбор мусора ). Это означает, что обработка данных осуществляется с помощью эффективных реализаций в аппаратном и программном секторе. Это также означает, что внешние условия, такие как освещение, могут быть и часто контролируемы в машинном зрении, чем в обычном компьютерном зрении, что позволяет использовать различные алгоритмы.
Существует также поле под названием imaging, который в основном фокусируется на процессе создания изображений, но иногда также имеет дело с обработкой и анализом изображений. Например, медицинская визуализация включает значительную работу по анализу данных в медицинских приложениях.
Наконец, распознавание образов - это область, в которой используются различные методы для извлечения информации от сигналов в целом, в основном на основе статистических подходов и искусственных нейронных сетей. Значительная часть этой области посвящена применению этих методов к данным изображения.

Фотограмметрия также пересекается с компьютерным зрением, например, стереофотограмметрия vs. компьютерное стереозрение.

Приложения

Диапазон приложений распространяется от таких задач, как промышленные системы машинного зрения, которые, скажем, проверяют проносящиеся на производственные линии бутылки, до исследований в области искусственного зрения интеллекта и компьютеры или роботы, которые могут познать окружающий мир. Сферы компьютерного зрения и машинного судебного приговора. Компьютерное зрение, основанное на автоматическом автоматическом анализе изображений, используется во многих областях. Машинное зрение обычно относится к автоматизированному анализу изображений с другими методами и технологиями для автоматизированного и управления роботами в промышленных приложениях. Во многих приложенийх компьютерного компьютерного компьютерного компьютерного компьютерного компьютерного компьютерного программного обеспечения предлагается решение конкретных задач, но методы, основанные на обучении, в время становятся все более распространенными. Примеры приложений компьютерного зрения включают системы для:

Изучение трехмерных форм сложной работы в области компьютерного зрения. Недавние достижения в глубоком обучении позволили исследователям создать модели, которые могут создать и реконструировать трехмерные формы из одно- или многовидовых карт глубины или силуэтов плавно и эффективно

Автоматическая проверка, например, в производственные приложениях;
помощь людям в идентификации, например, система видов идентификации ;
управление процессами, например, промышленный робот ;
Обнаружение событий, например, для визуального наблюдения или подсчета людей, например, в;
взаимодействии, например, как вход в устройство для взаимодействия компьютера и человека ;
Моделирование объектов или сред, например, анализ медицинских изображений или топографическое моделирование;
Навигация, например, с помощью автономного транспортного средства или мобильного робот ; и
Организация информации, например, для индексирования баз данных изображений и последовательностей изображений.

Медицина

Воспроизведение медиа Видео концепции Visual Media Reasoning от DARPA

Один из Наиболее известными областями применения являются медицинское компьютерное зрение или обработка медицинских изображений, характеризующаяся извлечением информации из данных изображения для диагностики пациента. Примером этого является обнаружение опухолей, артериосклероза или других злокачественных изменений; другой пример - измерения размеров органов, кровотока и т. д. Он также поддерживает медицинские исследования, предоставляя новую информацию: например, о структуре мозга или о качестве лечения. Применение компьютерного зрения в области медицины также включает улучшение изображений, интерпретируемых людьми, например ультразвуковых или рентгеновских изображений, для уменьшения влияния шума.

Машинное зрение

Вторая область применения компьютерного зрения - это промышленность, иногда называемая машинным зрением, где информация извлекается с целью поддержки производственного процесса. Одним из примеров является контроль качества, при котором детали или конечные продукты автоматически проверяются на предмет дефектов. Другой пример - измерение положения и ориентации деталей, которые должны быть захвачены манипулятором. Машинное зрение также широко используется в сельскохозяйственных процессах для удаления нежелательных пищевых продуктов из сыпучих материалов. Этот процесс называется оптической сортировкой.

Военным

Военное применение, вероятно, является одной из самых больших областей компьютерного зрения. Очевидными примерами являются обнаружение вражеских солдат или транспортных средств и наведение ракет. Более совершенные системы наведения ракеты направляют ракету в область, а не в конкретную цель, и выбор цели производится, когда ракета достигает области, на основе данных изображения, полученного на месте. Современные военные концепции, такие как «осведомленность о поле боя», подразумевают, что различные датчики, включая датчики изображения, предоставляют обширный набор информации о месте боя, который может использоваться для поддержки стратегических решений. В этом случае автоматическая обработка данных используется для уменьшения сложности и объединения информации от нескольких датчиков для повышения надежности.

Автономные транспортные средства

Художественная концепция Curiosity, пример беспилотного наземного транспортного средства. Обратите внимание на стереокамеру, установленную наверху марсохода.

Одной из новых областей применения являются автономные транспортные средства, в том числе подводные аппараты, наземные транспортные средства (маленькие роботы с колесами, легковые или грузовые автомобили), летательные аппараты и беспилотные летательные аппараты (БПЛА ). Уровень автономии варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системыкомпьютерного зрения водителя или пилота в различных ситуациях. Полностью автономные транспортные средства используют компьютерное зрение для навигации, например, для того, чтобы знать, где он находится, или для создания карты его окружения (SLAM ) и для обнаружения препятствий. Его также можно использовать для обнаружения событий, связанных с настройками, например, БПЛА, ищущего лесные пожары. Примерами вспомогательных систем предупреждения о препятствиях в автомобилях и системе для автономной посадки самолетов. Некоторые автомобилиали системы автономного вождения автомобилей, но производители эта технология все еще не достигла уровня, на котором ее можно было бы выпустить на рынок. Существует множество боевых автономных транспортных средств, начиная с современных ракет и наведения ракет. Исследование космоса уже осуществляется с помощью автономных транспортных средств с использованием компьютерного зрения, например, NASA Curiosity и CNSA Yutu-2 вездеход.

Тактильная обратная связь

Резиновый искусственный кожный слой с гибкой структурой для оценки формы микроволнистых поверхностей

Выше изображена силиконовая форма с камерой внутри множества различных точечных маркеров. Когда этот датчик прижимается к поверхности, силикон деформируется, и положение точечных маркеров смещается. Компьютер затем может получить эти данные и определить, как именно форма прижимается к поверхности. Это можно использовать для калибровки рукки роботов, чтобы убедиться, что они могут эффективно захватывать объекты.

Такие материалы, как резина и силикон, используются для создания датчиков, которые позволяют использовать такие приложения, как обнаружение микроволн и калибровка роботов. Резину можно использовать для создания формы, которую можно связать на пальце, внутри этой формы будет несколько датчиков деформации. Затем форму для пальца и датчики можно было связать на небольшом листе резины, содержащем набор резиновых штифтов. Затем пользователь может надеть форму для пальца и обвести поверхность. Компьютер Затем может считать данные с тензодатчиков и измерить, подталкивается ли один или несколько штифтов вверх. Если штифт проталкивается вверх, компьютер может распознать дефект на поверхности. Такая технология полезна для получения точных данных о дефектах на очень большой поверхности. Другой вариант этого датчика формы пальца - датчики, которые содержат камеру, подвешенную в силиконе. Сили образует купол вокруг камеры, а в силикон встроены точечные маркеры, расположенные на одинаковом расстоянии. Эти камеры затем можно связать на таких устройств, как руки роботов, чтобы компьютер мог получить высокоточные тактильные данные.

Другие области применения включают:

Поддержка визуальных эффектов создание для кино и телевещания, например, слежение камеры (поиск матчей).
наблюдение.
обнаружение сонливости водителя
отслеживание и подсчет систем в биологических науках

типовые задачи

Каждая из описанных выше прикладных задач задействует ряд задач компьютерного зрения; Более или менее используются задачи обработки, которые решают с помощью множества методов. Ниже представлены некоторые примеры типичных задач компьютерного зрения.

Задачи компьютерного зрения включает методы получения, обработки, анализа и понимания цифровых изображений, а также извлечения многомерных данных. из реального мира для производства числовой или символьной информации, например, в форме решений. Понимание в этом контексте означает преобразование визуальных образов (входных сетчатки глаза) в описания мира, которые могут взаимодействовать с другими мыслительными процессами и вызывать соответствующие действия. Это понимание изображения можно рассматривать как отделение символической информации от данных изображения с использованием моделей, построенных с помощью геометрии, физики, и теории обучения.

Распознавание

Классическая проблема в компьютере зрение, обработка изображений и машинное зрение - это определение, содержат ли данные изображения какой-либо конкретный объект, функцию или действие. В литературе распространенных разновидностей проблемы распознавания:

Распознавание объектов (также называемое классификация объектов ) - один или несколько заранее заданных или изученных объектов или классов объектов могут быть распознаются, как правило, вместе со своими 2D-позициями на изображении или 3D-позициями в сцене. Blippar, Google Goggles и LikeThat предоставляют автономные программы, иллюстрирующие эту функциональность.
Идентификация - распознается отдельный экземпляр объекта. Примеры идентификации лица или отпечатка пальца конкретного человека, идентификацию рукописных цифр или идентификацию конкретного транспортного транспортного средства.
Обнаружение - данные изображения сканируются для определенного состояния. Примеры использования обнаружение аномальных клеток или тканей на медицинских изображениях или обнаружение транспортных средств в использовании взимания платы за проезд. Обнаружение, основанное на использовании простых и быстрых вычислений, иногда используется для поиска областей использования данных изображения.

В настоящее время лучшие алгоритмы для таких задач основаны на сверточные нейронные сети. Пример их возможностей крупномасштабный конкурс визуального распознавания ImageNet ; это эталон классификации и обнаружения объектов с миллионами изображений и сотнями классов объектов. Производительность сверточных нейронных сетей в тестах ImageNet теперь близка к показателям людей. Лучшие алгоритмы все еще борются с маленькими или тонкими объектами, такими как маленький муравей на стебле цветка или человек, размерий перо в руке. У них также есть проблемы с изображениями, которые искажены фильтрами (все более распространенное явление в современных цифровых камерах). Напротив, такие изображения редко беспокоят людей. Однако у людей обычно возникают проблемы с проблемами. Например, они не умеют классать объекты по мелкозернистым классам, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим с легкостью.

Существует несколько задач, основанных на распознавании, таких как:

Поиск изображений на основе содержимого - поиск всех изображений в большом наборе изображений, которые имеют определенное содержание. Контент может быть указан по-разному, например, точка зрения сходства относительно целевого изображения (дайте мне все, похожие на изображение X), или с точки зрения критериев поиска высокого уровня, заданных как ввод текста (дайте мне все изображения, которые содержат много домов, взятых зимой, и в них нет машин).

Компьютерное зрение для противодействия людям в общественных местах, торговых центрах, торговых центрах

Оценка позы - оценка положения или ориентации конкретного объекта относительно камеры. Примером применения этого средства может быть помощь роботу-манипулятору в устройствах с конвейерной лентой в ситуации конвейера или в захвате деталей из бункера.
Оптическое распознавание символов (OCR) - идентификация изображения символов вх печатного или рукописного текста, обычно с целью кодирования текста в формате, более удобном для редактирования или индексции (например, ASCII ).
Чтение 2D-кода - чтение 2D-кодов, таких как матрица данных и QR коды.
Распознавание лиц
Технология распознавания форм (SRT) в счетчике людей систем, дифференцирующих людей (модели головы и плеч) от объектов

Анализ движения

Некоторые задачи связаны с Примеры таких:

Egomotion - определение твердого трехмерного движения., когда последовательность изображений обрабатывается для получения оценки скорости либо в каждой точке изображения, либо в 3D-сцене, либо камеры, которая производит изображения.
Отслеживание - отслеживание движений (обычно) меньшего набора точек движения или объектов (например, транспортные средства, люди или другие организмы) в отслеживание изображений.
Отслеживание движения транспортных средств с использованием Python (библиотека cvlib) Оптический поток - для определения для каждой точки изображения, как эта точка движется относительно плоскости изображения, т. е. ее видимое движение. Это движение является результатом как той, как соответствующая трехмерная точка перемещается в сцене, так и того, как камера движется относительно сцены.

Реконструкция сцены

Для одного или (обычно) нескольких изображений сцены, или видео, реконструкция сценылена на вычисление 3D-модели сцены. В простейшем случае модель может быть набором трехмерных точек. Более сложные методы позволяют получить полную трехмерную модель поверхности. Появление трехмерных изображений, не требующих движения или сканирования, и связанных с ними алгоритмов обработки позволяет быстро продвигаться в этой области. Трехмерное зондирование на основе сетки можно использовать для трехмерных изображений под разными углами. Теперь доступны алгоритмы для объединения 3D-изображений в облака точек и 3D-модели.

Восстановление изображения

Целью восстановления является изображение удаление шума (шума сенсора, размытости изображения и т. Д.) из изображений. Самый простой из подходов к удалению шума - это различные фильтры, такие как фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят локальные структуры изображения, чтобы отличить их от шума. Путем сначала анализа изображения с точки зрения локальных структур изображения, как линии или края, а затем управления фильтрацией на основе данных из этапов анализа, обычно достигается лучший уровень удаления шума по сравнению с более простыми подходами.

Примером в этом поле является inpainting.

Системные методы

Организация системы компьютерного зрения сильно зависит от приложения. Некоторые системы представляют собой автономные приложения, которые решают конкретную задачу или определение, в то время как другие составляют подсистему более крупной конструкции, которая, например, содержит подсистемы для управления механическими приводами, планирование, информационные данные, управление персоналом. машинные интерфейсы и т. д. Конкретная реализация системы компьютерного зрения также зависит от того, какая функция изучена заранее заданными или измененными во время работы. Многие функции уникальны для данного приложения. Однако есть типичные функции, которые можно найти во многих системах компьютерного зрения.

Получение изображения - цифровое изображение создается одним или используемым датчикми изображения, которые, включая различные типы светочувствительных камер, включают датчики дальности, томографические устройства., радар, ультразвуковые камеры и т. д. В зависимости от типа датчика результирующие данные изображения представляют собой обычное 2D-изображение, 3D-объем или последовательность изображений. Значения обычно соответствуют плотности света в одной или нескольких спектральных полосах (серые изображения или цветные изображения), но также могут быть связаны с различными физическими параметрами, такими как поглощение или коэффициент отражения звуковых или электромагнитных волн или ядерных магнитных резонансов.
Предварительная обработка - Прежде чем метод компьютерного зрения может быть применен к данным изображения для извлечения некоторой конкретной информации, обычно необходимо обработать данные, чтобы гарантировать, что они удовлетворяют определенным предположениям, подразумеваемым метод. Примеры:
- Повторная выборка, чтобы убедиться, что система координат изображения верна.
- Подавление шума, чтобы гарантировать, что шум датчика не вносит ложную информацию.
- Повышение контрастности изображения убедитесь, что релевантная информация может быть обнаружена.
- Масштабирование пространства представление для улучшения структур изображения в локальных масштабах.
Извлечение признаков - из изображения извлекаются элементы изображения на различных уровнях сложности данные. Типичными примерами таких функций являются:
- линии, ребра и выступы.
- Локализованные точки интереса, например углы, капли или точки.

Более сложные функции могут быть связаны с текстурой, формой или движением.

Обнаружение / сегментация - На определенном этапе обработки принимается решение о том, какое изображение указывает или области изображения актуальны для дальнейшей обработки. Примеры:
- Выбор определенного набора точек интереса.
- Сегментация одной или нескольких областей изображения, содержащих конкретный интересующий объект.
- Сегментация изображения на вложенные архитектура сцены, включающая передний план, группы объектов, отдельные объекты или характерные части объекта (также называемые иерархией сцены пространственного таксона), в то время как визуальная значимость часто реализуется как пространственная и временное внимание.
- Сегментация или совместная сегментация одного или нескольких видео в серию покадровых масок переднего плана с сохранением его временной семантической непрерывности.
Высокий- обработка уровня - на этом этапе ввод является типичным. Это небольшой набор данных, например набор точек или область изображения, которая, как известно, содержит определенный объект. Оставшаяся обработка исследований, например, с:
- проверкой того, что удовлетворяют допущениями на основе моделей и приложения.
- оценка параметров конкретного приложения, такого положения объекта или размер объекта.
- Распознавание изображения - классификация обнаруженного объекта по разным категориям.
- Регистрация изображения - сравнение и объединение двух разных видов одного и того же объекта.
Принятие решения Требуется принятие окончательного решения для приложения, например:
- Успешен / не пройден для приложений автоматической проверки.
- Совпадение / несоответствие в приложениях распознавания.
- Отметка для дальнейшей проверки человеком в медицине, военные приложения, приложения безопасности и распознавания.

Системы распознавания изображений

Системы распознавания изображений (IUS) включают три следующих уровня абстракции: низкий уровень включает примитивы изображения, такие как края, элементы или области; промежуточный уровень включает границы, поверхности и объемы; а высокий уровень включает объекты, сцены или события. Многие из этих требований - целиком тема для дальнейшего исследования.

Требования к представлению при разработке IUS для этих уровней: представление прототипов концепций, организация концептов, пространственные знания, временные знания, масштабирование и описание посредством сравнения и дифференциации.

В то время как вывод относится к процессу получения новых, явно не представленных фактов из данного момента фактов, контроль относится к процессу, который выбирает, какие из многих методов вывода, поиска и сопоставления следует применять на определенном этапе. обработки. Требования к выводу и контролю для ВМС: поиск и активация гипотез, сопоставление и проверка гипотез, формирование и использование ожиданий, изменение и фокус внимания, уверенность и сила веры, вывод и достижение цели.

Аппаратное обеспечение

Новый iPad оснащен лидарным датчиком

Существует много видов систем компьютерного зрения; однако все они содержат следующие основные элементы: источник питания, по крайней мере одно устройство получения изображения (камера, компакт-диск и т. д.), процессор, а также кабели управления и связи или какой-либо механизм беспроводной связи. Кроме того, практическая система технического зрения содержит программное обеспечение, а также дисплей для наблюдения за системой. Системы технического зрения для внутренних промышленных предприятий содержат освещение и могут быть помещены в контролируемую среду. Кроме того, законченная система включает в себя множество аксессуаров, таких как опоры для камер, кабели и разъемы.

Большинство систем компьютерного зрения использует камеры видимого света, пассивно просматривающие сцену с кадров не более 60 кадров в секунду (обычно намного медленнее).

Некоторые системы компьютерного зрения используют оборудование для использования изображений с активным освещением, кроме видимого света и то и другое, например 3D-сканеры со структурированным светом, термографические камеры, гиперспектральные формирователи изображения, радиолокационные сканеры, лидары, магнитно-резонансные изображения, гидролокаторы бокового обзора, сонар с синтезированной апертурой и т. Д. Такое оборудование фиксирует изображения », которые используются с использованием тех же алгоритмов компьютерного зрения, которые используются для обработки изображений в видимом свете.

В то время как традиционные и потребительские видеосистемы работают со скоростью 30 кадров в секунду, прогресс в цифровой обработке сигналов и потребительском графическом оборудовании позволил получить высокоскоростное изображение для систем реального времени возможны сбор, обработка и отображение с изображением от сотен до тысяч кадров в секунду. Для приложений в робототехнике критически важны быстрые видеосистемы в реальном времени, которые могут часто упростить обработку, определенные для определенных алгоритмов. В сочетании с высокоскоростным способом получения изображения позволяет трехмерное измерение и отслеживание характеристик.

Системы эгоцентрического зрения состоят из переносной камеры, которая автоматически делает снимки от первого лица.

С 2016 года появляются блоки обработки изображений, чтобы дополнить ЦП и блоки обработки графики (графические процессоры) в этой роли.

См. Также

Списки

Ссылки

Дополнительная литература

Дэвид Марр (1982). Видение. В. Х. Фриман и компания. ISBN 978-0-7167-1284-8.
Азриэль Розенфельд; Авинаш Как (1982). Цифровая обработка изображений. Академическая пресса. ISBN 978-0-12-597301-4.
Бархут, Лорен; Лоуренс В. Ли (2003). Система обработки перцептивной информации. Заявка на патент США 10/618 543. ISBN 978-0-262-08159-7.
Бертольд К.П. Хорн (1986). Зрение робота. MIT Press. ISBN 978-0-262-08159-7.
Майкл К. Фэрхерст (1988). Компьютерное зрение для робототехнических систем. Прентис Холл. ISBN 978-0-13-166919-2.
Оливье Фожерас (1993). Трехмерное компьютерное зрение, геометрическая точка зрения. MIT Press. ISBN 978-0-262-06158-2.
Тони Линдеберг (1994). Теория масштабного пространства в компьютерном зрении. Springer. ISBN 978-0-7923-9418-1.
Джеймс Л. Кроули и Хенрик И. Кристенсен (ред.) (1995). Видение как процесс. Springer-Verlag. ISBN 978-3-540-58143-7. CS1 maint: дополнительный текст: список авторов (ссылка )
Gösta H. Granlund; Hans Knutsson (1995). Обработка сигналов для компьютерного зрения. Kluwer Academic Publisher. ISBN 978-0-7923-9530-0.
Рейнхард Клетте; Карстен Шлюенс; Андреас Кошан (1998). Компьютерное зрение - трехмерные данные из изображений. Springer, Singapore. ISBN 978-981-3083-71-4.
Эмануэле Трукко; Алессандро Верри (1998). Вводные методы для трехмерного компьютерного зрения. Прентис Холл. ISBN 978 -0-13-261108-4.
Бернд Яне (2002). Цифровая обработка изображений. Springer. ISBN 978-3-540-67754-3.
Ричард Хартли и Эндрю Зиссерман (2003). Многоканальная геометрия в компьютерном зрении. Cambridge University Press. ISBN 978-0-521-54051-3.
Жерар Медиони; Синг Бинг Канг ( 2004). Новые темы компьютерного зрения. Прентис Холл. ISBN 978-0-13-101366-7.
Р. Фишер; К. Доусон-Хау; А. Фитцгиббон; К. Робертсон; Э. Трукко (2005). Словарь компьютерного зрения и обработки изображений. Джон Вили. ISBN 978-0-470-01526-1.
Никос Парагиос и Юнмей Чен и Оливье Фогерас (2005). Справочник по математическим моделям компьютерного зрения. Springer. ISBN 978-0-387-26371-7.
Вильгельм Бургер; Марк Дж. Бердж (2007). Обработка цифровых изображений: алгоритмический подход с использованием Java. Спрингер. ISBN 978-1-84628-379-6.
Педрам Азад; Тило Гокель; Рюдигер Диллманн (2008). Компьютерное зрение - принципы и практика. Elektor International Media BV. ISBN 978-0-905705-71-2.
Ричард Селиски (2010). Компьютерное зрение: алгоритмы и приложения. Springer-Verlag. ISBN 978-1848829343.
Дж. Р. Паркер (2011). Алгоритмы обработки изображений и компьютерного зрения (2-е изд.). Вайли. ISBN 978-0470643853.
Ричард Дж. Радке (2013). Компьютерное зрение для визуальных эффектов. Издательство Кембриджского университета. ISBN 978-0-521-76687-6.
Никсон, Марк; Агуадо, Альберто (2019). Извлечение функций и обработка изображений для компьютерного зрения (4-е изд.). Академическая пресса. ISBN 978-0128149768.

Внешние ссылки

Список конференций USC Iris по компьютерному зрению
Статьи по компьютерному зрению в сети Полный список статей по наиболее актуальным вопросам компьютерного зрения конференции.
Computer Vision Online Новости, исходный код, наборы данных и предложения о работе, связанные с компьютерным зрением.
Аннотированная библиография по компьютерному зрению Кейта Прайса
CVonline Сборник компьютерного зрения Боба Фишера.
Британская ассоциация машинного зрения Поддержка исследований компьютерного зрения в Великобритании через конференции BMVC и MIUA, Annals of the (журнал с открытым исходным кодом), Летняя школа BMVA и однодневные встречи
Контейнер компьютерного зрения, Джо Хеллер GitHub: Широко распространенный контейнер с открытым исходным кодом для приложений компьютерного зрения с ускорением на GPU. Используется исследователями, университетами, частными компаниями, а также правительством США.