Компьютерное зрение - это междисциплинарная научная область, которая занимается как компьютеры могут получить общее представление о цифровых изображениях или видео. С точки зрения инженерии, он стремится понять и автоматизировать задачи, которые могут выполнять человеческая зрительная система.
Задачи компьютерного зрения включает методы для получение, обработка, анализ и понимание цифровых изображений, а также извлечение данных высокой размерности из реального мира для получения числовой или символьной информации, например в формах решений. Понимание в этом контексте означает преобразование визуальных образов (вход сетчатки глаза) в описания мира, которые имеют смысл для мыслительных процессов и могут вызывать соответствующие действия. Такое понимание изображения можно рассматривать как отделение символической информации от данных изображения с использованием моделей, построенных с помощью геометрии, физики, и теории обучения.
научная дисциплина компьютерного зрения. занимается теорией искусственных систем, извлекающих информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер, многомерные данные с 3D-сканера или медицинского сканирующего устройства. Технологическая дисциплина компьютерного зрения пытается применить свои теории и модели к созданию системного зрения.
Поддомены компьютерного зрения включают реконструкцию сцены, обнаружение событий, отслеживание видео, распознавание объекта, оценку трехмерной позы, обучение, индексция, оценка движения, визуальное отслеживание, моделирование трехмерной сцены и восстановление изображения.
Компьютерное зрение - это междисциплинарная область, которая касается того, как могут компьютеры получить общее представление о цифровые изображениях или видео. С точки зрения инженерии, он стремится автоматизировать задачи, которые могут выполнять человеческая зрительная система. «Компьютерное зрение связано с автоматическим извлечением, анализом и пониманием полезной информации одного изображения или изображений. Оно включает в себя программу теоретической и алгоритмической основы для достижения автоматического визуального понимания ». Как научная дисциплина, компьютерное зрение связано с теорией, лежащей в основе искусственных систем, извлекающих информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер или многомерные данные с медицинский сканера. Как технологическая дисциплина, компьютерное зрение применить свои теории и модели для построения компьютерного зрения.
В конце 1960-х годов компьютерное зрение началось в университетах, первыми начали искусственный интеллект. Он должен был имитировать человеческую зрительную систему как ступеньку к наделению роботов разумным поведением. В 1966 году считалось, что этого можно достичь с помощью летнего проекта, подключив камеру к компьютеру и заставив ее «описывать то, что он видел».
Чем отличается компьютерное зрение от широко распространенной области обработка цифровых изображений в то время было желанием извлечь трехмерную обработку изображений с целью достижения полного понимания сцены. Исследования 1970-х легли в основе нашего сегодняшнего алгоритмов компьютерного зрения , включая извлечение краев из изображений, маркировку линий, неполиэдральные и многогранные моделирование, представление объектов как взаимосвязей более мелких структур, оптический поток и оценка движения.
В следующем десятилетии проводились исследования, основанные на более строгом математическом анализе и количественных аспектах компьютерного зрения. К ним концепция масштабного пространства, вывод формы из различных сигналов, как таких, текстура и фокус, и контурные модели, известные как змейки. Исследователи также поняли, что многие из этих математических понятий можно рассматривать в рамках той же системы оптимизации, что и регуляризация и марковские случайные поля. К 1990-м годам некоторые из предыдущих исследований стали более активными, чем. Исследование проекта 3-D реконструкций привело к лучшему пониманию калибровки камеры. С появлением методов оптимизации калибровки камеры стало понятно, что многие идеи уже были исследованы в теории пучка из области фотограмметрии. Это к методам разрежженных трехмерных реконструкций сцен из нескольких изображений. Был достигнут прогресс в решении проблемы качественного стерео и дальнейших методов многовидового стерео. В то же время, использовались варианты разреза графики для решения сегментации изображения. Это десятилетие также стало первым разом, когда методы статистического обучения были использованы на практике для распознавания лиц изображениях (см. Eigenface ). К концу 1990-х годов произошли значительные изменения с усилением взаимодействия между областями компьютерной графики и компьютерного зрения. Это включало рендеринг на основе изображения, морфинг изображения, интерполяцию вида, сшивание панорамных изображений и ранний рендеринг светового поля.
Недавние работы были замечены возрождение методы на основе функции, используются в сочетании с методами машинного обучения и сложными структурами оптимизации. Развитие методов глубокого обучения вдохнуло жизнь в область компьютерного зрения. Точность алгоритмов глубокого обучения на нескольких эталонных наборах данных компьютерного зрения для различных задач от классификации, сегментации и оптического потока, превзошла предыдущие методы.
Области искусственного интеллекта связаны с автономным планированием пути или обдумыванием роботизированных систем для навигации в среде. Для навигации по ним требуется подробное понимание этих сред. Информация об окружающей среде может предоставить систему компьютерного зрения, действующую как датчик технического зрения и предоставляющую высокоуровневую информацию об окружающей среде и роботе.
Искусственный интеллект и компьютерное зрение разделяют другие темы, такие как распознавание образов и методы обучения. Следовательно, компьютерное зрение иногда рассматривается как часть области искусственного интеллекта или области компьютерных наук в целом.
Компьютерное зрение часто считается частью информационной инженерии.
Физика твердого тела - еще одна область, которая связана с компьютерным зрением. Большинство компьютерного зрения полагаются на датчики изображения, которые обнаруживают электромагнитное излучение, которое обычно имеет форму видимого или инфракрасного света. Датчики разработаны с использованием квантовой физики. Процесс взаимодействия света с поверх объясняется с помощью физики. Физика объясняет поведение оптики, которая является основной частью медицинской визуализации. Для сложных датчиков изображения требуется даже квантовая механика, чтобы обеспечить полное понимание процесса формирования изображения. Кроме того, проблемы измерения в физике могут быть решены с помощью компьютерного зрения, например, движение в жидкостях.
Третьей областью, которая играет важную роль, является нейробиология, а именно изучение системы биологического зрения. За последнее столетие было проведено обширное исследование глаз, нейронов и структур мозга, посвященное обработке зрительных стимулов как у людей, так и у различных животных. Это привело к грубому, но сложному описанию того, как «настоящие» системы технического зрения работают для решения задач определенных, связанных со зрением. Эти результаты приводят к созданию подобласти компьютерного зрения, в которых искусственные предназначены для имитации обработки и поведения биологических систем на разных уровнях сложности. Кроме того, некоторые из основанных на обучении методов, разработанных в рамках компьютерного зрения (например, нейронная сеть и глубокое обучение на основе анализа и классификации изображений и признаков), имеют свою основу в биологии.
Некоторые исследования компьютерного управления связями с изучением биологического зрения - действительно, так же многие направления исследований ИИ точно связаны с исследованиями человеческого сознания. информации. Область биологического зрения изучает и моделирует физиологические процессы, лежащие в основе зрительного восприятия у людей и других животных. Компьютерное зрение, с другой стороны, изучает программные процессы, реализованные в системе искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным зрением оказался плодотворным для области.
Еще одна область, связанная с компьютерным зрением, - обработка сигналов. Многие методы обработки сигналов с двумя переменными, обычно используемыми методами сигналов, можно естественным образом расширить до обработки сигналов с двумя переменными или сигналами с переменными в компьютерном зрении. Однако из-за специфики изображений в компьютерного зрения разработано множество методов, которые не имеют аналогов при обработке сигналов с одной переменной. Вместе с многомерностью сигнала это определяет подполе в обработке как части компьютерного зрения.
Помимо вышеупомянутых взглядов на компьютерное зрение, многие связанные темы исследований также изучены с чисто математической точки зрения. Например, многие методы компьютерного зрения основаны на статистике, оптимизации или геометрии. Наконец, значительная часть области посвящена аспекту реализации компьютерного зрения; как методы могут быть реализованы в различных комбинациях программного обеспечения или как эти методы могут быть модифицированы для увеличения скорости обработки без потерь производительности. Компьютерное зрение также используется в электронной коммерции модной одежды, управление запасами, патентном поиске, производстве мебели и индустрии красоты.
Области, связанных с компьютерным зрением, - это обработка изображений, анализ изображений и машинное зрение. Эти методы и приложения во многом совпадают. Это означает, что основные методы, которые используются и используются в этих областях, похожи, что можно интерпретировать как одно поле с разными именами. Другая группа, представляющая интерес, представляющая собой различные характеристики, которые отличают каждую из областей от других. представлены.
Компьютерная графика создает данные изображения из 3D-моделей, компьютерное зрение часто создает 3D-модели из данных изображения. Существует также тенденция к объединению этих двух дисциплин, например, как показано в дополненной реальности.
. Следующие характеристики кажутся актуальными, но не должны восприниматься как общепринятые:
Фотограмметрия также пересекается с компьютерным зрением, например, стереофотограмметрия vs. компьютерное стереозрение.
Диапазон приложений распространяется от таких задач, как промышленные системы машинного зрения, которые, скажем, проверяют проносящиеся на производственные линии бутылки, до исследований в области искусственного зрения интеллекта и компьютеры или роботы, которые могут познать окружающий мир. Сферы компьютерного зрения и машинного судебного приговора. Компьютерное зрение, основанное на автоматическом автоматическом анализе изображений, используется во многих областях. Машинное зрение обычно относится к автоматизированному анализу изображений с другими методами и технологиями для автоматизированного и управления роботами в промышленных приложениях. Во многих приложенийх компьютерного компьютерного компьютерного компьютерного компьютерного компьютерного компьютерного программного обеспечения предлагается решение конкретных задач, но методы, основанные на обучении, в время становятся все более распространенными. Примеры приложений компьютерного зрения включают системы для:
Изучение трехмерных форм сложной работы в области компьютерного зрения. Недавние достижения в глубоком обучении позволили исследователям создать модели, которые могут создать и реконструировать трехмерные формы из одно- или многовидовых карт глубины или силуэтов плавно и эффективноОдин из Наиболее известными областями применения являются медицинское компьютерное зрение или обработка медицинских изображений, характеризующаяся извлечением информации из данных изображения для диагностики пациента. Примером этого является обнаружение опухолей, артериосклероза или других злокачественных изменений; другой пример - измерения размеров органов, кровотока и т. д. Он также поддерживает медицинские исследования, предоставляя новую информацию: например, о структуре мозга или о качестве лечения. Применение компьютерного зрения в области медицины также включает улучшение изображений, интерпретируемых людьми, например ультразвуковых или рентгеновских изображений, для уменьшения влияния шума.
Вторая область применения компьютерного зрения - это промышленность, иногда называемая машинным зрением, где информация извлекается с целью поддержки производственного процесса. Одним из примеров является контроль качества, при котором детали или конечные продукты автоматически проверяются на предмет дефектов. Другой пример - измерение положения и ориентации деталей, которые должны быть захвачены манипулятором. Машинное зрение также широко используется в сельскохозяйственных процессах для удаления нежелательных пищевых продуктов из сыпучих материалов. Этот процесс называется оптической сортировкой.
Военное применение, вероятно, является одной из самых больших областей компьютерного зрения. Очевидными примерами являются обнаружение вражеских солдат или транспортных средств и наведение ракет. Более совершенные системы наведения ракеты направляют ракету в область, а не в конкретную цель, и выбор цели производится, когда ракета достигает области, на основе данных изображения, полученного на месте. Современные военные концепции, такие как «осведомленность о поле боя», подразумевают, что различные датчики, включая датчики изображения, предоставляют обширный набор информации о месте боя, который может использоваться для поддержки стратегических решений. В этом случае автоматическая обработка данных используется для уменьшения сложности и объединения информации от нескольких датчиков для повышения надежности.
Одной из новых областей применения являются автономные транспортные средства, в том числе подводные аппараты, наземные транспортные средства (маленькие роботы с колесами, легковые или грузовые автомобили), летательные аппараты и беспилотные летательные аппараты (БПЛА ). Уровень автономии варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системыкомпьютерного зрения водителя или пилота в различных ситуациях. Полностью автономные транспортные средства используют компьютерное зрение для навигации, например, для того, чтобы знать, где он находится, или для создания карты его окружения (SLAM ) и для обнаружения препятствий. Его также можно использовать для обнаружения событий, связанных с настройками, например, БПЛА, ищущего лесные пожары. Примерами вспомогательных систем предупреждения о препятствиях в автомобилях и системе для автономной посадки самолетов. Некоторые автомобилиали системы автономного вождения автомобилей, но производители эта технология все еще не достигла уровня, на котором ее можно было бы выпустить на рынок. Существует множество боевых автономных транспортных средств, начиная с современных ракет и наведения ракет. Исследование космоса уже осуществляется с помощью автономных транспортных средств с использованием компьютерного зрения, например, NASA Curiosity и CNSA Yutu-2 вездеход.
Такие материалы, как резина и силикон, используются для создания датчиков, которые позволяют использовать такие приложения, как обнаружение микроволн и калибровка роботов. Резину можно использовать для создания формы, которую можно связать на пальце, внутри этой формы будет несколько датчиков деформации. Затем форму для пальца и датчики можно было связать на небольшом листе резины, содержащем набор резиновых штифтов. Затем пользователь может надеть форму для пальца и обвести поверхность. Компьютер Затем может считать данные с тензодатчиков и измерить, подталкивается ли один или несколько штифтов вверх. Если штифт проталкивается вверх, компьютер может распознать дефект на поверхности. Такая технология полезна для получения точных данных о дефектах на очень большой поверхности. Другой вариант этого датчика формы пальца - датчики, которые содержат камеру, подвешенную в силиконе. Сили образует купол вокруг камеры, а в силикон встроены точечные маркеры, расположенные на одинаковом расстоянии. Эти камеры затем можно связать на таких устройств, как руки роботов, чтобы компьютер мог получить высокоточные тактильные данные.
Другие области применения включают:
Каждая из описанных выше прикладных задач задействует ряд задач компьютерного зрения; Более или менее используются задачи обработки, которые решают с помощью множества методов. Ниже представлены некоторые примеры типичных задач компьютерного зрения.
Задачи компьютерного зрения включает методы получения, обработки, анализа и понимания цифровых изображений, а также извлечения многомерных данных. из реального мира для производства числовой или символьной информации, например, в форме решений. Понимание в этом контексте означает преобразование визуальных образов (входных сетчатки глаза) в описания мира, которые могут взаимодействовать с другими мыслительными процессами и вызывать соответствующие действия. Это понимание изображения можно рассматривать как отделение символической информации от данных изображения с использованием моделей, построенных с помощью геометрии, физики, и теории обучения.
Классическая проблема в компьютере зрение, обработка изображений и машинное зрение - это определение, содержат ли данные изображения какой-либо конкретный объект, функцию или действие. В литературе распространенных разновидностей проблемы распознавания:
В настоящее время лучшие алгоритмы для таких задач основаны на сверточные нейронные сети. Пример их возможностей крупномасштабный конкурс визуального распознавания ImageNet ; это эталон классификации и обнаружения объектов с миллионами изображений и сотнями классов объектов. Производительность сверточных нейронных сетей в тестах ImageNet теперь близка к показателям людей. Лучшие алгоритмы все еще борются с маленькими или тонкими объектами, такими как маленький муравей на стебле цветка или человек, размерий перо в руке. У них также есть проблемы с изображениями, которые искажены фильтрами (все более распространенное явление в современных цифровых камерах). Напротив, такие изображения редко беспокоят людей. Однако у людей обычно возникают проблемы с проблемами. Например, они не умеют классать объекты по мелкозернистым классам, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим с легкостью.
Существует несколько задач, основанных на распознавании, таких как:
Некоторые задачи связаны с Примеры таких:
Для одного или (обычно) нескольких изображений сцены, или видео, реконструкция сценылена на вычисление 3D-модели сцены. В простейшем случае модель может быть набором трехмерных точек. Более сложные методы позволяют получить полную трехмерную модель поверхности. Появление трехмерных изображений, не требующих движения или сканирования, и связанных с ними алгоритмов обработки позволяет быстро продвигаться в этой области. Трехмерное зондирование на основе сетки можно использовать для трехмерных изображений под разными углами. Теперь доступны алгоритмы для объединения 3D-изображений в облака точек и 3D-модели.
Целью восстановления является изображение удаление шума (шума сенсора, размытости изображения и т. Д.) из изображений. Самый простой из подходов к удалению шума - это различные фильтры, такие как фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят локальные структуры изображения, чтобы отличить их от шума. Путем сначала анализа изображения с точки зрения локальных структур изображения, как линии или края, а затем управления фильтрацией на основе данных из этапов анализа, обычно достигается лучший уровень удаления шума по сравнению с более простыми подходами.
Примером в этом поле является inpainting.
Организация системы компьютерного зрения сильно зависит от приложения. Некоторые системы представляют собой автономные приложения, которые решают конкретную задачу или определение, в то время как другие составляют подсистему более крупной конструкции, которая, например, содержит подсистемы для управления механическими приводами, планирование, информационные данные, управление персоналом. машинные интерфейсы и т. д. Конкретная реализация системы компьютерного зрения также зависит от того, какая функция изучена заранее заданными или измененными во время работы. Многие функции уникальны для данного приложения. Однако есть типичные функции, которые можно найти во многих системах компьютерного зрения.
Системы распознавания изображений (IUS) включают три следующих уровня абстракции: низкий уровень включает примитивы изображения, такие как края, элементы или области; промежуточный уровень включает границы, поверхности и объемы; а высокий уровень включает объекты, сцены или события. Многие из этих требований - целиком тема для дальнейшего исследования.
Требования к представлению при разработке IUS для этих уровней: представление прототипов концепций, организация концептов, пространственные знания, временные знания, масштабирование и описание посредством сравнения и дифференциации.
В то время как вывод относится к процессу получения новых, явно не представленных фактов из данного момента фактов, контроль относится к процессу, который выбирает, какие из многих методов вывода, поиска и сопоставления следует применять на определенном этапе. обработки. Требования к выводу и контролю для ВМС: поиск и активация гипотез, сопоставление и проверка гипотез, формирование и использование ожиданий, изменение и фокус внимания, уверенность и сила веры, вывод и достижение цели.
Существует много видов систем компьютерного зрения; однако все они содержат следующие основные элементы: источник питания, по крайней мере одно устройство получения изображения (камера, компакт-диск и т. д.), процессор, а также кабели управления и связи или какой-либо механизм беспроводной связи. Кроме того, практическая система технического зрения содержит программное обеспечение, а также дисплей для наблюдения за системой. Системы технического зрения для внутренних промышленных предприятий содержат освещение и могут быть помещены в контролируемую среду. Кроме того, законченная система включает в себя множество аксессуаров, таких как опоры для камер, кабели и разъемы.
Большинство систем компьютерного зрения использует камеры видимого света, пассивно просматривающие сцену с кадров не более 60 кадров в секунду (обычно намного медленнее).
Некоторые системы компьютерного зрения используют оборудование для использования изображений с активным освещением, кроме видимого света и то и другое, например 3D-сканеры со структурированным светом, термографические камеры, гиперспектральные формирователи изображения, радиолокационные сканеры, лидары, магнитно-резонансные изображения, гидролокаторы бокового обзора, сонар с синтезированной апертурой и т. Д. Такое оборудование фиксирует изображения », которые используются с использованием тех же алгоритмов компьютерного зрения, которые используются для обработки изображений в видимом свете.
В то время как традиционные и потребительские видеосистемы работают со скоростью 30 кадров в секунду, прогресс в цифровой обработке сигналов и потребительском графическом оборудовании позволил получить высокоскоростное изображение для систем реального времени возможны сбор, обработка и отображение с изображением от сотен до тысяч кадров в секунду. Для приложений в робототехнике критически важны быстрые видеосистемы в реальном времени, которые могут часто упростить обработку, определенные для определенных алгоритмов. В сочетании с высокоскоростным способом получения изображения позволяет трехмерное измерение и отслеживание характеристик.
Системы эгоцентрического зрения состоят из переносной камеры, которая автоматически делает снимки от первого лица.
С 2016 года появляются блоки обработки изображений, чтобы дополнить ЦП и блоки обработки графики (графические процессоры) в этой роли.
.