В обработке цифровых изображений и компьютерном зрении, сегментация изображения - это процесс разделения цифрового изображения на несколько сегментов (устанавливает из пикселей, также известный как изображение объекты). Цель сегментации - упростить и / или изменить представление изображения на что-то более значимое и более простое для анализа. Сегментация изображения обычно используется для определения местоположения объектов и границ (линий, кривых и т. Д.) На изображениях. Точнее, сегментация изображения - это процесс присвоения метки каждому пикселю в изображении таким образом, чтобы пиксели с одинаковой меткой обладали определенными характеристиками.
Результатом сегментации изображения является набор сегментов, которые вместе покрывают все изображение, или набор из контуров, извлеченных из изображения (см. обнаружение краев ). Каждый из пикселей в области подобен некоторым характеристикам или вычисляемым свойствам, таким как цвет, интенсивность или текстура. Соседние регионы значительно различаются по одним и тем же характеристикам. При применении к стопке изображений, типичной для медицинской визуализации, полученные контуры после сегментации изображения могут использоваться для создания 3D-реконструкций с помощью алгоритмов интерполяции, таких как маршевые кубы.
Некоторые из практических применений сегментации изображений:
Несколько универсальных алгоритмов и методов были разработаны для сегментации изображений. Чтобы быть полезными, эти методы обычно должны сочетаться со специфическими знаниями предметной области, чтобы эффективно решать проблемы сегментации предметной области.
Простейший метод сегментации изображения называется методом пороговым значением. Этот метод основан на уровне клипа (или пороговом значении) для преобразования полутонового изображения в двоичное изображение.
Ключом этого метода является выбор порогового значения (или значений, когда выбраны несколько уровней). В промышленности используются несколько популярных методов, включая метод максимальной энтропии, пороговое значение сбалансированной гистограммы, метод Оцу (максимальная дисперсия) и кластеризация k-средних.
В последнее время методы были разработаны для определения пороговых значений изображений компьютерной томографии (КТ). Ключевая идея заключается в том, что, в отличие от метода Оцу, пороговые значения получаются из рентгенограмм, а не из (реконструированного) изображения.
Новые методы предполагают использование многомерных нечетких нелинейных пороговых значений на основе правил. В этих работах решение о принадлежности каждого пикселя к сегменту основывается на многомерных правилах, полученных из нечеткой логики и эволюционных алгоритмов, основанных на среде освещения изображения и приложении.
Алгоритм K-средних - это итеративный метод, который используется для разделения изображения на K кластеров. Базовый алгоритм - это
В этом случае расстояние представляет собой квадрат или абсолютную разницу между пикселем и центром кластера. Разница обычно основана на цвете пикселя , интенсивности, текстуры и местоположении или на взвешенной комбинации этих факторов. K можно выбрать вручную, случайным образом или с помощью эвристики . Этот алгоритм гарантированно сходится, но он может не вернуть оптимальное решение. Качество решения зависит от начального набора кластеров и значения K.
Сегментация на основе движения - это метод, основанный на движении в изображении для выполнения сегментации..
Идея проста: посмотрите на различия между парой изображений. Если предположить, что интересующий объект движется, разница будет именно в этом объекте.
Развивая эту идею, Kenney et al. предложенная интерактивная сегментация [2]. Они используют робота, чтобы толкать объекты, чтобы генерировать сигнал движения, необходимый для сегментации на основе движения.
Интерактивная сегментация следует структуре интерактивного восприятия, предложенной Довом Кацем [3] и Оливером Броком [4].
На основе сжатия Методы постулируют, что оптимальная сегментация - это та, которая минимизирует, по всем возможным сегментам, длину кодирования данных. Связь между этими двумя концепциями заключается в том, что сегментация пытается найти закономерности в изображении, и любая регулярность изображения может использоваться для его сжатия. Метод описывает каждый сегмент своей текстурой и формой границы. Каждый из этих компонентов моделируется функцией распределения вероятностей, и длина его кодирования вычисляется следующим образом:
Для любой данной сегментации изображения эта схема дает количество битов, требуемых для кодирования этого изображения на основе данной сегментации. Таким образом, среди всех возможных сегментов изображения цель состоит в том, чтобы найти сегментацию, которая дает наименьшую длину кодирования. Этого можно добиться с помощью простого метода агломеративной кластеризации. Искажение при сжатии с потерями определяет грубость сегментации, и его оптимальное значение может отличаться для каждого изображения. Этот параметр можно эвристически оценить по контрастности текстур на изображении. Например, когда текстуры в изображении похожи, например, в камуфляжных изображениях, требуется более высокая чувствительность и, следовательно, меньшее квантование.
Методы на основе гистограммы очень эффективны по сравнению с другими методами сегментации изображения, поскольку они обычно требуют только одного прохода через пикселей. В этом методе гистограмма вычисляется по всем пикселям изображения, а пики и впадины на гистограмме используются для определения местоположения кластеров на изображении. Цвет или интенсивность может использоваться в качестве меры.
Уточнение этого метода состоит в том, чтобы рекурсивно применить метод поиска гистограммы к кластерам в изображении, чтобы разделить их на более мелкие кластеры. Эта операция повторяется с меньшими и меньшими кластерами до тех пор, пока не перестанут образовываться кластеры.
Одним из недостатков метода поиска гистограммы является то, что может быть трудно идентифицировать значимые пики и впадины на изображении.
Подходы на основе гистограмм также могут быть быстро адаптированы для применения к нескольким кадрам, сохраняя при этом их эффективность за один проход. При рассмотрении нескольких кадров гистограмма может быть построена несколькими способами. Тот же подход, который применяется к одному кадру, может быть применен к нескольким, и после объединения результатов пики и впадины, которые ранее было трудно идентифицировать, с большей вероятностью будут различимы. Гистограмма также может применяться на попиксельной основе, где полученная информация используется для определения наиболее частого цвета для местоположения пикселя. Этот подход сегментирует на основе активных объектов и статической среды, что приводит к другому типу сегментации, полезной при отслеживании видео.
Обнаружение краев - это хорошо разработанная область, сама по себе в изображении обработка. Границы и края областей тесно связаны, так как часто происходит резкое изменение интенсивности на границах области. Поэтому методы обнаружения краев были использованы в качестве основы для другого метода сегментации.
Края, идентифицированные при обнаружении кромок, часто отсоединяются. Однако, чтобы отделить объект от изображения, нужны закрытые границы области. Желаемые края являются границами между такими объектами или пространственными таксонами.
Пространственные таксоны - это информационные гранулы, состоящие из четких пиксельных областей, расположенных на уровнях абстракции в иерархической архитектуре вложенной сцены. Они похожи на гештальт психологическое обозначение фигуры-фона, но расширены, чтобы включать передний план, группы объектов, объекты и заметные части объекта. Методы обнаружения краев могут быть применены к области пространственного таксона точно так же, как они были бы применены к силуэту. Этот метод особенно полезен, когда отключенная кромка является частью иллюзорного контура.
Методы сегментации также могут применяться к кромкам, полученным с помощью детекторов кромок. Линдеберг и Ли разработали интегрированный метод, который сегментирует кромки на прямые и изогнутые кромочные сегменты для распознавания объектов по частям на основе критерия минимальной длины описания (M DL), который был оптимизирован с помощью разделения и слияния. -подобный метод с точками-кандидатами, полученными из дополнительных реплик соединения, чтобы получить более вероятные точки, в которых следует рассматривать разбиения на разные сегменты.
Этот метод представляет собой комбинацию трех характеристик изображения: разбиение изображения на основе анализа гистограммы проверяется высокой компактностью кластеров (объектов) и высокими градиентами своих границ. Для этого необходимо ввести два пространства: одно пространство - одномерная гистограмма яркости H = H (B); второе пространство - это двойное трехмерное пространство самого исходного изображения B = B (x, y). Первое пространство позволяет измерить, насколько компактно распределена яркость изображения, вычисляя минимальную кластеризацию kmin. Пороговая яркость T, соответствующая kmin, определяет двоичное (черно-белое) изображение - растровое изображение b = φ (x, y), где φ (x, y) = 0, если B (x, y) < T, and φ(x, y) = 1, if B(x, y) ≥ T. The bitmap b is an object in dual space. On that bitmap a measure has to be defined reflecting how compact distributed black (or white) pixels are. So, the goal is to find objects with good borders. For all T the measure MDC= G / (k × L) необходимо вычислить (где k - разница в яркости между объектом и фоном, L - длина всех границ, а G - средний градиент на границах). Максимальное значение MDC определяет сегментацию.
Методы увеличения области в основном основываются на предположении, что соседние пиксели в одной области имеют аналогичные значения. Обычная процедура - это сравнение одного пикселя с его соседями. Если критерий подобия удовлетворен, пиксель может быть установлен так, чтобы он принадлежал тому же кластеру, что и один или несколько его соседей. Выбор критерия подобия важен, и на результаты во всех случаях влияет шум.
Метод статистического объединения областей (SRM) начинается с построения графа пикселей с использованием 4-связности с краями, взвешенными по абсолютному значению разности яркости. Первоначально каждый пиксель образует область одного пикселя. Затем SRM сортирует эти края в очереди по приоритету и решает, следует ли объединить текущие области, принадлежащие краевым пикселям, с использованием статистического предиката.
Одним из способов выращивания области является метод выращивания области засева. Этот метод принимает набор семян в качестве входных данных вместе с изображением. Семена отмечают каждый из объектов, которые нужно сегментировать. Области итеративно увеличиваются путем сравнения всех нераспределенных соседних пикселей с областями. Разница между значением интенсивности пикселя и средним значением области, , используется как мера сходства. Пиксель с наименьшей разницей, измеренной таким образом, назначается соответствующей области. Этот процесс продолжается до тех пор, пока все пиксели не будут присвоены области. Поскольку для выращивания посевной области требуются семена в качестве дополнительных входных данных, результаты сегментации зависят от выбора семян, а шум на изображении может привести к неправильному размещению семян.
Другой метод выращивания области - это метод выращивания незасеянной области. Это модифицированный алгоритм, не требующий явных начальных чисел. Он начинается с одной области - выбранный здесь пиксель не оказывает заметного влияния на окончательную сегментацию. На каждой итерации он учитывает соседние пиксели так же, как растёт засеянная область. Он отличается от роста засеянной области тем, что если минимальное значение меньше заранее определенного порога , тогда оно добавляется в соответствующую область . В противном случае пиксель считается отличным от всех текущих областей и новой области создается с этим пикселем.
Один вариант этого метода, предложенный Хараликом и Шапиро (1985), основан на интенсивностях пикселей . Среднее значение и разброс области и интенсивность пикселя-кандидата используются для вычисления тестовой статистики. Если статистика теста достаточно мала, пиксель добавляется к области, а среднее значение области и разброс пересчитываются. В противном случае пиксель отклоняется и используется для формирования новой области.
Особый метод увеличения области называется -связной сегментацией (см. Также лямбда-связность ). Он основан на пикселях , интенсивностях и путях связывания окрестностей. Степень связности (связности) рассчитывается на основе пути, образованного пикселями. Для определенного значения два пикселя называются -связанными, если существует связь пути эти два пикселя и связность этого пути не менее . -связанность - это отношение эквивалентности.
Split- сегментация и-слияние основана на разделе quadtree изображения. Иногда это называют сегментацией дерева квадрантов.
Этот метод начинается с корня дерева, представляющего все изображение. Если он оказывается неоднородным (неоднородным), то он разбивается на четыре дочерних квадрата (процесс разделения) и так далее. Если, напротив, четыре дочерних квадрата однородны, они объединяются как несколько связанных компонентов (процесс объединения). Узел в дереве - это сегментированный узел. Этот процесс продолжается рекурсивно до тех пор, пока дальнейшие разделения или слияния не станут невозможными. Когда в реализации алгоритма метода задействована специальная структура данных, ее временная сложность может достигать , оптимальный алгоритм метода.
Использование метода на основе дифференциального уравнения в частных производных (PDE) и решение уравнения PDE численным схему можно сегментировать изображение. Распространение кривой - популярный метод в этой категории, с многочисленными приложениями для извлечения объектов, отслеживания объектов, стерео реконструкции и т. Д. Центральная идея состоит в том, чтобы развить начальную кривую в направлении наименьшего потенциала функции затрат, где ее определение отражает задачу быть адресованным. Как и для большинства обратных задач , минимизация функционала стоимости является нетривиальной и накладывает определенные ограничения гладкости на решение, которые в данном случае могут быть выражены как геометрические ограничения на развивающейся кривой.
Лагранжевые методы основаны на параметризации контура в соответствии с некоторой стратегией выборки и последующем развитии каждого элемента в соответствии с изображением и внутренними условиями. Такие методы быстры и эффективны, однако оригинальная «чисто параметрическая» формулировка (из-за Касс, Виткин и Терзопулос в 1987 году и известный как «змей »), обычно критикуют за свои ограничения в отношении выбора стратегии выборки, внутренних геометрических свойств кривой, изменений топологии (разделение и слияние кривой), решения проблем в более высоких измерениях и т. д. В настоящее время были разработаны эффективные "дискретизированные" формулировки. для устранения этих ограничений при сохранении высокой эффективности. В обоих случаях минимизация энергии обычно проводится с использованием метода наискорейшего градиентного спуска, при котором производные вычисляются с использованием, например, конечных разностей.
Метод установки уровня был первоначально предложен для отслеживания движущихся интерфейсов Дервье и Томассет в 1979 и 1981 годах, а позже был заново изобретен Ошером и Сетхианом. в 1988 году. В конце 1990-х это распространилось на различные области визуализации. Его можно использовать для эффективного решения проблемы кривой / поверхности / и т. Д. распространение неявным образом. Основная идея состоит в том, чтобы представить развивающийся контур с помощью функции со знаком, нуль которой соответствует фактическому контуру. Тогда, согласно уравнению движения контура, можно легко вывести аналогичный поток для неявной поверхности, который при применении к нулевому уровню будет отражать распространение контура. Метод установки уровней дает множество преимуществ: он неявный, не содержит параметров, обеспечивает прямой способ оценки геометрических свойств развивающейся структуры, позволяет изменять топологию и является внутренним. Его можно использовать для определения структуры оптимизации, предложенной Чжао, Мерриманом и Ошером в 1996 году. Можно сделать вывод, что это очень удобная структура для решения многочисленных задач компьютерного зрения и анализа медицинских изображений. Исследование различных структур данных с наборами уровней привело к очень эффективным реализациям этого метода.
Метод быстрого перехода использовался при сегментации изображения, и эта модель была улучшена (разрешая скорость распространения как с положительной, так и с отрицательной скоростью) в подход, называемый обобщенным методом быстрого перехода.
Цель вариационных методов - найти сегментацию, оптимальную по отношению к конкретному функционалу энергии. Функционалы состоят из члена аппроксимации данных и регуляризующего члена. Классическим представителем является модель Поттса, определенная для изображения с помощью
Минимизатор - кусочно-постоянное изображение, которое имеет оптимальный компромисс между квадратом расстояния L2 до данного изображения и общая длина прыжка. Набор переходов определяет сегментацию. Относительный вес энергий настраивается параметром . Двоичный вариант модели Поттса, т. е. если диапазон ограничен двумя значениями, часто называется моделью Чана- Весе. Важным обобщением является модель Мамфорда-Шаха, задаваемая
Функциональное значение - это сумма общей длины кривой сегментации , гладкость аппроксимации и расстояние до исходного изображения . Вес штрафа за гладкость корректируется b y . Модель Поттса часто называют кусочно-постоянной моделью Мамфорда-Шаха, поскольку ее можно рассматривать как вырожденный случай . Как известно, задачи оптимизации в целом являются NP-трудными, но стратегии, близкие к минимизации, хорошо работают на практике. Классическими алгоритмами являются градуированная невыпуклость и приближение Амброзио-Торторелли.
Методы разделения графа являются эффективными инструментами для сегментации изображения, поскольку они моделируют влияние пикселей окрестности на заданном кластере пикселей или пикселе в предположении однородности изображений. В этих методах изображение моделируется как взвешенный неориентированный граф. Обычно пиксель или группа пикселей связаны с узлами , и граница, веса определяют (несходство) между соседними пикселями. Затем граф (изображение) разбивается в соответствии с критерием, разработанным для моделирования «хороших» кластеров. Каждый раздел узлов (пикселей), выводимых этими алгоритмами, считается сегментом объекта на изображении. Некоторые популярные алгоритмы этой категории: нормализованные разрезы, случайный обход, минимальный разрез, изопериметрическое разбиение, сегментация на основе минимального связующего дерева и категоризация объектов на основе сегментации.
Применение Марковских случайных полей (MRF) для изображений было предложено в начале 1984 года Джеманом и Джеманом. Их сильная математическая основа и способность обеспечивать глобальный оптимум даже при определении локальных характеристик оказались основой новых исследований в области анализа изображений, уменьшения шума и сегментации. MRF полностью характеризуются своими априорными распределениями вероятностей, распределениями предельных вероятностей, кликами , ограничением сглаживания, а также критерием обновления значений. Критерий сегментации изображения с использованием MRF переформулируется как нахождение схемы маркировки, которая имеет максимальную вероятность для данного набора функций. Широкие категории сегментации изображений с использованием MRF включают контролируемую и неконтролируемую сегментацию.
С точки зрения сегментации изображения функция, которую MRF стремятся максимизировать, - это вероятность идентификации схемы маркировки с учетом определенного набора функций, обнаруженных в образ. Это повторение метода максимальной апостериорной оценки.
Окрестность MRF для выбранного пикселяОбщий алгоритм сегментации изображения с использованием MAP приведен ниже:
Каждый алгоритм оптимизации представляет собой адаптацию моделей из множества областей, и они выделены отдельно их уникальными функциями стоимости. Общая черта функций стоимости - штрафовать изменение значения пикселя, а также разницу в метке пикселя по сравнению с метками соседних пикселей.
Алгоритм итерированных условных режимов (ICM) пытается восстановить идеальную схему разметки, изменяя значения каждого пикселя на каждой итерации и оценка энергии новой схемы маркировки с использованием функции стоимости, приведенной ниже,
где α - штраф за изменение метки пикселя, а β - штраф за различие в метка между соседними пикселями и выбранным пикселем. Здесь - окрестность пикселя i, а δ - дельта-функция Кронекера. Основная проблема с ICM заключается в том, что подобно градиентному спуску, он имеет тенденцию оставаться на локальных максимумах и, таким образом, не может получить глобально оптимальную схему маркировки.
Der Являясь аналогом отжига в металлургии, моделируемый отжиг (SA) использует изменение метки пикселя в ходе итераций и оценивает разницу в энергии каждого вновь сформированного графа с исходными данными. Если вновь сформированный график более прибылен с точки зрения низких затрат на энергию, определяется как:
алгоритм выбирает только что сформированный граф. Имитация отжига требует ввода температурных графиков, которые напрямую влияют на скорость сходимости системы, а также на порог энергии для минимизации.
Существует ряд других методов для решения простых MRF, а также MRF более высокого порядка. Они включают в себя максимизацию заднего края, многомасштабную оценку MAP, сегментацию с несколькими разрешениями и многое другое. Помимо оценок правдоподобия, для решения MRF существуют методы вырезания графа с использованием максимального потока и другие сильно ограниченные методы, основанные на графах.
Алгоритм максимизация ожидания используется для итерационной оценки апостериорных вероятностей и распределений маркировки, когда данные обучения недоступны и не может быть сформирована оценка модели сегментации. Общий подход состоит в том, чтобы использовать гистограммы для представления характеристик изображения и действовать, как вкратце изложено в этом трехэтапном алгоритме:
1. Используется случайная оценка параметров модели.
2. Шаг E: оценка статистики класса на основе определенной модели случайной сегментации. Используя их, вычислите условную вероятность принадлежности к метке, учитывая, что набор характеристик вычисляется с использованием наивной теоремы Байеса.
Здесь , набор всех возможных меток.
3. Шаг M: Установленная релевантность данного набора характеристик схеме маркировки теперь используется для вычисления априорной оценки данной метки во второй части алгоритма. Поскольку фактическое количество общих меток неизвестно (из набора обучающих данных), в вычислениях используется скрытая оценка количества меток, заданных пользователем.
где - это набор всех возможных функций.
Сегментация цветного изображения с использованием модели HMRF-EMПреобразование водораздел рассматривает величину градиента изображения как топографическую поверхность. Пиксели, имеющие наивысшие значения интенсивности градиента (GMI), соответствуют линиям водоразделов, которые представляют границы области. Вода, помещенная на любой пиксель, ограниченный общей линией водораздела, течет вниз до общего локального минимума интенсивности (LIM). Пиксели, стекающие к общему минимуму, образуют бассейн, который представляет собой сегмент..
Центральное допущение подходов на основе моделей состоит в том, что интересующие структуры имеют тенденцию к определенной форме. Следовательно, можно искать вероятностную модель, которая характеризует форму и ее изменение. При сегментировании изображения ограничения могут быть наложены с использованием этой модели в качестве априорной. Такая задача может включать в себя (i) регистрацию обучающих примеров для общей позы, (ii) вероятностное представление вариации зарегистрированных образцов и (iii) статистический вывод между моделью и изображением. Другие важные методы, описанные в литературе для сегментации на основе моделей, включают модели активной формы и модели активного внешнего вида.
Сегментации изображения вычисляются в нескольких масштабах в масштабное пространство и иногда распространяется от грубого до мелкого масштаба; см. сегментация в пространстве масштаба.
Критерии сегментации могут быть произвольно сложными и могут учитывать как глобальные, так и локальные критерии. Общее требование - каждый регион должен быть в некотором смысле связан.
Основополагающая работа Виткина в масштабном пространстве включала идею о том, что одномерный сигнал может быть однозначно сегментирован на области с одним масштабным параметром, контролирующим масштаб сегментации.
Ключевое наблюдение состоит в том, что пересечения нуля вторых производных (минимумов и максимумов первой производной или наклона) многомасштабно сглаженных версий сигнала образуют дерево вложенности, который определяет иерархические отношения между сегментами на разных уровнях. В частности, экстремумы наклона на крупных масштабах можно проследить до соответствующих особенностей на мелких масштабах. Когда максимум наклона и минимум наклона аннигилируют друг друга в большем масштабе, три сегмента, которые они разделены, сливаются в один сегмент, тем самым определяя иерархию сегментов.
В этой области было проведено множество исследований, из которых некоторые сейчас достигли состояния, когда их можно применять либо с помощью интерактивного ручного вмешательства (обычно с приложение для медицинской визуализации) или полностью автоматически. Ниже приводится краткий обзор некоторых основных исследовательских идей, на которых основаны современные подходы.
Структура вложенности, описанная Уиткином, однако, специфична для одномерных сигналов и не переносится тривиально в изображения более высокой размерности. Тем не менее эта общая идея вдохновила нескольких других авторов на исследование схем от грубого к точному для сегментации изображений. Кендеринк предложил изучить, как контуры изоинтенсивности развиваются по шкале, и этот подход был более подробно исследован Лифшицем и Пизером. К сожалению, однако, интенсивность элементов изображения меняется в зависимости от масштаба, что означает, что трудно отследить крупномасштабные элементы изображения до более мелких масштабов, используя информацию об изоинтенсивности.
Линдеберг изучил проблему связывания локальных экстремумов и седловых точек на масштабах и предложил представление изображения, называемое первичным эскизом в масштабном пространстве, которое делает явными отношения между структурами в разных масштабах, а также указывает, какие особенности изображения стабильны в больших диапазонах масштабов, включая соответствующие для них масштабы. Бергхольм предложил обнаруживать края в грубых масштабах в пространстве шкалы, а затем прослеживать их до более мелких масштабов с ручным выбором шкалы грубого обнаружения и шкалы точной локализации.
Гауч и Пайзер изучили дополнительную проблему гребней и долин в различных масштабах и разработали инструмент для интерактивной сегментации изображений на основе многомасштабных водоразделов. Использование многомасштабного водораздела с применением к карте градиентов также исследовалось Олсеном и Нильсеном и было перенесено в клиническое использование компанией Dam. Vincken et al. предложил гиперстек для определения вероятностных отношений между структурами изображений в различных масштабах. Использование стабильных структур изображений в масштабе было продвинуто Ахуджей и его сотрудниками в полностью автоматизированную систему. Полностью автоматический алгоритм сегментации мозга, основанный на тесно связанных идеях многомасштабных водоразделов, был представлен Ундеманом и Линдебергом и тщательно протестирован в базах данных мозга.
Эти идеи многомасштабной сегментации изображения путем связывания структур изображения по масштабам также были подхвачены Флорак и Куиджпер. Биджауи и Руэ связывают структуры, обнаруженные в масштабном пространстве выше минимального порога шума, с деревом объектов, которое охватывает несколько масштабов и соответствует типу особенности в исходном сигнале. Извлеченные объекты точно реконструируются с использованием итеративного метода матрицы сопряженных градиентов.
В одном из видов сегментации пользователь выделяет интересующую область с помощью щелчков мышью, и применяются алгоритмы так, чтобы путь, который лучше всего подходил к краю изображения, был показано.
Такие методы, как SIOX, Livewire, Intelligent Scissors или IT-SNAPS, используются в этом виде сегментации. В альтернативном виде полуавтоматической сегментации алгоритмы возвращают пространственный таксон (т. Е. Передний план, группу объектов, объект или часть объекта), выбранный пользователем или указанный с помощью априорных вероятностей.
Большинство вышеупомянутых методов сегментации основаны только на информации о цвете пикселей изображения. Люди используют гораздо больше знаний при выполнении сегментации изображений, но реализация этих знаний потребует значительных затрат человеческих инженерных и вычислительных затрат и потребует огромной базы данных предметных знаний, которая в настоящее время не существует. Обучаемые методы сегментации, такие как сегментация нейронной сети , преодолевают эти проблемы, моделируя знания предметной области из набора данных помеченных пикселей.
Нейронная сеть сегментации изображения может обрабатывать небольшие области изображения для извлечения простых функций, таких как края. Затем другая нейронная сеть или любой механизм принятия решений могут объединить эти функции, чтобы соответствующим образом пометить области изображения. Типом сети, разработанной таким образом, является карта Кохонена.
Импульсно-связанные нейронные сети (PCNN) - нейронные модели, предложенные путем моделирования зрительной коры головного мозга кошки и разработанные для высокопроизводительной биомиметики обработка изображений. В 1989 году Райнхард Экхорн представил нейронную модель, имитирующую механизм зрительной коры головного мозга кошки. Модель Экхорна предоставила простой и эффективный инструмент для изучения зрительной коры мелких млекопитающих и вскоре была признана имеющей значительный потенциал для применения в обработке изображений. В 1994 году модель Экхорна была адаптирована в качестве алгоритма обработки изображений Джоном Л. Джонсоном, который назвал этот алгоритм импульсной нейронной сетью. За последнее десятилетие PCNN использовались для множества приложений обработки изображений, в том числе для сегментации изображения, генерации функций, выделения лиц, обнаружения движения, увеличения области, уменьшения шума и т. Д. PCNN - это двухмерная нейронная сеть. Каждый нейрон в сети соответствует одному пикселю во входном изображении, получая информацию о цвете соответствующего пикселя (например, интенсивность) в качестве внешнего стимула. Каждый нейрон также соединяется со своими соседними нейронами, получая от них локальные стимулы. Внешние и местные стимулы объединяются во внутреннюю систему активации, которая накапливает стимулы до тех пор, пока не превысит динамический порог, что приводит к импульсному выходу. Путем итеративного вычисления нейроны PCNN производят временные серии выходных импульсов. Временной ряд выходных импульсов содержит информацию о входных изображениях и может использоваться для различных приложений обработки изображений, таких как сегментация изображения и генерация признаков. По сравнению с обычными средствами обработки изображений, PCNN имеют несколько существенных достоинств, включая устойчивость к шуму, независимость от геометрических вариаций во входных рисунках, возможность устранения незначительных изменений интенсивности во входных рисунках и т. Д.
U-Net - это сверточная нейронная сеть, которая принимает на вход изображение и выводит метку для каждого пикселя. Первоначально U-Net был разработан для обнаружения границ клеток на биомедицинских изображениях. U-Net следует классической архитектуре автоэнкодера , поэтому он содержит две подструктуры. Структура кодировщика следует традиционному стеку сверточных слоев и слоев максимального пула, чтобы уменьшить принимающее поле по мере прохождения через слои. Он используется для фиксации контекста изображения. Структура декодера использует транспонированные сверточные слои для повышения дискретизации, так что конечные размеры близки к размерам входного изображения. Пропускные соединения размещаются между сверточными и транспонированными сверточными слоями одинаковой формы, чтобы сохранить детали, которые в противном случае были бы потеряны.
В дополнение к задачам семантической сегментации на уровне пикселей, которые присваивают заданную категорию каждому пикселю, современные приложения сегментации включают задачи семантической сегментации на уровне экземпляра, в которых каждый человек в данной категории должен быть однозначно идентифицирован, а также задачи паноптической сегментации, которые объединяют эти две задачи для обеспечения более полной сегментации сцены.
Связанные изображения, такие как фотоальбом или последовательность видеокадров, часто содержат семантически похожие объекты и сцены, поэтому часто бывает полезно использовать такие корреляции. Задача одновременного сегментирования сцен из связанных изображений или видеокадров называется совместной сегментацией, которая обычно используется в локализации действий человека. В отличие от обычного ограничивающего прямоугольника обнаружения объекта , методы локализации действий человека обеспечивают более мелкие результаты, обычно сегментирующие маски по изображению, очерчивающие интересующий человеческий объект и его категорию действия (например, Сегмент-трубка). Такие методы, как динамические сети Маркова, CNN и LSTM, часто используются для использования межкадровых корреляций.
Существует множество других методов сегментации, таких как мультиспектральная сегментация или сегментация на основе возможности соединения на основе изображений DTI.
Доступны несколько тестов сегментации для сравнения производительности методов сегментации с современными методами сегментации на стандартизированных наборах: