VC-6

редактировать

SMPTE ST 2117-1, неофициально известный как VC-6, является формат кодирования видео. Это усовершенствованный ИИ кодек внутрикадрового сжатия, предназначенный для высококачественного сжатия неподвижных и движущихся изображений. Кодек реализует сжатие без потерь и с потерями в зависимости от выбранных параметров кодирования. Он был стандартизирован в 2020 году. Предыдущие варианты кодека были развернуты V-Nova с 2015 года под торговым названием Perseus. Кодек основан на иерархических структурах данных, называемых s-деревьями, и не использует сжатие DCT или вейвлет-преобразование. Механизм сжатия не зависит от сжимаемых данных и может применяться к пикселям, а также к другим данным, не относящимся к изображению.

Содержание

  • 1 Обзор
  • 2 История
  • 3 Основные концепции
    • 3.1 Плоскости
      • 3.1.1 S-tree
      • 3.1.2 Таблица
      • 3.1.3 Эшелон
  • 4 Обзор битового потока
  • 5 Обзор декодирования
  • 6 Параметры повышающего дискретизатора
    • 6.1 Основные параметры
    • 6.2 Уплотнитель сверточной нейронной сети
  • 7 Справочные материалы

Обзор

VC-6 кодек оптимизирован для приложений промежуточного, промежуточного или вспомогательного кодирования. Как правило, эти приложения включают сжатие готовых композиций для редактирования, добавления, первичного распространения, архивирования и других приложений, где необходимо сохранить качество изображения как можно ближе к исходному, уменьшив битрейт и оптимизируя обработку, требования к питанию и хранению. VC-6, как и другие кодеки в этой категории, использует только внутрикадровое сжатие, когда каждый кадр сохраняется независимо и может быть декодирован без зависимости от любого другого кадра.

В отличие от кодеков на основе DCT, VC-6 основан на иерархических, повторяемых структурах s-tree, которые аналогичны модифицированным квадродеревьям. Эти простые структуры обеспечивают внутренние возможности, такие как массивный параллелизм и возможность выбора типа фильтрации, используемой для восстановления изображений с более высоким разрешением из изображений с более низким разрешением. В стандарте VC-6 предусмотрен повышающий дискретизатор, разработанный с помощью внутрицикловой сверточной нейронной сети для оптимизации деталей восстановленного изображения, не требуя больших вычислительных затрат.

Возможность пространственной навигации в битовом потоке VC-6 на нескольких уровнях также дает возможность устройствам декодирования применять больше ресурсов к различным областям изображения, что позволяет интересующая область приложения для работы со сжатыми битовыми потоками, не требуя декодирования изображения с полным разрешением.

История

На выставке NAB Show в 2015 году V-Nova заявила: «Среднее увеличение сжатия в 2–3 раза на всех уровнях качества при практические сценарии работы в реальном времени по сравнению с H.264, HEVC и JPEG2000. ». Это объявление 1 апреля перед крупной торговой выставкой привлекло внимание многих экспертов по сжатию.

С тех пор V-Nova развернули и лицензировали технологию, известную в то время как Perseus., как для распространения, так и для распространения по всему миру, включая Sky Italia, Fast Filmz, Harmonic Inc и другие. Вариант технологии, оптимизированный для улучшения кодека распределения, скоро будет стандартизирован как MPEG-5 Part-2 LCEVC.

Основные концепции

Плоскости

Стандарт описывает алгоритм сжатия, который применяется к независимым плоскостям данных. Этими плоскостями могут быть пиксели RGB или RGBA, происходящие из камеры, пиксели YCbCr из обычного ТВ-ориентированного видеоисточника или некоторые другие плоскости данных. Может быть до 255 независимых плоскостей данных, и каждая плоскость может иметь сетку значений данных размером до 65535 x 65535. Стандарт SMPTE ST 2117-1 фокусируется на сжатии плоскостей значений данных, обычно пиксели.

Для сжатия и распаковки данных в каждой плоскости VC-6 использует иерархические представления небольших древовидных структур, которые несут метаданные, используемые для прогнозирования других деревьев. В каждой плоскости повторяются 3 фундаментальные структуры.

S-tree

Основная структура сжатия в VC-6 - это s-tree. Это похоже на структуру quadtree, распространенную в других схемах. S-дерево состоит из узлов, упорядоченных в древовидной структуре, где каждый узел связан с 4 узлами следующего уровня. Общее количество уровней над корневым узлом известно как подъем s-дерева . Сжатие достигается в s-дереве с использованием метаданных, чтобы сигнализировать, можно ли предсказать уровни с помощью выборочной передачи данных расширения в потоке битов. Чем больше данных можно предсказать, тем меньше информации отправляется и тем лучше степень сжатия.

Таблица

Стандарт определяет таблицу как корневой узел или самый высокий уровень s-tree, содержащий узлы для другого s-дерева. Как и общие s-деревья, из которых они построены, таблицы упорядочены по уровням с метаданными в узлах, указывающих, предсказываются ли более высокие уровни или передаются в потоке битов.

Эшелон

Иерархические структуры s-tree и tableau в стандарте используются для переноса улучшений (называемых остаточными значениями) и других метаданных. для уменьшения количества необработанных данных, которые необходимо переносить в полезной нагрузке битового потока. Последний иерархический инструмент - это возможность упорядочивать таблицы так, чтобы данные из каждой плоскости (то есть пикселей) можно было деквантовать с разным разрешением и использовать в качестве предикторов для более высоких разрешений. Каждое из этих разрешений определяется стандартом как эшелон. Каждый эшелон в плоскости идентифицируется индексом, где более отрицательный индекс указывает на низкое разрешение, а больший положительный индекс указывает на более высокое разрешение.

Стандарт VC-6 определяет список повышающих дискретизаторов для увеличения результатов деквантования для вышеприведенного эшелона. Повышающий дискретизатор, который будет использоваться для точной реконструкции, указывается в заголовке битового потока, но декодер может выбрать повышающий дискретизатор, который может больше соответствовать его потребностям. Например, телефон с низким энергопотреблением может предпочесть более низкое энергопотребление идеальной реконструкции, выбрав более простой передискретизатор.

Обзор битового потока

VC-6 представляет собой пример внутрикадрового кодирования, где каждое изображение кодируется без ссылки на другие изображения. Это также внутренняя плоскость, где никакая информация из одной плоскости не используется для предсказания другой плоскости. В результате битовый поток VC-6 содержит всю информацию для всех плоскостей одного изображения. Последовательность изображений создается путем объединения потоков битов для нескольких изображений или их упаковки в контейнер, такой как MXF или Quicktime или Matroska.

поток битов VC-6 определено в стандарте. псевдокодом, и на основе этого определения был продемонстрирован эталонный декодер. Первичный заголовок - единственная фиксированная структура, определенная стандартом. Вторичный заголовок содержит информацию о маркерах и размерах в зависимости от значений в основном заголовке. Третичный заголовок полностью вычисляется, а затем структура полезной нагрузки выводится из параметров, вычисленных во время декодирования заголовка

Обзор декодирования

Стандарт определяет процесс, называемый реконструкция плоскости для декодирование изображений из битового потока. Процесс начинается с эшелона, имеющего самый низкий индекс. Для этого эшелона прогнозы не используются. Во-первых, правила битового потока используются для восстановления остатков. Затем выполняются процессы десарсификации и энтропийного декодирования, чтобы заполнить сетку значениями данных по каждой координате. Затем эти значения деквантизируются для создания значений полного диапазона, которые можно использовать в качестве прогнозов для эшелона со следующим наивысшим индексом.

Каждый эшелон использует повышающий дискретизатор, указанный в заголовке, для создания прогнозируемой плоскости из нижнего эшелона, которая добавляется к остаточной сетке от текущего эшелона, которая может быть повышена в качестве прогноза для следующего эшелона.

Последний эшелон с полным разрешением, определенный стандартом, имеет индекс 0, и его результаты отображаются, а не используются для другого эшелона.

Параметры повышающего дискретизации

Основные параметры

Стандарт определяет ряд основных повышающих дискретизаторов для создания прогнозов с более высоким разрешением из эшелонов с более низким разрешением. Есть два линейных повышающих дискретизатора, бикубический и резкий, и повышающий дискретизатор ближайшего соседа.

Сверточный нейросетевой апсэмплер

Шесть различных нелинейных апсэмплеров определяются набором процессов и коэффициентов, которые предоставляются в формате JSON. Эти коэффициенты были получены с использованием методов сверточной нейронной сети.

Ссылки

Последняя правка сделана 2021-06-18 07:34:05
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте