Ambisonics - это полносферный формат объемного звука : в дополнение к в горизонтальной плоскости он охватывает источники звука выше и ниже слушателя.
В отличие от других форматов многоканального объемного звучания, его каналы передачи не передают сигналы динамиков. Вместо этого они содержат независимое от динамика представление звукового поля, называемое B-форматом, которое затем декодируется в настройках динамика слушателя. Этот дополнительный шаг позволяет производителю думать о направлениях источников, а не о позициях громкоговорителей, и предлагает слушателю значительную степень гибкости в отношении компоновки и количества громкоговорителей, используемых для воспроизведения.
Ambisonics была разработана в Великобритании в 1970-х годах под эгидой Британской Национальной корпорации развития исследований.
Несмотря на прочную техническую основу и множество преимуществ, Ambisonics до недавнего времени не имела коммерческого успеха. и выжил только в нишевых приложениях и среди энтузиастов звукозаписи.
Благодаря легкой доступности мощной цифровой обработки сигналов (в отличие от дорогих и подверженных ошибкам аналоговых схем, которые приходилось использовать в первые годы) и успешному внедрению на рынок систем объемного звука для домашних кинотеатров с момента В 1990-е годы интерес к Ambisonics среди звукорежиссеров, звукорежиссеров, композиторов, медиа-компаний, вещателей и исследователей вернулся и продолжает расти.
Ambison ics можно понимать как трехмерное расширение M / S (mid / side) стерео, добавляющее дополнительные каналы разницы для высоты и глубины. Результирующий набор сигналов называется B-форматом. Его составляющие каналы обозначены для звукового давления (M в M / S), для градиент звукового давления спереди-минус-сзади, для слева-минус-справа (S в M / S) и для движения вверх-минус-вниз.
Сигнал соответствует всенаправленному микрофону, тогда как - это компоненты, которые могут быть захвачены капсулами в форме восьмерки, ориентированными вдоль трех пространственных осей.
Простое устройство панорамирования Ambisonic (или кодировщик) принимает сигнал источника и два параметра, горизонтальный угол и угол возвышения . Он позиционирует источник под нужным углом, распределяя сигнал по компонентам Ambisonic с разным усилением:
Всенаправленный, канал всегда получает один и тот же постоянный входной сигнал, независимо от углов. Таким образом, его средняя энергия примерно такая же, как и у других каналов, W ослабляется примерно на 3 дБ (точнее, делится на квадратный корень из двух). Термины для фактически создают диаграмму направленности микрофонов в форме восьмерки (см. Иллюстрацию справа, второй ряд). Мы берем их значение в и и умножаем результат на входной сигнал. В результате входной сигнал во всех компонентах становится ровно настолько громким, насколько его мог бы уловить соответствующий микрофон.
Компоненты B-формата могут быть объединены для получения виртуальных микрофонов с любой диаграммой направленности первого порядка (всенаправленный, кардиоидный, гиперкардиоидная, восьмерка или что-то среднее), указывающая в любом направлении. Одновременно можно создать несколько таких микрофонов с разными параметрами для создания совпадающих стереопар (например, Blumlein ) или массивов объемного звучания.
Pattern | |
---|---|
восьмерка | |
Гипер- и суперкардиоиды | |
Кардиоид | |
Широкие кардиоиды | |
Всенаправленный |
горизонтальный виртуальный микрофон под горизонтальным углом с шаблоном определяется выражением
Этот виртуальный микрофон нормализован по свободному полю, что означает, что он имеет постоянное усиление, равное единице для включения звуки оси. На иллюстрации слева показаны некоторые примеры, созданные с помощью этой формулы.
Виртуальными микрофонами можно управлять на этапе пост-продакшн: можно выделить желаемые звуки, подавить нежелательные, а также настроить баланс между прямым и реверберирующим звуком во время микширования.
Базовый декодер Ambisonic очень похож на набор виртуальных микрофонов. Для идеально регулярных схем можно сгенерировать упрощенный декодер, направив виртуальный кардиоидный микрофон в направлении каждого динамика. Вот квадрат:
Знаки и Компоненты - важная часть, остальное - факторы усиления. Компонент отбрасывается, поскольку невозможно воспроизвести реплики высоты с помощью всего четырех громкоговорителей в одной плоскости.
На практике настоящий Ambisonic декодер требует ряда психоакустических оптимизаций для правильной работы.
Пространственное разрешение амбисоники первого порядка, как описано выше, довольно низкое. На практике это приводит к слегка размытым источникам, но также и к сравнительно небольшой полезной зоне прослушивания или зоне наилучшего восприятия. Разрешение может быть увеличено, а зона наилучшего восприятия может быть увеличена путем добавления групп более избирательных направленных компонентов в B-формат. Они больше не соответствуют диаграммам направленности обычных микрофонов, а выглядят как листья клевера. Результирующий набор сигналов затем называется вторым, третьим или в совокупности амбисоникой более высокого порядка.
Для заданного порядка для полносферных систем требуется компоненты сигнала и компоненты необходимы для воспроизведения только по горизонтали.
Существует несколько различных соглашений о формате для Ambisonics более высокого порядка; подробнее см. Форматы обмена данными Ambisonic.
Ambisonics отличается от других форматов объемного звука по ряду аспектов:
С другой стороны, Ambisonics:
Сигналы B-формата представляют собой усеченное сферическое гармоническое разложение звукового поля. Они соответствуют звуковому давлению и трем компонентам градиента давления (не путать со связанной скоростью частицы ) в точке в пространстве. Вместе они приблизительно соответствуют звуковому полю на сфере вокруг микрофона; формально это усечение первого порядка мультипольного разложения . (моносигнал) - информация нулевого порядка, соответствующая постоянной функции на сфере, а - члены первого порядка (диполи или восьмерки). Это усечение первого порядка является лишь приближением общего звукового поля.
Более высокие порядки соответствуют дополнительным членам мультипольного разложения функции на сфере по сферическим гармоникам. На практике для воспроизведения более высоких порядков требуется больше динамиков, но увеличивается пространственное разрешение и увеличивается область, в которой звуковое поле воспроизводится идеально (до верхней граничной частоты).
Радиус этой области для амбисонического порядка и частоты определяется как
где обозначает скорость звука.
Эта область становится меньше человеческой головы выше 600 Гц для первого порядка или 1800 Гц для третьего порядка. Для точного воспроизведения в объеме размером с голову до 20 кГц потребуется порядка 32 или более 1000 динамиков.
На тех частотах и позициях прослушивания, где идеальное звуковое поле реконструкция больше невозможно, воспроизведение Ambisonics должно быть сосредоточено на доставке правильных ориентиров, чтобы обеспечить хорошую локализацию даже при наличии ошибок реконструкции.
Человеческий слуховой аппарат имеет очень четкую локализацию в горизонтальной плоскости (в некоторых экспериментах расстояние между источниками достигает 2 °). Можно выделить два преобладающих сигнала для разных частотных диапазонов:
На низких частотах, где длина волны больше по сравнению с человеческой головой, слышен входящий звук дифрагирует вокруг него, так что практически нет акустической тени и, следовательно, нет разницы в уровнях между ушами. В этом диапазоне единственной доступной информацией является фазовое соотношение между двумя ушными сигналами, называемое межуральной разностью времени или ITD. Оценка этой разницы во времени позволяет точно определить местонахождение в пределах конуса замешательства: угол падения однозначен, но ITD одинаков для звуков спереди и сзади. Пока звук не полностью неизвестен субъекту, путаницу обычно можно устранить, заметив тембральные вариации спереди и сзади, вызванные ушными ушками (или ушными раковинами).
По мере того, как длина волны приближается к двойному размеру головы, фазовые отношения становятся неоднозначными, поскольку больше неясно, соответствует ли разность фаз между ушами одному, двум, или даже больше периодов по мере увеличения частоты. К счастью, в этом диапазоне голова будет создавать значительную акустическую тень, которая вызывает небольшую разницу в уровне между ушами. Это называется межуральной разницей уровней, или ILD (применяется тот же конус путаницы). В совокупности эти два механизма обеспечивают локализацию во всем диапазоне слышимости.
Герзон показал, что качество сигналов локализации в воспроизводимом звуковом поле соответствует двум объективным параметрам: длине вектора скорости частицы для ITD, и длина вектора энергии для международной связи. Герзон и Бартон (1992) определяют декодер для горизонтального объемного звука как Ambisonic, если
На практике удовлетворительные результаты достигаются при умеренных порядках даже для очень больших зон прослушивания.
В принципе, громкоговоритель сигналы получены с использованием линейной комбинации компонентных сигналов Ambisonic, где каждый сигнал зависит от фактического положения динамика по отношению к центру воображаемой сферы на поверхности ce из которых проходит через все доступные динамики. На практике слегка неравномерные расстояния между динамиками можно компенсировать с помощью задержки.
декодирование True Ambisonics, однако требует пространственного выравнивания сигналов для учета различий в локализации звука на высоких и низких частотах механизмы в человеческом слухе. Дальнейшее уточнение учитывает расстояние слушателя от громкоговорителей (компенсация ближнего поля).
Декодеры Ambisonics в настоящее время не продаются конечным пользователям в каких-либо значительных Кстати, и никаких записей Ambisonic в продаже нет. Следовательно, контент, созданный в Ambisonics, должен быть доступен потребителям в стерео или дискретных многоканальных форматах.
Контент Ambisonics можно автоматически преобразовать в стерео без специального понижающего микширования. Самый простой подход - сэмплировать B-формат с помощью виртуального стереомикрофона. Результат эквивалентен совпадающей стереозаписи. Изображение будет зависеть от геометрии микрофона, но обычно тыловые источники будут воспроизводиться более мягко и рассеянно. Вертикальная информация (из канала ) опускается.
В качестве альтернативы, B-формат может быть матрично закодирован в формат UHJ, который подходит для прямого воспроизведения на стереосистемах. Как и раньше, вертикальная информация будет отброшена, но в дополнение к воспроизведению влево-вправо, UHJ пытается сохранить часть горизонтальной информации объемного звучания, переводя источники сзади в сигналы, не совпадающие по фазе. Это дает слушателю некоторое ощущение задней локализации.
Двухканальный UHJ также может быть декодирован обратно в горизонтальный Ambisonic (с некоторой потерей точности), если доступна система воспроизведения Ambisonic. UHJ без потерь до четырех каналов (включая информацию о высоте) существует, но никогда не получил широкого распространения. Во всех схемах UHJ первые два канала - это обычные левые и правые динамики.
Точно так же можно предварительно декодировать материал Ambisonics в произвольные схемы расположения динамиков, например Quad, 5.1, 7,1, Auro 11,1 или даже 22,2, опять же без ручного вмешательства. Канал LFE либо пропускается, либо вручную создается специальный микс. Предварительное декодирование в формат 5.1 было известно как G-формат на заре создания DVD-аудио, хотя этот термин больше не используется.
Очевидным преимуществом предварительного декодирования является то, что любой слушатель объемного звука может испытать Ambisonics; не требуется никакого специального оборудования, кроме того, которое есть в обычной системе домашнего кинотеатра. Главный недостаток заключается в том, что гибкость рендеринга одного стандартного сигнала Ambisonics для любого целевого массива громкоговорителей теряется: сигнал предполагает определенную «стандартную» компоновку, и любой, кто слушает с другим массивом, может испытывать снижение точности локализации.
Макеты целей начиная с версии 5.1 обычно превосходят пространственное разрешение амбисоники первого порядка, по крайней мере, во фронтальном квадранте. Для достижения оптимального разрешения, чтобы избежать чрезмерных перекрестных помех и избежать неровностей макета цели, предварительное декодирование для таких целей должно производиться из исходного материала в Ambisonics более высокого порядка.
Амбисонический контент может быть создан двумя основными способами: записывая звук с помощью подходящего микрофона первого или более высокого порядка, или путем выделения отдельных монофонических источников и их панорамирования в желаемое положение. Контентом также можно управлять, пока он находится в B-формате.
Поскольку компоненты амбисонических микрофонов первого порядка соответствуют физическим микрофонным датчикам паттернов, вполне практично записывать B-формат напрямую с тремя совпадающими микрофонами: всенаправленная капсула, одна обращенная вперед капсула в виде восьмерки и одна левая капсула в форме восьмерки, что дает , и . Этот микрофонный массив называется родным или Nimbus / Halliday, в честь его дизайнера доктора Джонатана Холлидея из Nimbus Records, где он используется для записи их обширной и продолжающейся серии релизов Ambisonic. Встроенный микрофон формата B, C700S производится и продается с 1990 года.
Основная трудность, присущая этому подходу, заключается в том, что высокочастотная локализация и четкость зависят от диафрагм, приближающихся к истинному совпадению. При вертикальном расположении капсул достигается идеальное совпадение для горизонтальных источников. Однако звук сверху или снизу теоретически будет страдать от тонких эффектов гребенчатой фильтрации на самых высоких частотах. В большинстве случаев это не ограничение, так как источники звука, далекие от горизонтальной плоскости, обычно являются реверберацией помещения. Кроме того, уложенные друг на друга элементы микрофона в форме восьмерки имеют глубокий ноль в направлении их оси наложения, так что первичным преобразователем в этих направлениях является центральный всенаправленный микрофон. На практике это может привести к меньшей ошибке локализации, чем любой из альтернатив (тетраэдрические массивы с обработкой или четвертый микрофон для оси Z).
Собственные массивы чаще всего используются для горизонтального объемного звучания из-за увеличения позиционные ошибки и эффекты затенения при добавлении четвертого микрофона.
Поскольку невозможно построить полностью совпадающую микрофонную решетку, следующий лучший подход - минимизировать и распределить позиционную ошибку как можно более равномерно. Это может быть достигнуто путем размещения четырех кардиоидных или субкардиоидных капсул в тетраэдре и выравнивания для равномерного отклика диффузного поля. Затем капсульные сигналы преобразуются в B-формат с помощью матричной операции.
За пределами Ambisonics, тетраэдрические микрофоны стали популярными среди инженеров звукозаписи, работающих в режиме стерео или 5.1, за их гибкость при пост-продакшене; здесь B-формат используется только в качестве промежуточного звена для получения виртуальных микрофонов.
Выше первого порядка, больше невозможно получить компоненты Ambisonic напрямую с одним микрофоном. капсулы. Вместо этого разностные сигналы более высокого порядка получают из нескольких пространственно распределенных (обычно всенаправленных) капсул с использованием очень сложной цифровой обработки сигналов.
em32 Eigenmike - это коммерчески доступная 32-канальная амбизонная микрофонная решетка.
Из-за необходимости агрессивной эквализации тембральные и шумовые характеристики массивов более высокого порядка в настоящее время несопоставимы с традиционными высококачественными записывающими микрофонами, и результирующий B-формат все больше ограничивается полосой в сторону более высоких порядков, поднимая вопросы совместимости вверх и вниз.
Недавняя статья Питера Крейвена и др. (впоследствии запатентованный) описывает использование двунаправленных капсюлей для микрофонов более высокого порядка, чтобы уменьшить крайность задействованной эквализации. Микрофоны на этой идее пока не созданы.
Самый простой способ создать Ambisonic миксы произвольно высокого порядка - взять монофонические источники и расположить их с помощью кодировщика Ambisonic.
Полносферный кодировщик обычно имеет два параметра: азимут (или горизонт) и угол места. Кодер будет распределять исходный сигнал по компонентам Ambisonic, так что при декодировании источник появится в желаемом месте. Более сложные панорамы дополнительно предоставляют параметр радиуса, который позаботится о зависящем от расстояния затухании и усилении низких частот из-за эффекта ближнего поля.
Аппаратные блоки панорамирования и микшеры для Ambisonics первого порядка доступны с 1980-х годов и используются в коммерческих целях. Сегодня плагины панорамирования и другие сопутствующие программные инструменты доступны для всех основных рабочих станций с цифровым аудио, часто в виде бесплатного программного обеспечения. Однако из-за произвольных ограничений ширины шины немногие профессиональные цифровые рабочие станции (DAW) поддерживают порядок больше секунды. Заметными исключениями являются REAPER, ProTools, Nuendo и Ardor.
B-формат первого порядка, с которым можно работать. различными способами изменить содержание слуховой сцены. Хорошо известные манипуляции включают «вращение» и «доминирование» (перемещение источников в определенном направлении или от него).
Кроме того, линейная не зависящая от времени обработка сигнала, такая как выравнивание может применяться к B-формату без нарушения направления звука, если он применяется ко всем компонентным каналам одинаково.
Более поздние разработки в области Ambisonics более высокого порядка позволяют выполнять широкий спектр манипуляций, включая вращение, отражение, движение, 3D реверберацию, повышающее микширование из устаревших форматов, таких как 5.1 или первого порядка, визуализацию и направленное воспроизведение. зависимая маскировка и эквализация.
Для передачи Ambisonic B-формата между устройствами и конечным пользователям требуется стандартизованный формат обмена. В то время как традиционный B-формат первого порядка хорошо определен и понятен всем, существуют противоречивые соглашения для Ambisonics более высокого порядка, различающиеся как порядком каналов, так и весами, которые, возможно, потребуется поддерживать в течение некоторого времени. Традиционно наиболее распространенным является формат Furse-Malham высшего порядка в контейнере .amb
на основе файлового формата WAVE-EX от Microsoft. Он масштабируется до третьего порядка и имеет ограничение на размер файла 4 ГБ.
В новых реализациях и продуктах может возникнуть необходимость рассмотреть предложение AmbiX, которое принимает формат файла .caf
и отменяет ограничение в 4 ГБ. Он масштабируется до произвольно высоких порядков и основан на кодировании SN3D. Кодирование SN3D было принято Google в качестве основы для своего формата YouTube 360.
С 2018 года существует бесплатная реализация с открытым исходным кодом в звуковой кодек Opus.
С момента принятия Google и другими производителями в качестве предпочтительного аудиоформата для виртуальной реальности к Ambisonics наблюдался всплеск интереса.
В 2018 году Sennheiser выпустила свой микрофон VR, а Zoom выпустила полевой рекордер Ambisonics. Оба являются реализациями конструкции тетраэдрического микрофона, который производит Ambisonics первого порядка.
Ряд компаний в настоящее время проводят исследования в области Ambisonics:
Лаборатории Dolby проявили «интерес» к Ambisonics от приобретение (и ликвидация) базирующегося в Барселоне специалиста по Ambisonics imm sound перед запуском Dolby Atmos, который, хотя его точная работа не разглашается, действительно реализует разделение между направлением источника и фактическим положением громкоговорителей. Atmos использует принципиально иной подход в том, что он не пытается передавать звуковое поле; он передает дискретные премиксы или основы (то есть необработанные потоки звуковых данных) вместе с метаданными о том, из какого места и направления они должны появляться. Затем стебли декодируются, микшируются и визуализируются в реальном времени с использованием любых громкоговорителей, доступных в месте воспроизведения.
Ambisonics высшего уровня нашла свою нишу на рынке видеоигр, разработанных Codemasters. Их первой игрой, в которой использовался звуковой движок Ambisonic, была Colin McRae: DiRT, однако она использовала Ambisonics только на платформе PlayStation 3. Их игра Race Driver: GRID расширила использование Ambisonics на платформу Xbox 360, а Colin McRae: DiRT 2 использует Ambisonics на всех платформах, включая ПК.
Последние игры от Codemasters, F1 2010, Dirt 3, F1 2011 и Dirt: Showdown, используйте Ambisonic четвертого порядка на более быстрых ПК, обработанный драйвером OpenAL, и предварительно микшированный звук Ambisonic, созданный с использованием подключаемых модулей WigWare Ambisonic Брюса Виггинса.
«Пул» патентов, включающих технологию Ambisonics, был первоначально собран Национальной корпорацией исследований и разработок правительства Великобритании (NRDC), которая просуществовала до конца 1970-х годов для разработки и продвижения британских изобретений и лицензирования их для коммерческих производителей. в идеале одному лицензиату. В конечном итоге лицензия на систему была предоставлена Nimbus Records (теперь принадлежит Wyastone Estate Ltd).
Логотип Ambisonic в виде «переплетающихся кругов» (торговые марки Великобритании UK00001113276 и UK00001113277 ), а также текстовые марки «AMBISONIC» и «AMBISON» (торговые марки Великобритании UK00001500177 и UK00001112259 ), ранее принадлежавшие Wyastone Estate Ltd., срок действия истек в 2010 году.