MPEG-4, часть 3

редактировать

MPEG-4 Part 3 или MPEG-4 Audio (формально ISO / IEC 14496-3) является третьей частью международного стандарта ISO / IEC MPEG-4, разработанного Moving Picture Experts Group. Он определяет методы кодирования звука. Первая версия ISO / IEC 14496-3 была опубликована в 1999 году.

MPEG-4 Part 3 состоит из множества технологий кодирования звука - от кодирования речи с потерями ( HVXC, CELP ), общего кодирования звука ( AAC, TwinVQ, BSAC) до сжатия звука без потерь ( MPEG-4 SLS, Audio Lossless Coding, MPEG). -4 DST ), преобразование текста в речь (TTSI), структурированное аудио (с использованием SAOL, SASL, MIDI ) и многие дополнительные методы синтеза и кодирования звука.

MPEG-4 Audio не нацелен на одно приложение, такое как телефония в реальном времени или высококачественное сжатие звука. Это применимо к каждому приложению, которое требует использования усовершенствованного сжатия, синтеза, обработки или воспроизведения звука. MPEG-4 Audio - это новый тип звукового стандарта, который объединяет множество различных типов кодирования звука: естественный звук и синтетический звук, доставка с низким битрейтом и высокое качество, речь и музыка, сложные и простые саундтреки, традиционный контент и интерактивный контент..

СОДЕРЖАНИЕ
  • 1 Версии
  • 2 части
  • 3 типа аудиообъектов MPEG-4
  • 4 аудио профиля
  • 5 Хранение и транспортировка аудио
  • 6 Бифуркация в техническом стандарте AAC
  • 7 HE-AAC
  • 8 AAC-SSR
    • 8.1 Почему был введен AAC-SSR
  • 9 BSAC
  • 10 Лицензирование
  • 11 См. Также
  • 12 Ссылки
  • 13 Внешние ссылки
Версии
Версии и редакции MPEG-4 Audio
Версия Дата выхода Последняя поправка Стандарт Описание
Первое издание 1999 г. 2001 г. ИСО / МЭК 14496-3: 1999 также известен как "MPEG-4 Audio Version 1"
2000 г. ISO / IEC 14496-3: 1999 / Amd 1: 2000 также известный как «MPEG-4 Audio Version 2», поправка к первому изданию
Второе издание 2001 г. 2005 г. ИСО / МЭК 14496-3: 2001
Третье издание 2005 г. 2008 г. ИСО / МЭК 14496-3: 2005
Четвертое издание 2009 г. 2015 г. и в стадии разработки ИСО / МЭК 14496-3: 2009
Пятое издание 2019 г. ИСО / МЭК 14496-3: 2019 Текущая версия
Подчасти

MPEG-4 Part 3 содержит следующие части:

  • Подчасть 1: Основная (список типов аудиообъектов, профилей, уровней, интерфейс с ISO / IEC 14496-1, транспортный поток аудио MPEG-4 и т. Д.)
  • Подчасть 2: Кодирование речи - HVXC ( кодирование с возбуждением гармонического вектора)
  • Подчасть 3: Кодирование речи - CELP (линейное предсказание с кодовым возбуждением)
  • Подчасть 4: General Audio Coding (GA) (Time / Frequency Coding) - AAC, TwinVQ, BSAC
  • Подчасть 5: Структурированное аудио (SA)
  • Подчасть 6: Интерфейс преобразования текста в речь (TTSI)
  • Подчасть 7: Параметрическое кодирование звука - HILN (гармонические и индивидуальные линии плюс шум)
  • Подчасть 8: Техническое описание параметрического кодирования для высококачественного звука (SSC, Parametric Stereo )
  • Подчасть 9: MPEG-1 / MPEG-2 Audio в MPEG-4
  • Подчасть 10: Техническое описание кодирования без потерь сверхдискретизированного звука (MPEG-4 DST - прямая потоковая передача )
  • Подчасть 11: Кодирование без потерь звука (ALS)
  • Подчасть 12: Масштабируемое кодирование без потерь (SLS)
Типы аудиообъектов MPEG-4

MPEG-4 Audio включает в себя систему для единообразной обработки разнообразной группы аудиоформатов. Каждому формату назначается уникальный тип аудиообъекта для его представления. Тип объекта используется для различения различных методов кодирования. Он напрямую определяет подмножество инструментов MPEG-4, необходимых для декодирования конкретного объекта. Профили MPEG-4 основаны на типах объектов, и каждый профиль поддерживает свой список типов объектов.

Типы аудиообъектов MPEG-4
ID типа объекта Тип аудиообъекта Дата первого публичного выпуска Описание
1 AAC Main 1999 г. содержит AAC LC
2 AAC LC (низкая сложность) 1999 г. Используется в «Профиле AAC». Тип аудиообъекта MPEG-4 AAC LC основан на профиле низкой сложности (LC) MPEG-2 Part 7 в сочетании с восприятием замещения шума (PNS) (определенным в MPEG-4 Part 3 Subpart 4).
3 AAC SSR (масштабируемая частота дискретизации) 1999 г. Тип аудиообъекта MPEG-4 AAC SSR основан на профиле масштабируемой частоты дискретизации (SSR) MPEG-2, часть 7, в сочетании с восприятием замещения шума (PNS) (определенным в MPEG-4 Part 3 Subpart 4).
4 AAC LTP ( долгосрочное прогнозирование ) 1999 г. содержит AAC LC
5 SBR ( репликация спектральной полосы ) 2003 г. используется с AAC LC в «Профиле AAC высокой эффективности» ( HE-AAC v1)
6 Масштабируемый AAC 1999 г.
7 TwinVQ 1999 г. кодирование звука с очень низким битрейтом
8 CELP ( линейное предсказание с кодовым возбуждением ) 1999 г. кодирование речи
9 HVXC (кодирование возбуждения гармонического вектора) 1999 г. кодирование речи
10 (Зарезервированный)
11 (Зарезервированный)
12 TTSI (преобразование текста в речь ) 1999 г.
13 Основной синтез 1999 г. Содержит синтез на основе сэмплов « волновая таблица », а также алгоритмический синтез и звуковые эффекты.
14 ' волновой ' синтез на основе сэмплов 1999 г. на основе SoundFont и DownLoadable Sounds, содержит General MIDI
15 General MIDI 1999 г.
16 Алгоритмический синтез и звуковые эффекты 1999 г.
17 ER AAC LC 2000 г. Устойчивый к ошибкам
18 (Зарезервированный)
19 ER AAC LTP 2000 г. Устойчивый к ошибкам
20 ER AAC Масштабируемый 2000 г. Устойчивый к ошибкам
21 год ER TwinVQ 2000 г. Устойчивый к ошибкам
22 ER BSAC (побитовое арифметическое кодирование) 2000 г. Он также известен как «Fine Granule Audio» или инструмент тонкой масштабируемости. Он используется в сочетании с инструментами кодирования AAC и заменяет бесшумное кодирование и форматирование потока битов кодера MPEG-4 версии 1 GA. Устойчивый к ошибкам
23 ER AAC LD (низкая задержка) 2000 г. Устойчивость к ошибкам, используется с CELP, ER CELP, HVXC, ER HVXC и TTSI в «Профиле низкой задержки» (обычно используется для приложений разговора в реальном времени)
24 ER CELP 2000 г. Устойчивый к ошибкам
25 ER HVXC 2000 г. Устойчивый к ошибкам
26 год ER HILN (Гармонические и отдельные линии плюс шум) 2000 г. Устойчивый к ошибкам
27 ER Параметрический 2000 г. Устойчивый к ошибкам
28 год SSC (синусоидальное кодирование) 2004 г.
29 PS ( параметрическое стерео ) 2004 и 2006 гг. используется с AAC LC и SBR в «Профиле HE-AAC v2». Инструмент кодирования PS был определен в 2004 году, а тип объекта - в 2006 году.
30 MPEG Surround 2007 г. также известный как MPEG Spatial Audio Coding (SAC), это тип пространственного аудио кодирования (MPEG Surround также был определен в ISO / IEC 23003-1 в 2007 году)
31 год (Зарезервированный)
32 MPEG-1/2 Layer-1 2005 г.
33 MPEG-1/2 Layer-2 2005 г.
34 MPEG-1/2 Layer-3 2005 г. также известен как "MP3onMP4"
35 год DST ( прямая потоковая передача ) 2005 г. кодирование звука без потерь, используемое на Super Audio CD
36 ALS ( кодирование без потерь звука ) 2006 г. кодирование звука без потерь
37 SLS ( масштабируемое кодирование без потерь ) 2006 г. двухуровневое кодирование звука со слоем без потерь и ядром / слоем General Audio с потерями (например, AAC)
38 SLS непрофильный 2006 г. кодирование звука без потерь без потерь ядра / уровня General Audio (например, AAC)
39 ER AAC ELD (улучшенная низкая задержка) 2008 г. Устойчивый к ошибкам
40 SMR (символическое музыкальное представление) Простой 2008 г. примечание: символическое музыкальное представление также является стандартом MPEG-4, часть 23 (ISO / IEC 14496-23: 2008)
41 год SMR Main 2008 г.
42 USAC ( унифицированное кодирование речи и звука ) 2012 г. Унифицированное кодирование речи и звука определено в MPEG-D, часть 3 (ISO / IEC 23003-3: 2012)
43 год SAOC (кодирование пространственных звуковых объектов) 2010 г. примечание: кодирование пространственных звуковых объектов также является стандартом MPEG-D Part 2 (ISO / IEC 23003-2: 2010)
44 год LD MPEG Surround 2010 г. Этот тип объекта передает дополнительную информацию MPEG Surround Coding с низкой задержкой (которая была определена в MPEG-D Часть 2 - ISO / IEC 23003-2

) в структуре MPEG-4 Audio.

45 SAOC-DE 2013 Улучшение диалога кодирования пространственных звуковых объектов
46 Аудио синхронизация 2015 г. Инструмент синхронизации звука обеспечивает возможность синхронизации нескольких материалов на нескольких устройствах.
Аудио профили
Иерархическая структура профиля AAC, профиля HE-AAC и профиля HE-AAC v2 и совместимость между ними. Декодер профиля HE-AAC полностью способен декодировать любой поток профиля AAC. Точно так же декодер HE-AAC v2 может обрабатывать все потоки профиля HE-AAC, а также все потоки профиля AAC. На основе технической спецификации MPEG-4, часть 3.

Стандарт MPEG-4 Audio определяет несколько профилей. Эти профили основаны на типах объектов, и каждый профиль поддерживает разные списки типов объектов. Каждый профиль может также иметь несколько уровней, которые ограничивают некоторые параметры инструментов, присутствующих в профиле. Эти параметры обычно представляют собой частоту дискретизации и количество аудиоканалов, декодируемых одновременно.

Аудио профили MPEG-4
Аудио профиль Типы аудиообъектов Дата первого публичного выпуска
Профиль AAC AAC LC 2003 г.
Профиль AAC с высокой эффективностью AAC LC, SBR 2003 г.
Профиль HE-AAC v2 AAC LC, SBR, PS 2006 г.
Основной аудио профиль AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, основной синтез 1999 г.
Масштабируемый аудио профиль AAC LC, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI 1999 г.
Речь Аудио Профиль CELP, HVXC, TTSI 1999 г.
Синтетический аудио профиль TTSI, Основной синтез 1999 г.
Профиль аудио высокого качества AAC LC, AAC LTP, AAC Scalable, CELP, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER CELP 2000 г.
Аудио профиль с низкой задержкой CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC 2000 г.
Профиль Natural Audio AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC, ER HILN, ER Parametric 2000 г.
Профиль межсетевого взаимодействия мобильного аудио ER AAC LC, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD 2000 г.
Профиль HD-AAC AAC LC, SLS 2009 г.
Простой профиль ALS ALS 2010 г.
Хранение и транспортировка аудио
Форматы мультиплексирования, хранения и передачи для MPEG-4 Audio
Стандарт Описание
Мультиплекс ИСО / МЭК 14496-1 Схема мультиплексирования MPEG-4 (M4Mux)
Мультиплекс ИСО / МЭК 14496-3 Транспортный мультиплексор с малыми накладными расходами (LATM)
Место хранения ISO / IEC 14496-3 (информативный) Формат обмена аудиоданными (ADIF) - только для AAC
Место хранения ИСО / МЭК 14496-12 Формат файлов MPEG-4 ( MP4 ) / базовый формат медиафайлов ISO
Передача инфекции ISO / IEC 14496-3 (информативный) Audio Data Transport Stream (ADTS) - только для AAC
Передача инфекции ИСО / МЭК 14496-3 Аудиопоток с низкими накладными расходами (LOAS), основанный на LATM

Не существует стандарта для транспортировки элементарных потоков по каналу, потому что широкий спектр приложений MPEG-4 предъявляет слишком широкие требования к доставке, чтобы их можно было легко охарактеризовать с помощью одного решения.

Возможности транспортного уровня и связь между функциями транспорта, мультиплексирования и демультиплексирования описаны в структуре интеграции мультимедиа доставки (DMIF) в ИСО / МЭК 14496-6. Под этим интерфейсом существует широкий спектр механизмов доставки, например транспортный поток MPEG, транспортный протокол реального времени (RTP) и т. Д.

Транспортный протокол в реальном времени определен в RFC 3016 (формат полезной нагрузки RTP для аудиовизуальных потоков MPEG-4), RFC 3640 (формат полезной нагрузки RTP для передачи элементарных потоков MPEG-4), RFC 4281 (параметр кодеков для " Bucket "Типы носителей) и RFC 4337 (Регистрация типа MIME для MPEG-4).

LATM и LOAS были определены для приложений естественного звука, которые не требуют сложного объектно-ориентированного кодирования или других функций, предоставляемых системами MPEG-4.

Бифуркация в техническом стандарте AAC
Основная статья: Advanced Audio Coding

Advanced Audio Coding в MPEG-4 Части 3 (MPEG-4 Audio) Подчасть 4 был улучшен по сравнению с предыдущим стандартом MPEG-2, часть 7 (Advanced Audio Coding), для того, чтобы обеспечить лучшее качество звука для данного кодирующего битрейт.

Предполагается, что любые различия Части 3 и Части 7 будут устранены органом по стандартизации ISO в ближайшем будущем, чтобы избежать возможности несовместимости потоков битов в будущем. В настоящее время нет известных случаев несовместимости проигрывателей или кодеков из-за новизны стандарта.

Стандарт MPEG-2 Part 7 (Advanced Audio Coding) был впервые опубликован в 1997 году и предлагает три профиля по умолчанию: профиль низкой сложности (LC), основной профиль и профиль масштабируемой частоты дискретизации (SSR).

MPEG-4 Part 3 Subpart 4 (General Audio Coding) объединил профили из MPEG-2 Part 7 с Perceptual Noise Substitution (PNS) и определили их как типы аудиообъектов (AAC LC, AAC Main, AAC SSR).

HE-AAC
Основная статья: HE-AAC

Высокоэффективное усовершенствованное аудиокодирование - это расширение AAC LC с использованием репликации спектральной полосы (SBR) и параметрического стерео (PS). Он разработан для повышения эффективности кодирования при низких скоростях передачи данных за счет использования частичного параметрического представления звука.

AAC-SSR

Масштабируемая частота дискретизации AAC была введена Sony в стандарты MPEG-2 Part 7 и MPEG-4 Part 3. Впервые он был опубликован в ISO / IEC 13818-7, Часть 7: Расширенное звуковое кодирование (AAC) в 1997 году. Звуковой сигнал сначала разделяется на 4 полосы с использованием 4- полосного многофазного квадратурного банка фильтров. Затем эти 4 полосы дополнительно разделяются с использованием MDCT с размером k, равным 32 или 256 отсчетам. Это похоже на обычный AAC LC, который использует MDCT с размером k, равным 128 или 1024, непосредственно в аудиосигнале.

Преимущество этого метода состоит в том, что переключение коротких блоков может выполняться отдельно для каждой полосы PQF. Таким образом, высокие частоты можно кодировать с использованием короткого блока для повышения временного разрешения, а низкие частоты по-прежнему могут кодироваться с высоким спектральным разрешением. Однако из-за наложения спектров между 4 полосами PQF эффективность кодирования около (1,2,3) * fs / 8 хуже, чем у обычного MPEG-4 AAC LC.

MPEG-4 AAC-SSR очень похож на ATRAC и ATRAC-3.

Почему был представлен AAC-SSR

Идея AAC-SSR заключалась не только в перечисленных выше преимуществах, но и в возможности снижения скорости передачи данных путем удаления 1, 2 или 3 верхних полос PQF. Очень простой разделитель битового потока может удалить эти полосы и, таким образом, снизить битрейт и частоту дискретизации.

Пример:

  • 4 поддиапазона: битрейт = 128 кбит / с, частота дискретизации = 48 кГц, f_lowpass = 20 кГц
  • 3 поддиапазона: битрейт ~ 120 кбит / с, частота дискретизации = 48 кГц, f_lowpass = 18 кГц
  • 2 поддиапазона: битрейт ~ 100 кбит / с, частота дискретизации = 24 кГц, f_lowpass = 12 кГц
  • 1 поддиапазон: битрейт ~ 65 кбит / с, частота дискретизации = 12 кГц, f_lowpass = 6 кГц

Примечание: хотя это возможно, качество результата намного хуже, чем типичное для этого битрейта. Таким образом, для обычного AAC LC 64 кбит / с полоса пропускания 14–16 кГц достигается за счет использования стерео интенсивности и сокращенных ЯМР. Это ухудшает качество звука меньше, чем передача с полосой пропускания 6 кГц с отличным качеством.

BSAC

Битовое арифметическое кодирование - это стандарт MPEG-4 (ISO / IEC 14496-3, подраздел 4) для масштабируемого кодирования звука. BSAC использует альтернативное бесшумное кодирование для AAC, а остальная часть обработки идентична AAC. Эта поддержка масштабируемости обеспечивает почти прозрачное качество звука при 64 кбит / с и постепенное ухудшение при более низких скоростях передачи данных. Кодирование BSAC лучше всего выполнять в диапазоне от 40 кбит / с до 64 кбит / с, хотя оно работает в диапазоне от 16 кбит / с до 64 кбит / с. Кодек AAC-BSAC используется в приложениях цифрового мультимедийного вещания (DMB).

Лицензирование

В 2002 году Комитет по лицензированию аудио MPEG-4 выбрал Via Licensing Corporation в качестве администратора лицензирования для пула патентов MPEG-4 Audio.

Смотрите также
использованная литература
внешние ссылки
Последняя правка сделана 2023-12-31 10:59:24
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте