MPEG-4, часть 3

редактировать

MPEG-4 Part 3 или MPEG-4 Audio (формально ISO / IEC 14496-3) является третьей частью международного стандарта ISO / IEC MPEG-4, разработанного Moving Picture Experts Group. Он определяет методы кодирования звука. Первая версия ISO / IEC 14496-3 была опубликована в 1999 году.

MPEG-4 Part 3 состоит из множества технологий кодирования звука - от кодирования речи с потерями ( HVXC, CELP ), общего кодирования звука ( AAC, TwinVQ, BSAC) до сжатия звука без потерь ( MPEG-4 SLS, Audio Lossless Coding, MPEG). -4 DST ), преобразование текста в речь (TTSI), структурированное аудио (с использованием SAOL, SASL, MIDI ) и многие дополнительные методы синтеза и кодирования звука.

MPEG-4 Audio не нацелен на одно приложение, такое как телефония в реальном времени или высококачественное сжатие звука. Это применимо к каждому приложению, которое требует использования усовершенствованного сжатия, синтеза, обработки или воспроизведения звука. MPEG-4 Audio - это новый тип звукового стандарта, который объединяет множество различных типов кодирования звука: естественный звук и синтетический звук, доставка с низким битрейтом и высокое качество, речь и музыка, сложные и простые саундтреки, традиционный контент и интерактивный контент..

СОДЕРЖАНИЕ

1 Версии
2 части
3 типа аудиообъектов MPEG-4
4 аудио профиля
5 Хранение и транспортировка аудио
6 Бифуркация в техническом стандарте AAC
7 HE-AAC
8 AAC-SSR
- 8.1 Почему был введен AAC-SSR
9 BSAC
10 Лицензирование
11 См. Также
12 Ссылки
13 Внешние ссылки

Версии

Версии и редакции MPEG-4 Audio
Версия	Дата выхода	Последняя поправка	Стандарт	Описание
Первое издание	1999 г.	2001 г.	ИСО / МЭК 14496-3: 1999	также известен как "MPEG-4 Audio Version 1"
		2000 г.	ISO / IEC 14496-3: 1999 / Amd 1: 2000	также известный как «MPEG-4 Audio Version 2», поправка к первому изданию
Второе издание	2001 г.	2005 г.	ИСО / МЭК 14496-3: 2001
Третье издание	2005 г.	2008 г.	ИСО / МЭК 14496-3: 2005
Четвертое издание	2009 г.	2015 г. и в стадии разработки	ИСО / МЭК 14496-3: 2009
Пятое издание	2019 г.		ИСО / МЭК 14496-3: 2019	Текущая версия

Подчасти

MPEG-4 Part 3 содержит следующие части:

Подчасть 1: Основная (список типов аудиообъектов, профилей, уровней, интерфейс с ISO / IEC 14496-1, транспортный поток аудио MPEG-4 и т. Д.)
Подчасть 2: Кодирование речи - HVXC ( кодирование с возбуждением гармонического вектора)
Подчасть 3: Кодирование речи - CELP (линейное предсказание с кодовым возбуждением)
Подчасть 4: General Audio Coding (GA) (Time / Frequency Coding) - AAC, TwinVQ, BSAC
Подчасть 5: Структурированное аудио (SA)
Подчасть 6: Интерфейс преобразования текста в речь (TTSI)
Подчасть 7: Параметрическое кодирование звука - HILN (гармонические и индивидуальные линии плюс шум)
Подчасть 8: Техническое описание параметрического кодирования для высококачественного звука (SSC, Parametric Stereo )
Подчасть 9: MPEG-1 / MPEG-2 Audio в MPEG-4
Подчасть 10: Техническое описание кодирования без потерь сверхдискретизированного звука (MPEG-4 DST - прямая потоковая передача )
Подчасть 11: Кодирование без потерь звука (ALS)
Подчасть 12: Масштабируемое кодирование без потерь (SLS)

Типы аудиообъектов MPEG-4

MPEG-4 Audio включает в себя систему для единообразной обработки разнообразной группы аудиоформатов. Каждому формату назначается уникальный тип аудиообъекта для его представления. Тип объекта используется для различения различных методов кодирования. Он напрямую определяет подмножество инструментов MPEG-4, необходимых для декодирования конкретного объекта. Профили MPEG-4 основаны на типах объектов, и каждый профиль поддерживает свой список типов объектов.

Типы аудиообъектов MPEG-4
ID типа объекта	Тип аудиообъекта	Дата первого публичного выпуска	Описание
1	AAC Main	1999 г.	содержит AAC LC
2	AAC LC (низкая сложность)	1999 г.	Используется в «Профиле AAC». Тип аудиообъекта MPEG-4 AAC LC основан на профиле низкой сложности (LC) MPEG-2 Part 7 в сочетании с восприятием замещения шума (PNS) (определенным в MPEG-4 Part 3 Subpart 4).
3	AAC SSR (масштабируемая частота дискретизации)	1999 г.	Тип аудиообъекта MPEG-4 AAC SSR основан на профиле масштабируемой частоты дискретизации (SSR) MPEG-2, часть 7, в сочетании с восприятием замещения шума (PNS) (определенным в MPEG-4 Part 3 Subpart 4).
4	AAC LTP ( долгосрочное прогнозирование )	1999 г.	содержит AAC LC
5	SBR ( репликация спектральной полосы )	2003 г.	используется с AAC LC в «Профиле AAC высокой эффективности» ( HE-AAC v1)
6	Масштабируемый AAC	1999 г.
7	TwinVQ	1999 г.	кодирование звука с очень низким битрейтом
8	CELP ( линейное предсказание с кодовым возбуждением )	1999 г.	кодирование речи
9	HVXC (кодирование возбуждения гармонического вектора)	1999 г.	кодирование речи
10	(Зарезервированный)
11	(Зарезервированный)
12	TTSI (преобразование текста в речь )	1999 г.
13	Основной синтез	1999 г.	Содержит синтез на основе сэмплов « волновая таблица », а также алгоритмический синтез и звуковые эффекты.
14	' волновой ' синтез на основе сэмплов	1999 г.	на основе SoundFont и DownLoadable Sounds, содержит General MIDI
15	General MIDI	1999 г.
16	Алгоритмический синтез и звуковые эффекты	1999 г.
17	ER AAC LC	2000 г.	Устойчивый к ошибкам
18	(Зарезервированный)
19	ER AAC LTP	2000 г.	Устойчивый к ошибкам
20	ER AAC Масштабируемый	2000 г.	Устойчивый к ошибкам
21 год	ER TwinVQ	2000 г.	Устойчивый к ошибкам
22	ER BSAC (побитовое арифметическое кодирование)	2000 г.	Он также известен как «Fine Granule Audio» или инструмент тонкой масштабируемости. Он используется в сочетании с инструментами кодирования AAC и заменяет бесшумное кодирование и форматирование потока битов кодера MPEG-4 версии 1 GA. Устойчивый к ошибкам
23	ER AAC LD (низкая задержка)	2000 г.	Устойчивость к ошибкам, используется с CELP, ER CELP, HVXC, ER HVXC и TTSI в «Профиле низкой задержки» (обычно используется для приложений разговора в реальном времени)
24	ER CELP	2000 г.	Устойчивый к ошибкам
25	ER HVXC	2000 г.	Устойчивый к ошибкам
26 год	ER HILN (Гармонические и отдельные линии плюс шум)	2000 г.	Устойчивый к ошибкам
27	ER Параметрический	2000 г.	Устойчивый к ошибкам
28 год	SSC (синусоидальное кодирование)	2004 г.
29	PS ( параметрическое стерео )	2004 и 2006 гг.	используется с AAC LC и SBR в «Профиле HE-AAC v2». Инструмент кодирования PS был определен в 2004 году, а тип объекта - в 2006 году.
30	MPEG Surround	2007 г.	также известный как MPEG Spatial Audio Coding (SAC), это тип пространственного аудио кодирования (MPEG Surround также был определен в ISO / IEC 23003-1 в 2007 году)
31 год	(Зарезервированный)
32	MPEG-1/2 Layer-1	2005 г.
33	MPEG-1/2 Layer-2	2005 г.
34	MPEG-1/2 Layer-3	2005 г.	также известен как "MP3onMP4"
35 год	DST ( прямая потоковая передача )	2005 г.	кодирование звука без потерь, используемое на Super Audio CD
36	ALS ( кодирование без потерь звука )	2006 г.	кодирование звука без потерь
37	SLS ( масштабируемое кодирование без потерь )	2006 г.	двухуровневое кодирование звука со слоем без потерь и ядром / слоем General Audio с потерями (например, AAC)
38	SLS непрофильный	2006 г.	кодирование звука без потерь без потерь ядра / уровня General Audio (например, AAC)
39	ER AAC ELD (улучшенная низкая задержка)	2008 г.	Устойчивый к ошибкам
40	SMR (символическое музыкальное представление) Простой	2008 г.	примечание: символическое музыкальное представление также является стандартом MPEG-4, часть 23 (ISO / IEC 14496-23: 2008)
41 год	SMR Main	2008 г.
42	USAC ( унифицированное кодирование речи и звука )	2012 г.	Унифицированное кодирование речи и звука определено в MPEG-D, часть 3 (ISO / IEC 23003-3: 2012)
43 год	SAOC (кодирование пространственных звуковых объектов)	2010 г.	примечание: кодирование пространственных звуковых объектов также является стандартом MPEG-D Part 2 (ISO / IEC 23003-2: 2010)
44 год	LD MPEG Surround	2010 г.	Этот тип объекта передает дополнительную информацию MPEG Surround Coding с низкой задержкой (которая была определена в MPEG-D Часть 2 - ISO / IEC 23003-2 ) в структуре MPEG-4 Audio.
45	SAOC-DE	2013	Улучшение диалога кодирования пространственных звуковых объектов
46	Аудио синхронизация	2015 г.	Инструмент синхронизации звука обеспечивает возможность синхронизации нескольких материалов на нескольких устройствах.

Аудио профили

Иерархическая структура профиля AAC, профиля HE-AAC и профиля HE-AAC v2 и совместимость между ними. Декодер профиля HE-AAC полностью способен декодировать любой поток профиля AAC. Точно так же декодер HE-AAC v2 может обрабатывать все потоки профиля HE-AAC, а также все потоки профиля AAC. На основе технической спецификации MPEG-4, часть 3.

Стандарт MPEG-4 Audio определяет несколько профилей. Эти профили основаны на типах объектов, и каждый профиль поддерживает разные списки типов объектов. Каждый профиль может также иметь несколько уровней, которые ограничивают некоторые параметры инструментов, присутствующих в профиле. Эти параметры обычно представляют собой частоту дискретизации и количество аудиоканалов, декодируемых одновременно.

Аудио профили MPEG-4
Аудио профиль	Типы аудиообъектов	Дата первого публичного выпуска
Профиль AAC	AAC LC	2003 г.
Профиль AAC с высокой эффективностью	AAC LC, SBR	2003 г.
Профиль HE-AAC v2	AAC LC, SBR, PS	2006 г.
Основной аудио профиль	AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, основной синтез	1999 г.
Масштабируемый аудио профиль	AAC LC, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI	1999 г.
Речь Аудио Профиль	CELP, HVXC, TTSI	1999 г.
Синтетический аудио профиль	TTSI, Основной синтез	1999 г.
Профиль аудио высокого качества	AAC LC, AAC LTP, AAC Scalable, CELP, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER CELP	2000 г.
Аудио профиль с низкой задержкой	CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC	2000 г.
Профиль Natural Audio	AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC, ER HILN, ER Parametric	2000 г.
Профиль межсетевого взаимодействия мобильного аудио	ER AAC LC, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD	2000 г.
Профиль HD-AAC	AAC LC, SLS	2009 г.
Простой профиль ALS	ALS	2010 г.

Хранение и транспортировка аудио

Форматы мультиплексирования, хранения и передачи для MPEG-4 Audio
	Стандарт	Описание
Мультиплекс	ИСО / МЭК 14496-1	Схема мультиплексирования MPEG-4 (M4Mux)
Мультиплекс	ИСО / МЭК 14496-3	Транспортный мультиплексор с малыми накладными расходами (LATM)
Место хранения	ISO / IEC 14496-3 (информативный)	Формат обмена аудиоданными (ADIF) - только для AAC
Место хранения	ИСО / МЭК 14496-12	Формат файлов MPEG-4 ( MP4 ) / базовый формат медиафайлов ISO
Передача инфекции	ISO / IEC 14496-3 (информативный)	Audio Data Transport Stream (ADTS) - только для AAC
Передача инфекции	ИСО / МЭК 14496-3	Аудиопоток с низкими накладными расходами (LOAS), основанный на LATM

Не существует стандарта для транспортировки элементарных потоков по каналу, потому что широкий спектр приложений MPEG-4 предъявляет слишком широкие требования к доставке, чтобы их можно было легко охарактеризовать с помощью одного решения.

Возможности транспортного уровня и связь между функциями транспорта, мультиплексирования и демультиплексирования описаны в структуре интеграции мультимедиа доставки (DMIF) в ИСО / МЭК 14496-6. Под этим интерфейсом существует широкий спектр механизмов доставки, например транспортный поток MPEG, транспортный протокол реального времени (RTP) и т. Д.

Транспортный протокол в реальном времени определен в RFC 3016 (формат полезной нагрузки RTP для аудиовизуальных потоков MPEG-4), RFC 3640 (формат полезной нагрузки RTP для передачи элементарных потоков MPEG-4), RFC 4281 (параметр кодеков для " Bucket "Типы носителей) и RFC 4337 (Регистрация типа MIME для MPEG-4).

LATM и LOAS были определены для приложений естественного звука, которые не требуют сложного объектно-ориентированного кодирования или других функций, предоставляемых системами MPEG-4.

Бифуркация в техническом стандарте AAC

Основная статья: Advanced Audio Coding

Advanced Audio Coding в MPEG-4 Части 3 (MPEG-4 Audio) Подчасть 4 был улучшен по сравнению с предыдущим стандартом MPEG-2, часть 7 (Advanced Audio Coding), для того, чтобы обеспечить лучшее качество звука для данного кодирующего битрейт.

Предполагается, что любые различия Части 3 и Части 7 будут устранены органом по стандартизации ISO в ближайшем будущем, чтобы избежать возможности несовместимости потоков битов в будущем. В настоящее время нет известных случаев несовместимости проигрывателей или кодеков из-за новизны стандарта.

Стандарт MPEG-2 Part 7 (Advanced Audio Coding) был впервые опубликован в 1997 году и предлагает три профиля по умолчанию: профиль низкой сложности (LC), основной профиль и профиль масштабируемой частоты дискретизации (SSR).

MPEG-4 Part 3 Subpart 4 (General Audio Coding) объединил профили из MPEG-2 Part 7 с Perceptual Noise Substitution (PNS) и определили их как типы аудиообъектов (AAC LC, AAC Main, AAC SSR).

HE-AAC

Основная статья: HE-AAC

Высокоэффективное усовершенствованное аудиокодирование - это расширение AAC LC с использованием репликации спектральной полосы (SBR) и параметрического стерео (PS). Он разработан для повышения эффективности кодирования при низких скоростях передачи данных за счет использования частичного параметрического представления звука.

AAC-SSR

Масштабируемая частота дискретизации AAC была введена Sony в стандарты MPEG-2 Part 7 и MPEG-4 Part 3. Впервые он был опубликован в ISO / IEC 13818-7, Часть 7: Расширенное звуковое кодирование (AAC) в 1997 году. Звуковой сигнал сначала разделяется на 4 полосы с использованием 4- полосного многофазного квадратурного банка фильтров. Затем эти 4 полосы дополнительно разделяются с использованием MDCT с размером k, равным 32 или 256 отсчетам. Это похоже на обычный AAC LC, который использует MDCT с размером k, равным 128 или 1024, непосредственно в аудиосигнале.

Преимущество этого метода состоит в том, что переключение коротких блоков может выполняться отдельно для каждой полосы PQF. Таким образом, высокие частоты можно кодировать с использованием короткого блока для повышения временного разрешения, а низкие частоты по-прежнему могут кодироваться с высоким спектральным разрешением. Однако из-за наложения спектров между 4 полосами PQF эффективность кодирования около (1,2,3) * fs / 8 хуже, чем у обычного MPEG-4 AAC LC.

MPEG-4 AAC-SSR очень похож на ATRAC и ATRAC-3.

Почему был представлен AAC-SSR

Идея AAC-SSR заключалась не только в перечисленных выше преимуществах, но и в возможности снижения скорости передачи данных путем удаления 1, 2 или 3 верхних полос PQF. Очень простой разделитель битового потока может удалить эти полосы и, таким образом, снизить битрейт и частоту дискретизации.

Пример:

4 поддиапазона: битрейт = 128 кбит / с, частота дискретизации = 48 кГц, f_lowpass = 20 кГц
3 поддиапазона: битрейт ~ 120 кбит / с, частота дискретизации = 48 кГц, f_lowpass = 18 кГц
2 поддиапазона: битрейт ~ 100 кбит / с, частота дискретизации = 24 кГц, f_lowpass = 12 кГц
1 поддиапазон: битрейт ~ 65 кбит / с, частота дискретизации = 12 кГц, f_lowpass = 6 кГц

Примечание: хотя это возможно, качество результата намного хуже, чем типичное для этого битрейта. Таким образом, для обычного AAC LC 64 кбит / с полоса пропускания 14–16 кГц достигается за счет использования стерео интенсивности и сокращенных ЯМР. Это ухудшает качество звука меньше, чем передача с полосой пропускания 6 кГц с отличным качеством.

BSAC

Битовое арифметическое кодирование - это стандарт MPEG-4 (ISO / IEC 14496-3, подраздел 4) для масштабируемого кодирования звука. BSAC использует альтернативное бесшумное кодирование для AAC, а остальная часть обработки идентична AAC. Эта поддержка масштабируемости обеспечивает почти прозрачное качество звука при 64 кбит / с и постепенное ухудшение при более низких скоростях передачи данных. Кодирование BSAC лучше всего выполнять в диапазоне от 40 кбит / с до 64 кбит / с, хотя оно работает в диапазоне от 16 кбит / с до 64 кбит / с. Кодек AAC-BSAC используется в приложениях цифрового мультимедийного вещания (DMB).

Лицензирование

В 2002 году Комитет по лицензированию аудио MPEG-4 выбрал Via Licensing Corporation в качестве администратора лицензирования для пула патентов MPEG-4 Audio.

Смотрите также

TwinVQ - один из типов объектов, определенных в MPEG-4 Audio версии 1
MPEG-4, часть 2
Формат контейнера MPEG-4, часть 14 (MP4)
Управление цифровыми правами
Расширенное кодирование звука (AAC)
ISO / IEC JTC 1 / SC 29

использованная литература

внешние ссылки

Apple: MPEG-4: AAC
«AAC» (VideoLAN WIKI)
Субъективные тесты прослушивания EBU на аудиокодеках с низким битрейтом
Радиостанции AAC - Онлайн радиостанции в формате AAC
Tuner2 - Каталог радиостанций в формате AAC + с разным битрейтом
RadioFeeds UK amp; Ireland - Страница, содержащая множество наземных станций, ведущих интернет-вещание в формате AAC +.
[1] Страница сравнения кодеков, включая HE-AAC @ 64 кбит / с, с помощью тестов прослушивания. (Страница не в сети)
Официальный веб-сайт MPEG
RFC 3016 - формат полезной нагрузки RTP для аудиовизуальных потоков MPEG-4
RFC 3640 - Формат полезной нагрузки RTP для транспортировки элементарных потоков MPEG-4
RFC 4281 - Параметр кодеков для типов носителей "Bucket"
RFC 4337 - Регистрация типа MIME для MPEG-4