MPEG-4 Part 3 или MPEG-4 Audio (формально ISO / IEC 14496-3) является третьей частью международного стандарта ISO / IEC MPEG-4, разработанного Moving Picture Experts Group. Он определяет методы кодирования звука. Первая версия ISO / IEC 14496-3 была опубликована в 1999 году.
MPEG-4 Part 3 состоит из множества технологий кодирования звука - от кодирования речи с потерями ( HVXC, CELP ), общего кодирования звука ( AAC, TwinVQ, BSAC) до сжатия звука без потерь ( MPEG-4 SLS, Audio Lossless Coding, MPEG). -4 DST ), преобразование текста в речь (TTSI), структурированное аудио (с использованием SAOL, SASL, MIDI ) и многие дополнительные методы синтеза и кодирования звука.
MPEG-4 Audio не нацелен на одно приложение, такое как телефония в реальном времени или высококачественное сжатие звука. Это применимо к каждому приложению, которое требует использования усовершенствованного сжатия, синтеза, обработки или воспроизведения звука. MPEG-4 Audio - это новый тип звукового стандарта, который объединяет множество различных типов кодирования звука: естественный звук и синтетический звук, доставка с низким битрейтом и высокое качество, речь и музыка, сложные и простые саундтреки, традиционный контент и интерактивный контент..
Версия | Дата выхода | Последняя поправка | Стандарт | Описание |
---|---|---|---|---|
Первое издание | 1999 г. | 2001 г. | ИСО / МЭК 14496-3: 1999 | также известен как "MPEG-4 Audio Version 1" |
2000 г. | ISO / IEC 14496-3: 1999 / Amd 1: 2000 | также известный как «MPEG-4 Audio Version 2», поправка к первому изданию | ||
Второе издание | 2001 г. | 2005 г. | ИСО / МЭК 14496-3: 2001 | |
Третье издание | 2005 г. | 2008 г. | ИСО / МЭК 14496-3: 2005 | |
Четвертое издание | 2009 г. | 2015 г. и в стадии разработки | ИСО / МЭК 14496-3: 2009 | |
Пятое издание | 2019 г. | ИСО / МЭК 14496-3: 2019 | Текущая версия |
MPEG-4 Part 3 содержит следующие части:
MPEG-4 Audio включает в себя систему для единообразной обработки разнообразной группы аудиоформатов. Каждому формату назначается уникальный тип аудиообъекта для его представления. Тип объекта используется для различения различных методов кодирования. Он напрямую определяет подмножество инструментов MPEG-4, необходимых для декодирования конкретного объекта. Профили MPEG-4 основаны на типах объектов, и каждый профиль поддерживает свой список типов объектов.
ID типа объекта | Тип аудиообъекта | Дата первого публичного выпуска | Описание |
---|---|---|---|
1 | AAC Main | 1999 г. | содержит AAC LC |
2 | AAC LC (низкая сложность) | 1999 г. | Используется в «Профиле AAC». Тип аудиообъекта MPEG-4 AAC LC основан на профиле низкой сложности (LC) MPEG-2 Part 7 в сочетании с восприятием замещения шума (PNS) (определенным в MPEG-4 Part 3 Subpart 4). |
3 | AAC SSR (масштабируемая частота дискретизации) | 1999 г. | Тип аудиообъекта MPEG-4 AAC SSR основан на профиле масштабируемой частоты дискретизации (SSR) MPEG-2, часть 7, в сочетании с восприятием замещения шума (PNS) (определенным в MPEG-4 Part 3 Subpart 4). |
4 | AAC LTP ( долгосрочное прогнозирование ) | 1999 г. | содержит AAC LC |
5 | SBR ( репликация спектральной полосы ) | 2003 г. | используется с AAC LC в «Профиле AAC высокой эффективности» ( HE-AAC v1) |
6 | Масштабируемый AAC | 1999 г. | |
7 | TwinVQ | 1999 г. | кодирование звука с очень низким битрейтом |
8 | CELP ( линейное предсказание с кодовым возбуждением ) | 1999 г. | кодирование речи |
9 | HVXC (кодирование возбуждения гармонического вектора) | 1999 г. | кодирование речи |
10 | (Зарезервированный) | ||
11 | (Зарезервированный) | ||
12 | TTSI (преобразование текста в речь ) | 1999 г. | |
13 | Основной синтез | 1999 г. | Содержит синтез на основе сэмплов « волновая таблица », а также алгоритмический синтез и звуковые эффекты. |
14 | ' волновой ' синтез на основе сэмплов | 1999 г. | на основе SoundFont и DownLoadable Sounds, содержит General MIDI |
15 | General MIDI | 1999 г. | |
16 | Алгоритмический синтез и звуковые эффекты | 1999 г. | |
17 | ER AAC LC | 2000 г. | Устойчивый к ошибкам |
18 | (Зарезервированный) | ||
19 | ER AAC LTP | 2000 г. | Устойчивый к ошибкам |
20 | ER AAC Масштабируемый | 2000 г. | Устойчивый к ошибкам |
21 год | ER TwinVQ | 2000 г. | Устойчивый к ошибкам |
22 | ER BSAC (побитовое арифметическое кодирование) | 2000 г. | Он также известен как «Fine Granule Audio» или инструмент тонкой масштабируемости. Он используется в сочетании с инструментами кодирования AAC и заменяет бесшумное кодирование и форматирование потока битов кодера MPEG-4 версии 1 GA. Устойчивый к ошибкам |
23 | ER AAC LD (низкая задержка) | 2000 г. | Устойчивость к ошибкам, используется с CELP, ER CELP, HVXC, ER HVXC и TTSI в «Профиле низкой задержки» (обычно используется для приложений разговора в реальном времени) |
24 | ER CELP | 2000 г. | Устойчивый к ошибкам |
25 | ER HVXC | 2000 г. | Устойчивый к ошибкам |
26 год | ER HILN (Гармонические и отдельные линии плюс шум) | 2000 г. | Устойчивый к ошибкам |
27 | ER Параметрический | 2000 г. | Устойчивый к ошибкам |
28 год | SSC (синусоидальное кодирование) | 2004 г. | |
29 | PS ( параметрическое стерео ) | 2004 и 2006 гг. | используется с AAC LC и SBR в «Профиле HE-AAC v2». Инструмент кодирования PS был определен в 2004 году, а тип объекта - в 2006 году. |
30 | MPEG Surround | 2007 г. | также известный как MPEG Spatial Audio Coding (SAC), это тип пространственного аудио кодирования (MPEG Surround также был определен в ISO / IEC 23003-1 в 2007 году) |
31 год | (Зарезервированный) | ||
32 | MPEG-1/2 Layer-1 | 2005 г. | |
33 | MPEG-1/2 Layer-2 | 2005 г. | |
34 | MPEG-1/2 Layer-3 | 2005 г. | также известен как "MP3onMP4" |
35 год | DST ( прямая потоковая передача ) | 2005 г. | кодирование звука без потерь, используемое на Super Audio CD |
36 | ALS ( кодирование без потерь звука ) | 2006 г. | кодирование звука без потерь |
37 | SLS ( масштабируемое кодирование без потерь ) | 2006 г. | двухуровневое кодирование звука со слоем без потерь и ядром / слоем General Audio с потерями (например, AAC) |
38 | SLS непрофильный | 2006 г. | кодирование звука без потерь без потерь ядра / уровня General Audio (например, AAC) |
39 | ER AAC ELD (улучшенная низкая задержка) | 2008 г. | Устойчивый к ошибкам |
40 | SMR (символическое музыкальное представление) Простой | 2008 г. | примечание: символическое музыкальное представление также является стандартом MPEG-4, часть 23 (ISO / IEC 14496-23: 2008) |
41 год | SMR Main | 2008 г. | |
42 | USAC ( унифицированное кодирование речи и звука ) | 2012 г. | Унифицированное кодирование речи и звука определено в MPEG-D, часть 3 (ISO / IEC 23003-3: 2012) |
43 год | SAOC (кодирование пространственных звуковых объектов) | 2010 г. | примечание: кодирование пространственных звуковых объектов также является стандартом MPEG-D Part 2 (ISO / IEC 23003-2: 2010) |
44 год | LD MPEG Surround | 2010 г. | Этот тип объекта передает дополнительную информацию MPEG Surround Coding с низкой задержкой (которая была определена в MPEG-D Часть 2 - ISO / IEC 23003-2 ) в структуре MPEG-4 Audio. |
45 | SAOC-DE | 2013 | Улучшение диалога кодирования пространственных звуковых объектов |
46 | Аудио синхронизация | 2015 г. | Инструмент синхронизации звука обеспечивает возможность синхронизации нескольких материалов на нескольких устройствах. |
Стандарт MPEG-4 Audio определяет несколько профилей. Эти профили основаны на типах объектов, и каждый профиль поддерживает разные списки типов объектов. Каждый профиль может также иметь несколько уровней, которые ограничивают некоторые параметры инструментов, присутствующих в профиле. Эти параметры обычно представляют собой частоту дискретизации и количество аудиоканалов, декодируемых одновременно.
Аудио профиль | Типы аудиообъектов | Дата первого публичного выпуска |
---|---|---|
Профиль AAC | AAC LC | 2003 г. |
Профиль AAC с высокой эффективностью | AAC LC, SBR | 2003 г. |
Профиль HE-AAC v2 | AAC LC, SBR, PS | 2006 г. |
Основной аудио профиль | AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, основной синтез | 1999 г. |
Масштабируемый аудио профиль | AAC LC, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI | 1999 г. |
Речь Аудио Профиль | CELP, HVXC, TTSI | 1999 г. |
Синтетический аудио профиль | TTSI, Основной синтез | 1999 г. |
Профиль аудио высокого качества | AAC LC, AAC LTP, AAC Scalable, CELP, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER CELP | 2000 г. |
Аудио профиль с низкой задержкой | CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC | 2000 г. |
Профиль Natural Audio | AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC, ER HILN, ER Parametric | 2000 г. |
Профиль межсетевого взаимодействия мобильного аудио | ER AAC LC, ER AAC Scalable, ER TwinVQ, ER BSAC, ER AAC LD | 2000 г. |
Профиль HD-AAC | AAC LC, SLS | 2009 г. |
Простой профиль ALS | ALS | 2010 г. |
Стандарт | Описание | |
---|---|---|
Мультиплекс | ИСО / МЭК 14496-1 | Схема мультиплексирования MPEG-4 (M4Mux) |
Мультиплекс | ИСО / МЭК 14496-3 | Транспортный мультиплексор с малыми накладными расходами (LATM) |
Место хранения | ISO / IEC 14496-3 (информативный) | Формат обмена аудиоданными (ADIF) - только для AAC |
Место хранения | ИСО / МЭК 14496-12 | Формат файлов MPEG-4 ( MP4 ) / базовый формат медиафайлов ISO |
Передача инфекции | ISO / IEC 14496-3 (информативный) | Audio Data Transport Stream (ADTS) - только для AAC |
Передача инфекции | ИСО / МЭК 14496-3 | Аудиопоток с низкими накладными расходами (LOAS), основанный на LATM |
Не существует стандарта для транспортировки элементарных потоков по каналу, потому что широкий спектр приложений MPEG-4 предъявляет слишком широкие требования к доставке, чтобы их можно было легко охарактеризовать с помощью одного решения.
Возможности транспортного уровня и связь между функциями транспорта, мультиплексирования и демультиплексирования описаны в структуре интеграции мультимедиа доставки (DMIF) в ИСО / МЭК 14496-6. Под этим интерфейсом существует широкий спектр механизмов доставки, например транспортный поток MPEG, транспортный протокол реального времени (RTP) и т. Д.
Транспортный протокол в реальном времени определен в RFC 3016 (формат полезной нагрузки RTP для аудиовизуальных потоков MPEG-4), RFC 3640 (формат полезной нагрузки RTP для передачи элементарных потоков MPEG-4), RFC 4281 (параметр кодеков для " Bucket "Типы носителей) и RFC 4337 (Регистрация типа MIME для MPEG-4).
LATM и LOAS были определены для приложений естественного звука, которые не требуют сложного объектно-ориентированного кодирования или других функций, предоставляемых системами MPEG-4.
Advanced Audio Coding в MPEG-4 Части 3 (MPEG-4 Audio) Подчасть 4 был улучшен по сравнению с предыдущим стандартом MPEG-2, часть 7 (Advanced Audio Coding), для того, чтобы обеспечить лучшее качество звука для данного кодирующего битрейт.
Предполагается, что любые различия Части 3 и Части 7 будут устранены органом по стандартизации ISO в ближайшем будущем, чтобы избежать возможности несовместимости потоков битов в будущем. В настоящее время нет известных случаев несовместимости проигрывателей или кодеков из-за новизны стандарта.
Стандарт MPEG-2 Part 7 (Advanced Audio Coding) был впервые опубликован в 1997 году и предлагает три профиля по умолчанию: профиль низкой сложности (LC), основной профиль и профиль масштабируемой частоты дискретизации (SSR).
MPEG-4 Part 3 Subpart 4 (General Audio Coding) объединил профили из MPEG-2 Part 7 с Perceptual Noise Substitution (PNS) и определили их как типы аудиообъектов (AAC LC, AAC Main, AAC SSR).
Высокоэффективное усовершенствованное аудиокодирование - это расширение AAC LC с использованием репликации спектральной полосы (SBR) и параметрического стерео (PS). Он разработан для повышения эффективности кодирования при низких скоростях передачи данных за счет использования частичного параметрического представления звука.
Масштабируемая частота дискретизации AAC была введена Sony в стандарты MPEG-2 Part 7 и MPEG-4 Part 3. Впервые он был опубликован в ISO / IEC 13818-7, Часть 7: Расширенное звуковое кодирование (AAC) в 1997 году. Звуковой сигнал сначала разделяется на 4 полосы с использованием 4- полосного многофазного квадратурного банка фильтров. Затем эти 4 полосы дополнительно разделяются с использованием MDCT с размером k, равным 32 или 256 отсчетам. Это похоже на обычный AAC LC, который использует MDCT с размером k, равным 128 или 1024, непосредственно в аудиосигнале.
Преимущество этого метода состоит в том, что переключение коротких блоков может выполняться отдельно для каждой полосы PQF. Таким образом, высокие частоты можно кодировать с использованием короткого блока для повышения временного разрешения, а низкие частоты по-прежнему могут кодироваться с высоким спектральным разрешением. Однако из-за наложения спектров между 4 полосами PQF эффективность кодирования около (1,2,3) * fs / 8 хуже, чем у обычного MPEG-4 AAC LC.
MPEG-4 AAC-SSR очень похож на ATRAC и ATRAC-3.
Идея AAC-SSR заключалась не только в перечисленных выше преимуществах, но и в возможности снижения скорости передачи данных путем удаления 1, 2 или 3 верхних полос PQF. Очень простой разделитель битового потока может удалить эти полосы и, таким образом, снизить битрейт и частоту дискретизации.
Пример:
Примечание: хотя это возможно, качество результата намного хуже, чем типичное для этого битрейта. Таким образом, для обычного AAC LC 64 кбит / с полоса пропускания 14–16 кГц достигается за счет использования стерео интенсивности и сокращенных ЯМР. Это ухудшает качество звука меньше, чем передача с полосой пропускания 6 кГц с отличным качеством.
Битовое арифметическое кодирование - это стандарт MPEG-4 (ISO / IEC 14496-3, подраздел 4) для масштабируемого кодирования звука. BSAC использует альтернативное бесшумное кодирование для AAC, а остальная часть обработки идентична AAC. Эта поддержка масштабируемости обеспечивает почти прозрачное качество звука при 64 кбит / с и постепенное ухудшение при более низких скоростях передачи данных. Кодирование BSAC лучше всего выполнять в диапазоне от 40 кбит / с до 64 кбит / с, хотя оно работает в диапазоне от 16 кбит / с до 64 кбит / с. Кодек AAC-BSAC используется в приложениях цифрового мультимедийного вещания (DMB).
В 2002 году Комитет по лицензированию аудио MPEG-4 выбрал Via Licensing Corporation в качестве администратора лицензирования для пула патентов MPEG-4 Audio.