Формат кодирования звука

редактировать

Формат с цифровым кодированием для аудиосигналов

Сравнение эффективности кодирования между популярными аудиоформатами

Кодирование звука формат (или иногда формат сжатия звука ) - это формат представления контента для хранения или передачи цифрового звука (например, в цифровом телевидении, цифровое радио и в аудио- и видеофайлах). Примеры форматов кодирования аудио включают MP3, AAC, Vorbis, FLAC и Opus. Конкретная программная или аппаратная реализация, способная выполнять сжатие звука и декомпрессию в / из определенного формата кодирования звука, называется аудиокодеком ; Примером аудиокодека является LAME, который является одним из нескольких различных кодеков, которые реализуют кодирование и декодирование звука в формате кодирования звука MP3 в программном обеспечении.

Некоторые форматы кодирования аудио задокументированы подробным документом технической спецификации, известным как спецификация кодирования аудио . Некоторые такие спецификации написаны и утверждены организациями по стандартизации как технические стандарты и, таким образом, известны как стандарт кодирования звука . Термин «стандарт» также иногда используется для стандартов де-факто, а также для формальных стандартов.

Аудиоконтент, закодированный в конкретном формате аудиокодирования, обычно инкапсулируется в контейнерный формат . Таким образом, пользователь обычно не имеет необработанного файла AAC, но вместо этого имеет аудиофайл.m4a , который является MPEG-4 Part 14 контейнер, содержащий аудио в кодировке AAC. Контейнер также содержит метаданные, такие как заголовок и другие теги, и, возможно, индекс для быстрого поиска. Заметным исключением являются файлы MP3, которые являются необработанными аудиофайлами без формата контейнера. Стандарты де-факто для добавления тегов метаданных, таких как название и исполнитель, в MP3, такие как ID3, - это хаки, которые работают, добавляя теги в MP3, а затем полагаясь на MP3-плеер. чтобы распознать фрагмент как искаженное звуковое кодирование и, следовательно, пропустить его. В видеофайлах со звуком закодированный аудиоконтент объединяется с видео (в формате кодирования видео ) внутри формата мультимедийного контейнера .

Формат кодирования звука не требует всех алгоритмов используется кодеком , реализующим формат. Согласно психоакустической модели, важной частью того, как работает сжатие звука с потерями, является удаление данных способами, которые люди не могут слышать; разработчик кодировщика имеет некоторую свободу выбора данных для удаления (в соответствии с их психоакустической моделью).

Содержание

1 Форматы кодирования аудио без потерь, с потерями и без сжатия
2 История
3 Список форматов с потерями
- 3.1 Общие
- 3.2 Речь
4 Список форматов без потерь
5 См. Также
6 Ссылки

Форматы кодирования звука без потерь, с потерями и без сжатия

A Формат кодирования без потерь уменьшает общий объем данных, необходимых для представления звука, но может быть декодирован до исходного, несжатая форма. Формат кодирования звука с потерями дополнительно снижает битовое разрешение звука помимо сжатия, что приводит к гораздо меньшему объему данных за счет безвозвратной потери информации.

Потребительский звук чаще всего сжимается с использованием аудиокодеков с потерями, поскольку меньший размер гораздо удобнее для распространения. Наиболее широко используемыми форматами кодирования звука являются MP3 и Advanced Audio Coding (AAC), оба из которых являются форматами с потерями, основанными на модифицированном дискретном косинусном преобразовании (MDCT). и алгоритмы перцептивного кодирования.

Форматы кодирования звука без потерь, такие как FLAC и Apple Lossless, иногда доступны, хотя и за счет более крупных файлов.

Несжатые аудиоформаты, такие как импульсно-кодовая модуляция (PCM или.wav), также иногда используются. PCM был стандартным форматом для Compact Disc Digital Audio (CDDA) до того, как сжатие с потерями в конечном итоге стало стандартом после появления MP3.

История

Solidyne 922: первая в мире коммерческая звуковая карта с битовым сжатием звуковая карта для ПК, 1990

В 1950 году Bell Labs подала патент на дифференциальная импульсно-кодовая модуляция (DPCM). Adaptive DPCM (ADPCM) была представлена П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаган в Bell Labs в 1973 году.

Перцепционное кодирование впервые было использовано для кодирования речи сжатия с кодированием с линейным предсказанием (LPC). Первоначальные концепции LPC восходят к работе Фумитада Итакура (Университет Нагоя ) и Сюдзо Сайто (Nippon Telegraph and Telephone ) в 1966 году. В течение 1970-х гг. Бишну С. Атал и Манфред Р. Шредер в Bell Labs разработали форму LPC, названную адаптивным предсказательным кодированием (APC), алгоритм перцепционного кодирования, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х последовал алгоритм линейного предсказания с кодовым возбуждением (CELP), который достиг значительной степени сжатия для своего времени. Перцепционное кодирование используется современными форматами сжатия звука, такими как MP3 и AAC.

Дискретное косинусное преобразование (DCT), разработанное Насиром Ахмедом, Т. Натараджаном. и К. Р. Рао в 1974 г. заложил основу для модифицированного дискретного косинусного преобразования (MDCT), используемого современными форматами сжатия звука, такими как MP3 и AAC. MDCT был предложен JP Princen, AW Johnson и AB Bradley в 1987 году после более ранней работы Princen и Bradley в 1986 году. MDCT используется в современных форматах сжатия звука, таких как Dolby Digital, MP3 и Advanced Audio Coding (AAC).

Список форматов с потерями

General

Базовый алгоритм сжатия	Стандарт кодирования звука	Аббревиатура	Введение	Доля рынка (2019)
Модифицированное дискретное косинусное преобразование (MDCT)	Dolby Digital ( AC-3)	AC3	1991	58%
	Акустическое кодирование с адаптивным преобразованием	ATRAC	1992	Неизвестно
	MPEG Layer III	MP3	1993	49%
	Advanced Audio Coding (MPEG-2 / MPEG -4 )	AAC	1997	88%
	Windows Media Audio	WMA	1999	Неизвестно
	Ogg Vorbis	Ogg	2000	7%
	Преобразование с перекрытием ограниченной энергии	CELT	201 1	Н / Д
	Opus	Opus	2012	8%
	LDAC	LDAC	2015	Неизвестно
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM)	aptX / aptX-HD	aptX	1989	Неизвестно
	Цифровая Theater Systems	DTS	1990	14%
	Master Quality Authenticated	MQA	2014	Unknown
Sub- полосовое кодирование (SBC)	MPEG-1 Audio Layer II	MP2	1993	Неизвестно
Sub- полосовое кодирование (SBC)	Musepack	MPC	1997	Неизвестно

Речь

Кодирование с линейным предсказанием (LPC)
- Кодирование с адаптивным предсказанием (APC)
- Линейное предсказание с кодовым возбуждением (CELP)
- Алгебраическое линейное предсказание с кодовым возбуждением предсказание (ACELP)
- Расслабленное линейное предсказание с кодовым возбуждением (RCELP)
- CELP с малой задержкой (LD-CELP)
- Adaptive Multi-Rate (используется в GSM и 3GPP )
- Codec2 (отмечен отсутствием патентных ограничений)
- Speex (отмечен отсутствием патентных ограничений)
Модифицированный дискретный косинус transform (MDCT)
- AAC-LD
- Преобразование с перекрытием по энергии (CELT)
- Opus (в основном для приложений реального времени)

Список форматов без потерь

Apple Lossless (ALAC - Apple Lossless Audio Codec)
Акустическое кодирование с адаптивным преобразованием (ATRAC)
Кодирование без потерь звука (также известное как MPEG-4 ALS)
Прямой поток Передача (DST)
Dolby TrueHD
DTS-HD Master Audio
Free Lossless Audio Codec (FLAC)
Дискретное косинусное преобразование без потерь (LDCT)
Меридиан Упаковка без потерь (MLP)
Monkey's Audio (Monkey's Audio APE)
MPEG-4 SLS (также известный как HD-AAC)
OptimFROG
Исходное качество звука (OSQ)
RealPlayer (RealAudio Lossless)
Сократить (SHN)
TTA (True Audio Lossless)
WavPack (WavPack lossless)
WMA Lossless (Windows Media Lossless)

См. Также

Re ferences

^Термин «кодирование звука» можно увидеть, например, в имя Advanced Audio Coding и аналогично термину video coding
^«Видео - где информация о синхронизации хранится в контейнерных форматах?».
^Патент США 2605361, C Чапин Катлер, "Дифференциальное квантование сигналов связи", издано 1952-07-29
^P. Каммиски, Никил С. Джаянт и Дж. Л. Фланаган, "Адаптивное квантование в дифференциальном кодировании речи с ИКМ", Bell Syst. Tech. J., т. 52, pp. 1105–1118, сентябрь 1973 г.
^Cummiskey, P.; Джаянт, Никил С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном кодировании речи с ИКМ». Технический журнал Bell System. 52 (7): 1105–1118. doi : 10.1002 / j.1538-7305.1973.tb02007.x. ISSN 0005-8580.
^ Шредер, Манфред Р. (2014). "Белл Лабораториз". Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера. Springer. п. 388. ISBN 9783319056609.
^Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного прогнозирующего кодирования и Интернет-протокол» (PDF). Найденный. Тенденции сигнального процесса. 3 (4): 203–303. doi : 10.1561 / 2000000036. ISSN 1932-8346.
^Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF). Транзакции IEEE на компьютерах. C-23 (1): 90–93. doi : 10.1109 / T-C.1974.223784.
^ Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF). Университет Юты. Проверено 14 июля 2019 г.
^J. П. Принсен, А. В. Джонсон и А. Б. Брэдли: Кодирование поддиапазонов / преобразований с использованием схем набора фильтров, основанных на подавлении наложения спектров во временной области, IEEE Proc. Intl. Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2161–2164, 1987.
^Джон П. Принсен, Алан Б. Брэдли: Дизайн банка фильтров анализа / синтеза на основе подавления наложения спектров во временной области, IEEE Trans. Акуст. Обработка речевых сигналов, ASSP-34 (5), 1153–1161, 1986.
^ Луо, Фа-Лонг (2008). Стандарты мобильного мультимедийного вещания: технология и практика. Springer Science Business Media. п. 590. ISBN 9780387782638.
^Британак В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка. 19 (5): 1231–1241. doi : 10.1109 / TASL.2010.2087755.
^ Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF). Архивировано (PDF) из оригинала 13 февраля 2017 г.
^«Отчет разработчика видео за 2019 г.» (PDF). Битмовин. 2019. Дата обращения 5 ноября 2019.
^Британак, В. (2011). «О свойствах, взаимосвязях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка. 19 (5): 1231–1241. doi : 10.1109 / TASL.2010.2087755.
^Станкович, Радомир С.; Астола, Яакко Т. (2012). «Воспоминания о ранних работах в DCT: Интервью с К.Р. Рао» (PDF). Отпечатки с первых дней информационных наук. 60 . Проверено 13 октября 2019 г.
^Фонд Xiph.Org (2009-06-02). «Спецификация Vorbis I - 1.1.2 Классификация». Фонд Xiph.Org. Проверено 22 сентября 2009 г.
^Презентация кодека CELT Тимоти Б. Террибери (65 минут видео, см. Также слайды презентации в PDF)
^Валин, Жан-Марк ; Максвелл, Грегори; Террибери, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus. 135-я Конвенция AES. Общество звукорежиссеров. arXiv : 1602.04845.
^Дарко, Джон Х. (29.03.2017). «Неудобная правда о Bluetooth-аудио». ДАР__КО. Архивировано из оригинала 14 января 2018 года. Проверено 13 января 2018.
^Ford, Jez (24 августа 2015). «Что такое Sony LDAC и как он это делает?». AVHub. Проверено 13 января 2018.
^Ford, Jez (22 ноября 2016). «aptX HD - без потерь или с потерями?». AVHub. Проверено 13 января 2018.
^«Аудио форматы систем цифрового театра». Библиотека Конгресса. 27 декабря 2011 г. Дата обращения 10 ноября 2019 г.
^Spanias, Andreas; Художник, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов. Джон Уайли и сыновья. п. 338. ISBN 9780470041963.