Кодирование звука формат (или иногда формат сжатия звука ) - это формат представления контента для хранения или передачи цифрового звука (например, в цифровом телевидении, цифровое радио и в аудио- и видеофайлах). Примеры форматов кодирования аудио включают MP3, AAC, Vorbis, FLAC и Opus. Конкретная программная или аппаратная реализация, способная выполнять сжатие звука и декомпрессию в / из определенного формата кодирования звука, называется аудиокодеком ; Примером аудиокодека является LAME, который является одним из нескольких различных кодеков, которые реализуют кодирование и декодирование звука в формате кодирования звука MP3 в программном обеспечении.
Некоторые форматы кодирования аудио задокументированы подробным документом технической спецификации, известным как спецификация кодирования аудио . Некоторые такие спецификации написаны и утверждены организациями по стандартизации как технические стандарты и, таким образом, известны как стандарт кодирования звука . Термин «стандарт» также иногда используется для стандартов де-факто, а также для формальных стандартов.
Аудиоконтент, закодированный в конкретном формате аудиокодирования, обычно инкапсулируется в контейнерный формат . Таким образом, пользователь обычно не имеет необработанного файла AAC, но вместо этого имеет аудиофайл.m4a , который является MPEG-4 Part 14 контейнер, содержащий аудио в кодировке AAC. Контейнер также содержит метаданные, такие как заголовок и другие теги, и, возможно, индекс для быстрого поиска. Заметным исключением являются файлы MP3, которые являются необработанными аудиофайлами без формата контейнера. Стандарты де-факто для добавления тегов метаданных, таких как название и исполнитель, в MP3, такие как ID3, - это хаки, которые работают, добавляя теги в MP3, а затем полагаясь на MP3-плеер. чтобы распознать фрагмент как искаженное звуковое кодирование и, следовательно, пропустить его. В видеофайлах со звуком закодированный аудиоконтент объединяется с видео (в формате кодирования видео ) внутри формата мультимедийного контейнера .
Формат кодирования звука не требует всех алгоритмов используется кодеком , реализующим формат. Согласно психоакустической модели, важной частью того, как работает сжатие звука с потерями, является удаление данных способами, которые люди не могут слышать; разработчик кодировщика имеет некоторую свободу выбора данных для удаления (в соответствии с их психоакустической моделью).
A Формат кодирования без потерь уменьшает общий объем данных, необходимых для представления звука, но может быть декодирован до исходного, несжатая форма. Формат кодирования звука с потерями дополнительно снижает битовое разрешение звука помимо сжатия, что приводит к гораздо меньшему объему данных за счет безвозвратной потери информации.
Потребительский звук чаще всего сжимается с использованием аудиокодеков с потерями, поскольку меньший размер гораздо удобнее для распространения. Наиболее широко используемыми форматами кодирования звука являются MP3 и Advanced Audio Coding (AAC), оба из которых являются форматами с потерями, основанными на модифицированном дискретном косинусном преобразовании (MDCT). и алгоритмы перцептивного кодирования.
Форматы кодирования звука без потерь, такие как FLAC и Apple Lossless, иногда доступны, хотя и за счет более крупных файлов.
Несжатые аудиоформаты, такие как импульсно-кодовая модуляция (PCM или.wav), также иногда используются. PCM был стандартным форматом для Compact Disc Digital Audio (CDDA) до того, как сжатие с потерями в конечном итоге стало стандартом после появления MP3.
В 1950 году Bell Labs подала патент на дифференциальная импульсно-кодовая модуляция (DPCM). Adaptive DPCM (ADPCM) была представлена П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаган в Bell Labs в 1973 году.
Перцепционное кодирование впервые было использовано для кодирования речи сжатия с кодированием с линейным предсказанием (LPC). Первоначальные концепции LPC восходят к работе Фумитада Итакура (Университет Нагоя ) и Сюдзо Сайто (Nippon Telegraph and Telephone ) в 1966 году. В течение 1970-х гг. Бишну С. Атал и Манфред Р. Шредер в Bell Labs разработали форму LPC, названную адаптивным предсказательным кодированием (APC), алгоритм перцепционного кодирования, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х последовал алгоритм линейного предсказания с кодовым возбуждением (CELP), который достиг значительной степени сжатия для своего времени. Перцепционное кодирование используется современными форматами сжатия звука, такими как MP3 и AAC.
Дискретное косинусное преобразование (DCT), разработанное Насиром Ахмедом, Т. Натараджаном. и К. Р. Рао в 1974 г. заложил основу для модифицированного дискретного косинусного преобразования (MDCT), используемого современными форматами сжатия звука, такими как MP3 и AAC. MDCT был предложен JP Princen, AW Johnson и AB Bradley в 1987 году после более ранней работы Princen и Bradley в 1986 году. MDCT используется в современных форматах сжатия звука, таких как Dolby Digital, MP3 и Advanced Audio Coding (AAC).
Базовый алгоритм сжатия | Стандарт кодирования звука | Аббревиатура | Введение | Доля рынка (2019) | Ссылка |
---|---|---|---|---|---|
Модифицированное дискретное косинусное преобразование (MDCT) | Dolby Digital ( AC-3) | AC3 | 1991 | 58% | |
Акустическое кодирование с адаптивным преобразованием | ATRAC | 1992 | Неизвестно | ||
MPEG Layer III | MP3 | 1993 | 49% | ||
Advanced Audio Coding (MPEG-2 / MPEG -4 ) | AAC | 1997 | 88% | ||
Windows Media Audio | WMA | 1999 | Неизвестно | ||
Ogg Vorbis | Ogg | 2000 | 7% | ||
Преобразование с перекрытием ограниченной энергии | CELT | 201 1 | Н / Д | ||
Opus | Opus | 2012 | 8% | ||
LDAC | LDAC | 2015 | Неизвестно | ||
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM) | aptX / aptX-HD | aptX | 1989 | Неизвестно | |
Цифровая Theater Systems | DTS | 1990 | 14% | ||
Master Quality Authenticated | MQA | 2014 | Unknown | ||
Sub- полосовое кодирование (SBC) | MPEG-1 Audio Layer II | MP2 | 1993 | Неизвестно | |
Musepack | MPC | 1997 |