Растяжение по времени и масштабирование звука

редактировать

Растяжение по времени - это процесс изменения скорости или длительности аудиосигнала, не влияя на его высоту. Масштабирование высоты тона противоположное: процесс изменения высоты звука без влияния на скорость. Pitch shift - это масштабирование высоты тона, реализованное в блоке эффектов и предназначенное для живого исполнения. Управление высотой звука - это более простой процесс, который одновременно влияет на высоту звука и скорость, замедляя или ускоряя запись.

Эти процессы часто используются для согласования высоты тона и темпа двух предварительно записанных клипов для микширования, когда клипы не могут быть воспроизведены повторно или повторно дискретизированы. Растяжение времени часто используется для настройки рекламы на радио и звука телевизионной рекламы так, чтобы она точно соответствовала имеющимся 30 или 60 секундам. Его можно использовать для согласования более длинного материала с определенным временным интервалом, например, для 1-часовой трансляции.

Содержание

  • 1 Передискретизация
  • 2 Частотная область
    • 2.1 Фазовый вокодер
    • 2.2 Синусоидальное спектральное моделирование
  • 3 Временная область
    • 3.1 SOLA
    • 3.2 Подход на основе кадров
  • 4 Скорость слуха и скорость речи
  • 5 Масштабирование звука
  • 6 См. Также
  • 7 Ссылки
  • 8 Внешние ссылки

Передискретизация

Самый простой способ изменить продолжительность или высоту тона цифровое аудио клип проходит через преобразование частоты дискретизации. Это математическая операция, которая эффективно восстанавливает непрерывный сигнал из его выборок, а затем снова производит выборку этого сигнала с другой скоростью. Когда новые образцы воспроизводятся с исходной частотой дискретизации, аудиоклип звучит быстрее или медленнее. К сожалению, частоты в сэмпле всегда масштабируются с той же скоростью, что и скорость, транспонируя воспринимаемую высоту тона вверх или вниз в процессе. Другими словами, замедление записи снижает высоту звука, а увеличение скорости - повышает высоту звука. Это аналогично ускорению или замедлению аналоговой записи, например, фонографической записи или ленты, создавая эффект бурундука. Используя этот метод, нельзя разделить два эффекта. Драм-трек, не содержащий звуковых инструментов, может быть преобразован в темп с умеренной частотой дискретизации без отрицательных эффектов, а дорожка с тональной настройкой - нет.

Частотная область

Фазовый вокодер

Одним из способов увеличения длины сигнала без влияния на высоту тона является создание фазового вокодера после Фланагана, Голден и Портнофф.

Основные шаги:

  1. вычислить мгновенную зависимость частоты / амплитуды сигнала с помощью STFT, который представляет собой дискретное преобразование Фурье короткого перекрывающегося и блок выборок с плавным оконным разделением;
  2. применяет некоторую обработку к модулям и фазам преобразования Фурье (например, повторная выборка блоков FFT); и
  3. выполняют обратный STFT, выполняя обратное преобразование Фурье для каждого фрагмента и добавляя полученные фрагменты сигнала, также называемые перекрытием и сложением (OLA).

Фазовый вокодер обрабатывает синусоиду компоненты хорошо, но ранние реализации представили значительное размытие на переходных ("биение") волновых формах при всех нецелочисленных скоростях сжатия / расширения, что делает результаты фазовыми и размытыми. Недавние улучшения позволяют получить более качественные результаты при всех степенях сжатия / расширения, но эффект остаточного смазывания все еще сохраняется.

Техника фазового вокодера также может использоваться для выполнения сдвига высоты тона, хоруса, манипуляции тембром, гармонизации и других необычных модификаций, все из которых могут быть изменены в зависимости от времени.

Система синусоидального анализа / синтеза (на основе McAulay Quatieri 1988, стр. 161)

Синусоидальное спектральное моделирование

Другой метод растяжения во времени основан на спектральном модель сигнала. В этом методе пики идентифицируются в кадрах с использованием STFT сигнала, а синусоидальные «дорожки» создаются путем соединения пиков в соседних кадрах. Затем треки повторно синтезируются в новом масштабе времени. Этот метод может дать хорошие результаты как для полифонического, так и для ударного материала, особенно когда сигнал разделен на поддиапазоны. Однако этот метод требует больше вычислений, чем другие методы.

Моделирование монофонического звука как наблюдение вдоль спирали функции с цилиндрической областью

Временная область

SOLA

Rabiner и Шафер в 1978 году предложили альтернативное решение, которое работает во временной области : попытаться найти период (или эквивалентно основную частоту ) данного участка. волны с использованием некоторого алгоритма обнаружения основного тона (обычно пика сигнала автокорреляции, или иногда кепстральной обработки) и кроссфейда одного период в другой.

Это называется гармоническим масштабированием во временной области или методом синхронизированного сложения с перекрытием (SOLA) и работает несколько быстрее, чем фазовый вокодер на более медленных машинах, но не работает, когда автокорреляция неверно оценивает период сигнала со сложными гармониками (например, оркестровые пьесы).

Adobe Audition (ранее Cool Edit Pro), похоже, решает эту проблему, ища период, ближайший к центральному периоду, указанному пользователем, который должен быть целым числом, кратным темпу, и находиться в диапазоне 30 Гц. и самая низкая частота низких частот.

Это гораздо более ограничено по объему, чем обработка на основе фазового вокодера, но может быть сделано гораздо менее интенсивно для процессора для приложений реального времени. Он обеспечивает наиболее согласованные результаты для однотонных звуков, таких как голос или музыкально-монофонические записи инструментов.

Высококачественные коммерческие пакеты обработки звука либо объединяют эти два метода (например, разделяя сигнал на синусоидальную и переходную формы волны), либо используют другие методы, основанные на преобразовании вейвлет, либо искусственном обработка нейронной сети, обеспечивающая максимально качественное растяжение времени.

Подход на основе кадра

Подход на основе кадра многих процедур TSM

Чтобы сохранить высоту звука звукового сигнала при растяжении или сжатии его длительности, многие процедуры модификации шкалы времени (TSM) следуют фреймовый подход. Учитывая исходный аудиосигнал с дискретным временем, первым шагом этой стратегии является разделение сигнала на короткие кадры анализа фиксированной длины. Кадры анализа разделены фиксированным числом образцов, называемым размером скачка анализа H a ∈ N {\ displaystyle H_ {a} \ in \ mathbb {N}}{\ displaystyle H_ {a} \ in \ mathbb {N}} . Для достижения фактического изменения шкалы времени кадры анализа затем перемещаются во времени, чтобы иметь размер скачкообразного изменения синтеза H s ∈ N {\ displaystyle H_ {s} \ in \ mathbb {N}}{\ displaystyle H_ {s} \ in \ mathbb {N}} . Такое перемещение кадра приводит к изменению длительности сигнала на коэффициент растяжения α = H s / H a {\ displaystyle \ alpha = H_ {s} / H_ {a}}{\ displaystyle \ alpha = H_ {s} / H_ {a}} . Однако простое наложение немодифицированных кадров анализа обычно приводит к нежелательным артефактам, таким как скачки фазы или флуктуации амплитуды. Чтобы предотвратить такие виды артефактов, кадры анализа адаптированы для формирования кадров синтеза до реконструкции выходного сигнала с измененной шкалой времени.

Стратегия получения кадров синтеза из кадров анализа является ключевым отличием между различными процедурами TSM.

Скоростной слух и скоростная речь

Для конкретного случая речи растяжение по времени можно выполнить с помощью PSOLA.

, хотя можно было ожидать, что ускорение уменьшит понимание, говорит Херб Фридман. что «Эксперименты показали, что мозг работает наиболее эффективно, если скорость передачи информации через уши - посредством речи - равна« средней »скорости чтения, которая составляет около 200–300 слов в минуту (слов в минуту), но средняя скорость речи составляет в районе 100–150 слов в минуту. "

Ускорение звука рассматривается как эквивалент считывания скорости.

Масштабирование высоты звука

Смещение высоты звука (Масштабирование частоты ) предоставляется на Eventide Harmonizer Сдвиг частоты, предоставляемый Bode Frequency Shifter не сохраняет соотношение частот и гармонию.

Эти методы могут также может использоваться для транспонирования аудиосэмпла, сохраняя постоянную скорость или длительность. Это может быть выполнено растягиванием по времени и затем повторной дискретизацией до исходной длины. В качестве альтернативы, частота синусоид в синусоидальной модели может быть изменена напрямую, а сигнал восстановлен в соответствующем масштабе времени.

Транспонирование может называться частотным масштабированием или сдвигом высоты тона, в зависимости от перспективы.

Например, можно увеличить высоту звука каждой ноты на одну квинту, сохраняя темп неизменным. Эту транспозицию можно рассматривать как «смещение высоты тона», «сдвиг» каждой ноты вверх на 7 клавиш на клавиатуре фортепиано, или добавление фиксированной величины по шкале Mel, или добавление фиксированной величины в линейной пробел. Можно рассматривать такое же транспонирование, как «масштабирование частоты», «масштабирование» (умножение) частоты каждой ноты на 3/2.

Музыкальное транспонирование сохраняет отношения гармонических частот, которые определяют тембр звука, в отличие от сдвига частоты, выполняемого амплитудной модуляцией, которая добавляет фиксированный сдвиг частоты к частоте каждой ноты. (Теоретически можно было бы выполнить буквальное масштабирование высоты тона, при котором масштабируется местоположение музыкального пространства основного тона [более высокая нота будет смещена с большим интервалом в линейном пространстве основного тона, чем более низкая нота], но это очень необычно и не музыкально).

Обработка во временной области работает здесь намного лучше, так как размытие менее заметно, но масштабирование вокальных сэмплов искажает форманты в своего рода эффект Элвина и бурундуков., что может быть желательно или нежелательно. Процесс, который сохраняет форманты и характер голоса, включает анализ сигнала с помощью канального вокодера или LPC вокодера плюс любой из нескольких алгоритмов определения высоты тона с последующим повторным синтезом это на другой основной частоте.

Подробное описание старых аналоговых методов записи для сдвига высоты звука можно найти в записи Элвин и бурундуки.

См. Также

другие

Ссылки

  1. ^https://web.archive.org/ web / 20080527184101 / http: //www.tvtechnology.com/features/audio_notes/f_audionotes.shtml
  2. ^http://www.atarimagazines.com/creative/v9n7/122_Variable_speech.php
  3. ^Джонт Б. Аллен (июнь 1977). «Кратковременный спектральный анализ, синтез и модификация с помощью дискретного преобразования Фурье». Транзакции IEEE по акустике, речи и обработке сигналов. ASSP-25 (3): 235–238.
  4. ^McAulay, R.J.; Quatieri, TF (1988), «Обработка речи на основе синусоидальной модели» (PDF), The Lincoln Laboratory Journal, 1 (2): 153– 167, заархивировано из оригинала (PDF) 21 мая 2012 г., извлечено 07 сентября 2014 г.
  5. ^Дэвид Малах (апрель 1979 г.). «Алгоритмы временной области для уменьшения ширины полосы гармоник и временного масштабирования речевых сигналов». Транзакции IEEE по акустике, речи и обработке сигналов. ASSP-27 (2): 121–133.
  6. ^Джонатан Дридгер и Мейнард Мюллер (2016). «Обзор модификации музыкальных сигналов по шкале времени». Прикладные науки. 6 (2): 57. doi : 10.3390 / app6020057.
  7. ^Variable Speech, Creative Computing Vol. 9, No. 7 / июль 1983 г. / стр. 122
  8. ^http://www.nevsblog.com/2006/06/23/listen-to-podcasts-in-half-the-time/
  9. ^https://web.archive.org/web/20060902102443 /http://cid.lib.byu.edu/?p=128

Внешние ссылки

Последняя правка сделана 2021-06-12 17:11:30
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте