Компьютерное прослушивание (CA) или машинное прослушивание является общей областью изучения алгоритмов и системы для машинного понимания звука. Поскольку понятие «слышать» для машины очень широко и несколько расплывчато, компьютерное прослушивание пытается объединить несколько дисциплин, которые изначально имели дело с конкретными проблемами или имели конкретное применение. Инженер Пэрис Смарагдис, проинтервьюированный в Technology Review, говорит об этих системах - «программном обеспечении, которое использует звук для определения местоположения людей, движущихся по комнатам, отслеживания машин на предмет надвигающихся поломок или активации дорожных камер для записи аварий» <. 44>
Вдохновленный моделями человеческого слуха, CA занимается вопросами репрезентации, трансдукции, группировки, использования музыкальных знаний и общей звуковой семантики для цель выполнения компьютером интеллектуальных операций со звуковыми и музыкальными сигналами. Технически это требует комбинации методов из областей обработки сигналов, восприятия музыки и познания, распознавания образов и машинного обучения, а также более традиционные методы искусственного интеллекта для представления музыкальных знаний.
Как компьютер зрение по сравнению с обработкой изображений, компьютерное прослушивание по сравнению с аудиотехникой имеет дело с пониманием звука, а не с обработкой. Он также отличается от задач понимания речи машиной, поскольку имеет дело с общими звуковыми сигналами, такими как естественные звуки и музыкальные записи.
Приложения компьютерного прослушивания широко разнообразны и включают поиск звуков, распознавание жанра, транскрипцию музыки, отслеживание партитуры, музыкальная импровизация, эмоции в звуке и тд.
Компьютерное прослушивание пересекается со следующими дисциплинами:
Поскольку звуковые сигналы интерпретируются системой ухо-мозг человека, этот сложный механизм восприятия следует каким-то образом моделировать в программном обеспечении для "машинного прослушивания". Другими словами, чтобы работать наравне с людьми, компьютер должен слышать и понимать аудиоконтент так же, как люди. Точный анализ звука включает несколько областей: электротехника (анализ спектра, фильтрация и преобразование звука); искусственный интеллект (машинное обучение и звуковая классификация); психоакустика (звуковосприятие); когнитивные науки (нейробиология и искусственный интеллект); акустика (физика звукоизвлечения); и музыка (гармония, ритм и тембр). Кроме того, преобразования звука, такие как смещение высоты тона, растяжение по времени и фильтрация звуковых объектов, должны быть значимыми с точки зрения восприятия и музыки. Для достижения наилучших результатов эти преобразования требуют перцептивного понимания спектральных моделей, выделения высокоуровневых функций и анализа / синтеза звука. Наконец, структурирование и кодирование содержимого аудиофайла (звука и метаданных) может выиграть от эффективных схем сжатия, которые отбрасывают неслышную информацию в звуке. Вычислительные модели музыки и восприятия и познания звука могут привести к более значимому представлению, более интуитивному цифровому манипулированию и генерации звука и музыки в музыкальных человеко-машинных интерфейсах.
Исследование CA можно условно разделить на следующие подзадачи:
Компьютерное прослушивание имеет дело со звуковыми сигналами, которые могут быть представлены различными способами, от прямого кодирования цифрового звука в двух или более каналах до символьно представленных инструкций синтеза. Аудиосигналы обычно представлены в виде аналоговых или цифровых записей. Цифровые записи представляют собой образцы формы акустической волны или параметров алгоритмов сжатия звука. Одним из уникальных свойств музыкальных сигналов является то, что они часто сочетают в себе различные типы представлений, такие как графические партитуры и последовательности действий при исполнении, которые кодируются как файлы MIDI.
Поскольку аудиосигналы обычно содержат несколько источников звука, то, в отличие от речевых сигналов, которые можно эффективно описать в терминах конкретных моделей (таких как модель источника-фильтра), трудно разработать параметрическую представление для общего звука. Параметрические представления звука обычно используют банки фильтров или синусоидальные модели для захвата нескольких звуковых параметров, иногда увеличивая размер представления, чтобы уловить внутреннюю структуру сигнала. Дополнительные типы данных, относящиеся к компьютерному прослушиванию, - это текстовые описания аудиоконтента, такие как аннотации, обзоры и визуальная информация в случае аудиовизуальных записей.
Описание содержимого общих аудиосигналов обычно требует извлечения функций, которые фиксируют определенные аспекты аудиосигнала. Вообще говоря, можно разделить признаки на сигналы или математические дескрипторы, такие как энергия, описание формы спектра и т. Д., Статистические характеристики, такие как обнаружение изменений или новизны, специальные представления, которые лучше приспособлены к природе музыкальных сигналов или слуховой системе, например, логарифмический рост чувствительности (ширина полосы ) по частоте или октавная инвариантность (цветность).
Поскольку параметрические модели в звуке обычно требуют очень многих параметров, функции используются для обобщения свойств нескольких параметров в более компактном или заметном представлении.
Обнаружение определенных музыкальных структур возможно с использованием музыкальных знаний, а также контролируемых и неконтролируемых методов машинного обучения. Примеры этого включают обнаружение тональности в соответствии с распределением частот, которое соответствует образцам появления нот в музыкальных гаммах, распределение времени начала нот для обнаружения структуры ударов, распределение энергии на разных частотах для обнаружения музыкальных аккордов и так далее.
Сравнение звуков может быть выполнено путем сравнения характеристик с привязкой ко времени или без нее. В некоторых случаях общее сходство можно оценить по близким значениям характеристик между двумя звуками. В других случаях, когда важна временная структура, необходимо применять методы динамической деформации времени, чтобы «исправить» различные временные масштабы акустических событий. Поиск повторов и подобных подпоследовательностей звуковых событий важен для таких задач, как синтез текстур и машинная импровизация.
Поскольку одной из основных характеристик обычного звука является то, что он состоит из нескольких одновременно звучащих источников, таких как несколько музыкальных инструментов, говорящих людей, машинных шумов или вокализации животных, способность очень желательно выявить и отделить отдельные источники. К сожалению, не существует методов, которые могли бы решить эту проблему надежным способом. Существующие методы разделения источников иногда полагаются на корреляцию между различными аудиоканалами в многоканальных записях. Способность отделять источники от стереосигналов требует других методов, чем те, которые обычно применяются в связи, где доступно несколько датчиков. Другие методы разделения источников основаны на обучении или кластеризации функций в моно записи, например, отслеживании гармонически связанных частей для обнаружения множественного тона.
Прослушивание музыки и обычных звуков обычно не является целенаправленной деятельностью. Людям нравится музыка по разным непонятным причинам, которые обычно называют эмоциональным воздействием музыки из-за создания ожиданий и их реализации или нарушения. Животные обращают внимание на признаки опасности в звуках, которые могут быть как частными, так и общими представлениями об удивительных и неожиданных изменениях. Как правило, это создает ситуацию, когда компьютерное прослушивание не может полагаться исключительно на обнаружение определенных характеристик или звуковых свойств и должно предлагать общие методы адаптации к изменяющейся слуховой среде и мониторинга ее структуры. Он состоит из анализа более крупных повторений и самоподобных структур в аудио для обнаружения нововведений, а также способности предсказывать динамику локальных характеристик.
Среди доступных данных для описания музыки есть текстовые представления, такие как заметки, обзоры и критические замечания, которые описывают аудиосодержание словами. В других случаях человеческие реакции, такие как эмоциональные суждения или психофизиологические измерения, могут дать представление о содержании и структуре звука. Computer Audition пытается найти связь между этими различными представлениями, чтобы обеспечить это дополнительное понимание звукового содержания.