Компьютерное прослушивание

редактировать

Компьютерное прослушивание (CA) или машинное прослушивание является общей областью изучения алгоритмов и системы для машинного понимания звука. Поскольку понятие «слышать» для машины очень широко и несколько расплывчато, компьютерное прослушивание пытается объединить несколько дисциплин, которые изначально имели дело с конкретными проблемами или имели конкретное применение. Инженер Пэрис Смарагдис, проинтервьюированный в Technology Review, говорит об этих системах - «программном обеспечении, которое использует звук для определения местоположения людей, движущихся по комнатам, отслеживания машин на предмет надвигающихся поломок или активации дорожных камер для записи аварий» <. 44>

Вдохновленный моделями человеческого слуха, CA занимается вопросами репрезентации, трансдукции, группировки, использования музыкальных знаний и общей звуковой семантики для цель выполнения компьютером интеллектуальных операций со звуковыми и музыкальными сигналами. Технически это требует комбинации методов из областей обработки сигналов, восприятия музыки и познания, распознавания образов и машинного обучения, а также более традиционные методы искусственного интеллекта для представления музыкальных знаний.

Содержание

1 Приложения
2 Связанные дисциплины
3 Области изучения
- 3.1 Проблемы представления
- 3.2 Характеристики
- 3.3 Музыкальные знания
- 3.4 Сходство звука и моделирование последовательности
- 3.5 Разделение источников
- 3.6 Слуховое познание
- 3.7 Мультимодальный анализ
4 См. Также
5 Внешние ссылки
6 Ссылки

Приложения

Как компьютер зрение по сравнению с обработкой изображений, компьютерное прослушивание по сравнению с аудиотехникой имеет дело с пониманием звука, а не с обработкой. Он также отличается от задач понимания речи машиной, поскольку имеет дело с общими звуковыми сигналами, такими как естественные звуки и музыкальные записи.

Приложения компьютерного прослушивания широко разнообразны и включают поиск звуков, распознавание жанра, транскрипцию музыки, отслеживание партитуры, музыкальная импровизация, эмоции в звуке и тд.

Связанные дисциплины

Компьютерное прослушивание пересекается со следующими дисциплинами:

Поиск музыкальной информации : методы поиска и анализа сходства между музыкальными сигналами.
Аудитория Анализ сцены: понимание и описание источников звука и событий.
Машинное прослушивание: методы извлечения звуковых значимых параметров из звуковых сигналов.
Вычислительное музыковедение и математическая теория музыки: использование алгоритмов, использующих музыкальные знания для анализа музыкальных данных.
Компьютерная музыка : использование компьютеров в творческих музыкальных приложениях.
Машинная музыка: интерактивные музыкальные системы, управляемые прослушиванием.

Области применения исследование

Поскольку звуковые сигналы интерпретируются системой ухо-мозг человека, этот сложный механизм восприятия следует каким-то образом моделировать в программном обеспечении для "машинного прослушивания". Другими словами, чтобы работать наравне с людьми, компьютер должен слышать и понимать аудиоконтент так же, как люди. Точный анализ звука включает несколько областей: электротехника (анализ спектра, фильтрация и преобразование звука); искусственный интеллект (машинное обучение и звуковая классификация); психоакустика (звуковосприятие); когнитивные науки (нейробиология и искусственный интеллект); акустика (физика звукоизвлечения); и музыка (гармония, ритм и тембр). Кроме того, преобразования звука, такие как смещение высоты тона, растяжение по времени и фильтрация звуковых объектов, должны быть значимыми с точки зрения восприятия и музыки. Для достижения наилучших результатов эти преобразования требуют перцептивного понимания спектральных моделей, выделения высокоуровневых функций и анализа / синтеза звука. Наконец, структурирование и кодирование содержимого аудиофайла (звука и метаданных) может выиграть от эффективных схем сжатия, которые отбрасывают неслышную информацию в звуке. Вычислительные модели музыки и восприятия и познания звука могут привести к более значимому представлению, более интуитивному цифровому манипулированию и генерации звука и музыки в музыкальных человеко-машинных интерфейсах.

Исследование CA можно условно разделить на следующие подзадачи:

Репрезентация: сигнальная и символическая. Этот аспект имеет дело с частотно-временными представлениями, как с точки зрения нот, так и с точки зрения спектральных моделей, включая воспроизведение паттернов и звуковую текстуру.
Извлечение признаков : звуковые дескрипторы, сегментация, начало, высота и обнаружение конверта, цветность и слуховые представления.
Структуры музыкального знания: анализ тональности, ритма и гармонии.
Подобие звука: методы сравнения звуков, идентификации звука, обнаружения новизны, сегментации и кластеризации.
Моделирование последовательности: сопоставление и согласование между сигналами и последовательностями нот.
Разделение источников: методы группировки одновременных звуков, такие как множественное определение высоты тона и методы частотно-временной кластеризации.
Слуховое познание: моделирование эмоций, ожидание и знакомство, слуховое удивление и анализ музыкальной структуры.
Мультимодальный анализ: поиск соответствий между текстовыми, визуальными и звуковыми сигналами.

R Проблемы представления

Компьютерное прослушивание имеет дело со звуковыми сигналами, которые могут быть представлены различными способами, от прямого кодирования цифрового звука в двух или более каналах до символьно представленных инструкций синтеза. Аудиосигналы обычно представлены в виде аналоговых или цифровых записей. Цифровые записи представляют собой образцы формы акустической волны или параметров алгоритмов сжатия звука. Одним из уникальных свойств музыкальных сигналов является то, что они часто сочетают в себе различные типы представлений, такие как графические партитуры и последовательности действий при исполнении, которые кодируются как файлы MIDI.

Поскольку аудиосигналы обычно содержат несколько источников звука, то, в отличие от речевых сигналов, которые можно эффективно описать в терминах конкретных моделей (таких как модель источника-фильтра), трудно разработать параметрическую представление для общего звука. Параметрические представления звука обычно используют банки фильтров или синусоидальные модели для захвата нескольких звуковых параметров, иногда увеличивая размер представления, чтобы уловить внутреннюю структуру сигнала. Дополнительные типы данных, относящиеся к компьютерному прослушиванию, - это текстовые описания аудиоконтента, такие как аннотации, обзоры и визуальная информация в случае аудиовизуальных записей.

Характеристики

Описание содержимого общих аудиосигналов обычно требует извлечения функций, которые фиксируют определенные аспекты аудиосигнала. Вообще говоря, можно разделить признаки на сигналы или математические дескрипторы, такие как энергия, описание формы спектра и т. Д., Статистические характеристики, такие как обнаружение изменений или новизны, специальные представления, которые лучше приспособлены к природе музыкальных сигналов или слуховой системе, например, логарифмический рост чувствительности (ширина полосы ) по частоте или октавная инвариантность (цветность).

Поскольку параметрические модели в звуке обычно требуют очень многих параметров, функции используются для обобщения свойств нескольких параметров в более компактном или заметном представлении.

Музыкальные знания

Обнаружение определенных музыкальных структур возможно с использованием музыкальных знаний, а также контролируемых и неконтролируемых методов машинного обучения. Примеры этого включают обнаружение тональности в соответствии с распределением частот, которое соответствует образцам появления нот в музыкальных гаммах, распределение времени начала нот для обнаружения структуры ударов, распределение энергии на разных частотах для обнаружения музыкальных аккордов и так далее.

Сходство звука и моделирование последовательности

Сравнение звуков может быть выполнено путем сравнения характеристик с привязкой ко времени или без нее. В некоторых случаях общее сходство можно оценить по близким значениям характеристик между двумя звуками. В других случаях, когда важна временная структура, необходимо применять методы динамической деформации времени, чтобы «исправить» различные временные масштабы акустических событий. Поиск повторов и подобных подпоследовательностей звуковых событий важен для таких задач, как синтез текстур и машинная импровизация.

Разделение источников

Поскольку одной из основных характеристик обычного звука является то, что он состоит из нескольких одновременно звучащих источников, таких как несколько музыкальных инструментов, говорящих людей, машинных шумов или вокализации животных, способность очень желательно выявить и отделить отдельные источники. К сожалению, не существует методов, которые могли бы решить эту проблему надежным способом. Существующие методы разделения источников иногда полагаются на корреляцию между различными аудиоканалами в многоканальных записях. Способность отделять источники от стереосигналов требует других методов, чем те, которые обычно применяются в связи, где доступно несколько датчиков. Другие методы разделения источников основаны на обучении или кластеризации функций в моно записи, например, отслеживании гармонически связанных частей для обнаружения множественного тона.

Слуховые познания

Прослушивание музыки и обычных звуков обычно не является целенаправленной деятельностью. Людям нравится музыка по разным непонятным причинам, которые обычно называют эмоциональным воздействием музыки из-за создания ожиданий и их реализации или нарушения. Животные обращают внимание на признаки опасности в звуках, которые могут быть как частными, так и общими представлениями об удивительных и неожиданных изменениях. Как правило, это создает ситуацию, когда компьютерное прослушивание не может полагаться исключительно на обнаружение определенных характеристик или звуковых свойств и должно предлагать общие методы адаптации к изменяющейся слуховой среде и мониторинга ее структуры. Он состоит из анализа более крупных повторений и самоподобных структур в аудио для обнаружения нововведений, а также способности предсказывать динамику локальных характеристик.

Мультимодальный анализ

Среди доступных данных для описания музыки есть текстовые представления, такие как заметки, обзоры и критические замечания, которые описывают аудиосодержание словами. В других случаях человеческие реакции, такие как эмоциональные суждения или психофизиологические измерения, могут дать представление о содержании и структуре звука. Computer Audition пытается найти связь между этими различными представлениями, чтобы обеспечить это дополнительное понимание звукового содержания.

См. Также

Внешние ссылки

Ссылки