Поиск музыкальной информации ( MIR) - это междисциплинарная наука об извлечении информации из музыки. MIR - это небольшая, но развивающаяся область исследований с множеством реальных приложений. Те, кто занимается MIR, могут иметь опыт работы в области музыковедения, психоакустики, психологии, академического музыкального исследования, обработки сигналов, информатики, машинного обучения, оптического распознавания музыки, вычислительного интеллекта или некоторой их комбинации.
MIR используется предприятиями и учеными для классификации, манипулирования и даже создания музыки.
Одной из классических тем исследования MIR является классификация жанров, при которой музыкальные произведения делятся на один из заранее определенных жанров, таких как классика, джаз, рок и т. Д. Классификация настроения, классификация исполнителей и маркировка музыки также являются популярными темами.
Уже существует несколько рекомендательных систем для музыки, но, как ни странно, немногие из них основаны на методах MIR, вместо этого используют сходство между пользователями или трудоемкий сбор данных. Pandora, например, использует экспертов, чтобы пометить музыку определенными качествами, такими как «певица» или «сильный бас». Многие другие системы находят пользователей с похожей историей прослушивания и предлагают пользователям неслышную музыку из их соответствующих коллекций. Техники MIR для определения сходства в музыке теперь начинают составлять часть таких систем.
Разделение музыкального источника - это разделение исходных сигналов от смешанного аудиосигнала. Распознавание инструментов - это идентификация инструментов, задействованных в музыке. Были разработаны различные системы MIR, которые могут разделять музыку на составляющие треки без доступа к основной копии. Таким образом, например, треки караоке могут быть созданы из обычных музыкальных треков, хотя процесс еще не совершенен из-за того, что вокал занимает часть того же частотного пространства, что и другие инструменты.
Автоматическая транскрипция музыки - это процесс преобразования аудиозаписи в символьную нотацию, например партитуру или файл MIDI. Этот процесс включает в себя несколько задач аудиоанализа, которые могут включать в себя обнаружение многотона, обнаружение начала, оценку продолжительности, идентификацию инструмента и извлечение гармонической, ритмической или мелодической информации. Эта задача усложняется при большем количестве инструментов и большем уровне полифонии.
Автоматическая генерация музыки является целью проводится многими исследователями MIR. Были предприняты попытки с ограниченным успехом с точки зрения оценки результатов людьми.
Партитуры дают четкое и логичное описание музыки, над которой нужно работать, но доступ к нотам, цифровым или другим, часто бывает непрактичным. Музыка MIDI также использовалась по тем же причинам, но некоторые данные теряются при преобразовании в MIDI из любого другого формата, если музыка не была написана с учетом стандартов MIDI, что бывает редко. Цифровые аудиоформаты, такие как WAV, mp3 и ogg, используются, когда сам звук является частью анализа. Форматы с потерями, такие как mp3 и ogg, хорошо воспринимаются человеческим ухом, но могут не содержать важных данных для изучения. Кроме того, некоторые кодировки создают артефакты, которые могут ввести в заблуждение любой автоматический анализатор. Несмотря на это, повсеместное распространение mp3 означает, что многие исследования в этой области привлекают их в качестве исходного материала. Метаданные, добытые из Интернета, все чаще включаются в MIR для более всестороннего понимания музыки в ее культурном контексте, и в последнее время это состоит из анализа социальных тегов для музыки.
Для анализа часто может потребоваться некоторое обобщение, а для музыки (как и для многих других форм данных) это достигается путем извлечения признаков, особенно когда анализируется сам аудиоконтент и применяется машинное обучение. Цель состоит в том, чтобы уменьшить огромное количество данных до управляемого набора значений, чтобы обучение могло быть выполнено в разумные сроки. Одна из общих извлеченных черт - это коэффициент Mel-Frequency Cepstral Coefficient (MFCC), который является мерой тембра музыкального произведения. Другие функции могут использоваться для представления тональности, аккордов, гармоний, мелодии, основной высоты звука, ударов в минуту или ритма в пьесе. Существует ряд доступных инструментов для извлечения аудиофайлов, доступных здесь