Thesis
Clasificación multi-etiqueta de géneros musicales de spotify a partir de la separación del audio en fuentes musicales

Loading...
Thumbnail Image

Date

2022

Journal Title

Journal ISSN

Volume Title

Program

Ingeniería Civil Informática

Campus

Campus Santiago San Joaquín

Abstract

El problema de la clasificación automática de géneros musicales es un tópico que resulta relevante considerando el auge de los servicios de streaming musicales en los últimos años y las herramientas que estos pueden ofrecer, como los sistemas de recomendación. Esta investigación planea abordar este problema desde el enfoque multi-etiqueta, es decir, considerando los casos en los que múltiples géneros musicales se hagan presentes en una canción. Para abordar este desafío, se plantea usar un conjunto de canciones extraídas desde Spotify separando los archivos de audio en cuatro fuentes musicales: vocalizaciones, percusiones, bajos e instrumentalizaciones u otros. Se plantea también utilizar dos enfoques de redes neuronales convolucionales: un enfoque de modelo complejo o “clásico”, es decir, una sola red que identifique la presencia de varios géneros musicales; y un enfoque basado en committe machines o, en otras palabras, varias redes independientes las cuales cada una tendrá que detectar la presencia de un género musical en específico a partir de la canción. Los resultados demuestran que a medida que los géneros musicales se van ramificando en múltiples subgéneros estos son cada vez más difíciles de reconocer por parte de los modelos de aprendizaje, pues poseen características cada vez más vagas y menos definidas que los distinguen. En cuanto a los dos enfoques de modelos propuestos, el enfoque basado en committe machines logra un desempeño inferior al enfoque “clásico”, pues para entrenar cada red independiente de forma que logre buenos resultados se necesita un conjunto de datos específico que debe cumplir con dos requisitos difíciles de cumplir dada las condiciones presentadas durante esta investigación: poseer una cantidad grande de canciones y estar balanceado en cuanto a las etiquetas de las canciones.
The automatic music genre classification problem is an interesting topic which is relevant regarding the growing of music streaming services on the last years and the tools that those services can offer, like recommendation systems. This investigation aims to tackle this problem from the multi-tag approach, or in other words, considering the cases in which multiple music genres may appear in a song. To tackle this challenge, using a dataset of iv songs extracted from Spotify is proposed, separating the audio data in four music sources: vocals, drums, basses and instrumentalizations or others. Two convolutional neural network approaches are also proposed: a complex or “classic” model approach, in which only one neural network must identify the presence of various music genres in a song and a committee machines approach, in which multiple neural networks will have to predict from the input song the presence of a specific music genre assigned to each neural network. The results show that as music genres branch out into multiple subgenres, these subgenres are harder to identify by the learning models because they have more vague and harder to define features to distinguish them. Regarding the two proposed model approaches, the committee machines approach achieves lower performance than the “classic” approach because in order to achieve good results, each independent neural networks has to be trained using a dataset which satisfies two requirements that are hard to achieve in the conditions presented during this investigation: having a large number of songs and be balanced in terms of their songs tags.

Description

Keywords

Redes neuronales, Reconocimiento por patrones, Búsqueda por similitud

Citation