Content-based Music Access: Combining Audio Features and Semantic Information for Music Search Engines

Miotto, Riccardo

During the last decade, the Internet has reinvented the music industry. Physical media have evolved towards online products and services. As a consequence of this transition, online music corpora have reached a massive scale and are constantly being enriched with new documents. At the same time, a great quantity of cultural heritage content remains undisclosed because of the lack of metadata to describe and contextualize it. This has created a need for music retrieval and discovery technologies that allow users to interact with all these music repositories efficiently and effectively. Music Information Retrieval (MIR) is the research field that studies methods and tools for improving such interaction as well as access to music documents. Most of the research works in MIR focuses on content-based approaches, which exploit the analysis of the audio signal of a song to extract significant descriptors of the music content. These content descriptors may be processed and used in different application scenarios, such as retrieval, recommendation, dissemination, musicology analysis, and so on. The thesis explores novel automatic (content-based) methodologies for music retrieval which are based on semantic textual descriptors, acoustic similarity, and a combination of the two; we show empirically how the proposed approaches lead to efficient and competitive solutions with respect to other alternative state-of-the-art strategies. Part of the thesis focuses on music discovery systems, that is search engines where users do not look for a specific song or artist, but may have some general criteria they wish to satisfy. These criteria are commonly expressed in the form of tags, that is short phrases that capture relevant characteristics of the songs, such as genre, instrumentation, emotions, and so on. Because of the scale of current collections, manually assigning tags to songs is becoming an infeasible task; for this reason the automatic tagging of music content is now considered a core challenge in the design of fully functional music retrieval systems. State-of-the-art content-based systems for music annotation (which are usually called auto-taggers) model the acoustic patterns of the songs associated with each tag in a vocabulary through machine learning approaches. Based on these tag models, auto-taggers generate a vector of tag weights when annotating a new song. This vector may be interpreted as a semantic multinomial (SMN), that is a distribution characterizing the relevance of each tag to a song, which can be used for music annotation and retrieval. A first original contribution reported in the thesis aims at improving state-of-the-art auto-taggers by considering tag co-occurrences. While a listener may derive semantic associations for audio clips from direct auditory cues (e.g. hearing “bass guitar”) as well as from context (e.g. inferring “bass guitar” in the context of a “rock” song), auto-taggers ignore this context. Indeed, although contextual relationships correlate tags, many state-of-the-art auto-taggers model tags independently. We present a novel approach for improving automatic music annotation by modeling contextual relationships between tags. A Dirichlet mixture model (DMM) is proposed as a second, additional stage in the modeling process to supplement any auto-tagging system that generates a semantic multinomial over a vocabulary of tags. For each tag in the vocabulary, a DMM captures the broader context defined by the tag by modeling tag co-occurrence patterns in the SMNs of songs associated with the tag. When annotating songs, the DMMs refine SMN annotations by leveraging contextual evidence. Experimental results demonstrate the benefits of combining a variety of auto-taggers with this generative context model; it generally outperforms other approaches to context modeling as well. The use of tags alone allows for efficient and effective music retrieval mechanisms; however, automatic tagging strategies may lead to noisy representations that may negatively affect the effectiveness of retrieval algorithms. Yet, search and discovery operations across music collections can be also carried out matching users interests or exploiting acoustic similarity. One major issue in music information retrieval is how to combine such noisy and heterogeneous information sources in order to improve retrieval effectiveness. At this aim, the thesis explores a statistical retrieval framework based on combining tags and acoustic similarity through a hidden Markov model. The retrieval mechanism relies on an application of the Viterbi algorithm which highlights the sequence of songs that best represents a user query. The model is presented for improving state-of-the-art music search and discovery engines by delivering more relevant ranking lists. In fact, through an empirical evaluation we show how the proposed model leads to better performances than retrieval approaches which rank songs according to individual information sources alone or which use a combination of them. Additionally, the high generality of the framework makes it suitable for other media as well, such as images and videos. Besides music discovery, the thesis challenges also the problem of music identification, the goal which is to match different recordings of the same songs (i.e. finding covers of a given query). At this aim we present two novel music descriptors based on the harmonic content of the audio signals. Their main purpose is to provide a compact representation which is likely to be shared by different performances of the same music score. At the same time, they also aim at reducing the storage requirements of the music representation as well as enabling efficient retrieval over large music corpora. The effectiveness of these two descriptors, combined in a single scalable system, has been tested for classical music identification, which is probably the applicative scenario that mostly needs automatic strategies for labeling unknown recordings. Scalability is guaranteed by an index-based pre-retrieval step which handles music features as textual words; in addition, precision in the identification is brought by alignment carried out through an application of hidden Markov models. Results with a collection of more than ten thousand recordings have been satisfying in terms of efficiency and effectiveness.

Nell’ultimo decennio l’avvento di Internet ha reinventato l’industria musicale, in particolare i supporti fisici si sono evoluti verso prodotti e servizi reperibili online. Questa transizione ha portato le collezioni musicali disponibili su Internet ad avere dimensioni enormi e in continua crescita, a causa del quotidiano inserimento di nuovo contenuto musicale. Allo stesso tempo, una buona parte dei documenti musicali tipici del patrimonio culturale rimane inaccessibile, a causa della mancanza di dati che li descrivano e li contestualizzino. Tutto ciò evidenzia la necessità di nuove tecnologie che permettano agli utenti di interagire con tutte queste collezioni musicali in modo effettivo ed efficiente. Il reperimento d’informazioni musicali (i.e. MIR) è il settore di ricerca che studia le tecniche e gli strumenti per migliorare sia questa interazione, sia l’accesso ai documenti musicali. La maggior parte della ricerca effettuata nel MIR riguarda tecniche automatiche basate sul contenuto (i.e. content-based), le quali analizzano il segnale audio di una canzone ed estraggono dei descrittori, che ne caratterizzano, appunto, il contenuto. Questi descrittori possono essere elaborati ed utilizzati in varie applicazioni: motori di ricerca, divulgazione, analisi musicologa e così via. La tesi presenta dei modelli originali content-based per motori di ricerca musicali di vario genere, che si basano, sia su descrittori semantici testuali e su similarità acustica, sia su una loro combinazione. Attraverso esperimenti pratici, dimostreremo come i modelli proposti ottengano prestazioni efficienti e competitive se confrontate con alcuni dei sistemi alternativi presenti nello stato dell’arte. Una buona parte della tesi si concentra sui sistemi di music discovery, ovvero motori di ricerca nei quali gli utenti non cercano una canzone o un’artista specifico, ma hanno perlopiù un criterio generale che vogliono soddisfare. Questi criteri di ricerca sono in genere espressi sottoforma di tag, ovvero annotazioni che caratterizzano gli aspetti rilevanti delle canzoni (e.g. genere, strumenti, emozioni). A causa delle dimensioni raggiunte ormai dalle varie collezioni, l’assegnazione manuale dei tag alle canzoni è però diventata un’operazione impraticabile. Per questa ragione, i modelli che assegnano i tag in modo automatico sono diventati dei punti chiave nella progettazione dei motori di ricerca musicale. I sistemi content-based per l’assegnazione automatica di tag (i.e. auto-tagger) generalmente si basano su approcci di machine learning, che modellano le caratteristiche audio delle canzoni associate ad un certo tag. Questi modelli sono poi utilizzati per annotare le nuove canzoni generando un vettore di pesi, uno per ogni tag nel vocabolario, che misurano la rilevanza che ogni tag ha per quella canzone (i.e. SMN). Un primo contributo originale della tesi ha l’obiettivo di migliorare lo stato dell’arte degli auto-tagger, modellando le co-occorrenze tra i tag. Infatti mentre una persona può associare tag a una canzone sia direttamente (e.g. ascolta lo strumento“basso”), sia dal contesto (e.g. intuisce“basso” sapendo che la canzone `e di genere “rock”), gli auto-tagger diversamente ignorano questo contesto. Infatti, nonostante le relazioni contestuali correlino i tag, la maggior parte degli auto-tagger modella ogni tag in modo indipendente. Il nostro sistema pertanto cerca di migliorare l’assegnazione automatica di tag, modellando le relazioni contestuali che occorrono tra i vari tag di un vocabolario. Per far questo utilizziamo un modello di misture di Dirichlet (DMM) al fine di migliorare qualsiasi auto-tagger che genera delle SMN. Per ogni tag nel vocabolario, una DMM è usata per catturare le co-occorrenze con gli altri tag nelle SMN delle canzoni associate con quel tag. Quando una nuova canzone è annotata, il DMM rifinisce le SMN prodotte da un auto-tagger sfruttando le sue caratteristiche contestuali. I risultati sperimentali dimostrano i benefici di combinare vari auto-tagger con le DMM; in aggiunta, i risultati migliorano rispetto anche a quelli ottenuti con modelli contestuali alternativi dello stato dell’arte. L’uso dei tag permette di costruire efficienti ed effettivi motori di ricerca musicali; tuttavia le strategie automatiche per l’assegnazione di tag a volte ottengono rappresentazioni non precise che possono influenzare negativamente le funzioni di reperimento. Al tempo stesso, le ricerca di documenti musicali può essere anche fatta confrontando gli interessi degli utenti o sfruttando le similarit`a acustiche tra le canzoni. Uno dei principali problemi aperti nel MIR è come combinare tutte queste diverse informazioni per migliorare le funzioni di ricerca. Ponendosi questo obiettivo, la tesi propone un modello di reperimento statistico basato sulla combinazione tra i tag e la similarità acustica mediante un modello di Markov nascosto. Il meccanismo di ricerca si basa su un’applicazione dell’algoritmo di Viterbi, il quale estrae dal modello la sequenza di canzoni che meglio rappresenta la query. L’obiettivo è di migliorare lo stato dell’arte dei sistemi di ricerca musicale e, in particolare, di music discovery fornendo all’utente liste di canzoni maggiormente rilevanti. Gli esperimenti infatti mostrano come il modello proposto risulta migliore sia di algoritmi che ordinano le canzoni utilizzando un’informazione sola, sia di quelli che le combinano in modo diverso. In aggiunta, l’alta generalità a del modello lo rende adatto anche ad altri settori multimediali, come le immagini e i video. In parallelo con i sistemi di music discovery, la tesi affronta anche il problema di identificazione musicale (i.e. music identification), il cui obiettivo è quello di associare tra loro diverse registrazioni audio che condividono lo stesso spartito musicale (i.e. trovare le versioni cover di una certa query). In funzione di questo, la tesi presenta due descrittori che si basano sulla progressione armonica della musica. Il loro scopo principale è quello di fornire una rappresentazione compatta del segnale audio che possa essere condivisa dalle canzoni aventi lo stesso spartito musicale. Al tempo stesso, mirano anche a ridurre lo spazio di memoria occupato e a permettere operazioni di ricerca efficienti anche in presenza di grandi collezioni. La validità dei due descrittori è stata verificata per l’identificazione di musica classica, ovvero lo scenario che maggiormente necessita di strategie automatiche per la gestione di registrazioni audio non catalogate. La scalabilità del sistema è garantita da una pre-ricerca basata su un indice che gestisce i descrittori musicali come fossero parole di un testo; in aggiunta, la precisione dell’identificazione è aumentata mediante un’operazione di allineamento eseguita utilizzando i modelli di Markov nascosti. I risultati sperimentali ottenuti con una collezione di più di diecimila registrazioni audio sono stati soddisfacenti sia da un punto di vista di efficienza sia di efficacia.

Content-based Music Access: Combining Audio Features and Semantic Information for Music Search Engines / Miotto, Riccardo. - (2011 Jan 27).