Factorization models are a mathematical representation of multidimensional data objects as a collection of simpler components. For instance, a matrix can be characterized as a sum of latent rank one components. Factor models are commonly used across a variety of disciplines to deal with data sets whereby a large number of observed variables is thought to reflect a smaller number of latent variables. However, it can be challenging to infer the relative impact of the different components as well as the number of components. To address this issue, it has become popular to rely on over-fitted factorization models that avoid strict constraints on either the number of factors and the ordering of the data. In the Bayesian framework, increasing shrinkage priors on latent elements have been proposed, allowing the introduction of infinitely many factors, albeit with impact decreasing with the component index, such that the unnecessary ones can be adaptively removed by increasingly shrinking their coefficients close to zero as the component index increases. These flexible approaches are usually named infinite factorization models. This thesis aims to provide an overview on infinite factorization models, presenting the state of the art, discussing the limitations of the current models, and gradually composing a general Bayesian infinite factorization framework that includes novel methods to address such deficiencies. In particular, we consider the role of sparsity in the latent low-rank elements, as being crucial to improve the inference and facilitate interpretation. Firstly, we focus on the effect of the sparsity induced by the usual approximation of the infinite model through a truncated version to facilitate the posterior inference. In this regard, it is fundamental to carefully assess how the truncation criterion affects the inference performance and the factor model representation. We propose a novel truncation criterion that relates the level of truncation to the factor contribution to the global data variability, allowing one to easily calibrate the algorithm's parameters. Secondly, we careful investigate the role of local sparsity within the low-rank latent elements by introducing a new general class of infinite factorization models. In this framework, we provide theoretical support to verify desirable shrinkage properties of the prior. The main novelty of the proposed class of models lies on the dependence of the local sparse pattern of the latent elements on auxiliary information which is supposed to inform on the similarity among variables, that correspond to columns of the data matrix. This structure enables us to fill a key gap of the current infinite factor models that do not allow the accommodation for grouped variables and other non-exchangeable structures. We also propose extending this class to the more general class of matrix decomposition models. Symmetrically to the use of the exogenous information about variables, the matrix decomposition model also embeds auxiliary information about the row entities of the data matrix. A novel estimation algorithm inspired by boosting approaches is designed, overcoming the computational limits of the current Markov chain Monte Carlo approaches and the non-identifiability issue which characterizes all the over-fitted factorization models. Practical gains with respect to the current state of art are shown in simulation studies and discussed in real data applications, further illustrating benefits in terms of parameter estimations and model interpretation. Football player tracking data represent the common thread of the thesis. Thoughtful insights and representations are provided, sheding ligth on the potential of our approach. However, the generality of the proposed framework is expected to impact many other application fields.

I modelli fattoriali sono una rappresentazione matematica di dati multidimensionali tramite una collezione di oggetti più semplici. Per esempio, una matrice di dati può essere descritta da una somma di componenti latenti a rango uno. I modelli fattoriali vengono utilizzati frequentemente in varie discipline, quando si suppone che un insieme di variabili osservate sia esprimibile con meno variabili latenti. Ad ogni modo, può risultare molto difficile capire il numero e il peso delle diverse componenti latenti. Per rispondere a questo problema, si sta diffondendo l'utilizzo di modelli fattoriali sovra parametrizzati che evitano l'imposizione di vincoli sia sul numero di fattori che sull'ordinamento dei dati. Nel contesto bayesiano, si sono affermate delle distribuzioni a priori con compressione crescente che permettono di avere infiniti fattori, ma con impatto decrescente rispetto all'indice di componente, in modo tale che i fattori non necessari vengano rimossi comprimendone a zero i rispettivi coefficienti. Questi modelli flessibili sono generalmente identificati con il nome di modelli infinito fattoriali. Questa tesi si pone l'obbiettivo di fornire una panoramica sui modelli infinito fattoriali, presentandone lo stato dell'arte, discutendone i limiti e costruendo in modo incrementale una struttura generale per modelli bayesiani infinito fattoriali che includa nuovi metodi per sopperire a tali mancanze. In particolare, la tesi tratta il ruolo della sparsità negli elementi latenti di basso rango, in quanto cruciale per migliorare l'inferenza e facilitare l'interpretazione del modello. Inizialmente, focalizziamo la nostra attenzione sull'effetto della sparsità indotta dall'usuale approssimazione dei modelli a infiniti fattori dovuta a troncamento, effettuata per facilitare l'inferenza sulla distribuzione a posteriori. A tal proposito, è importante valutare come il criterio di troncamento influisca sulla capacità di inferenza e sulla rappresentazione del modello. Proponiamo quindi un nuovo criterio di troncamento che pone in relazione il livello a cui viene troncato il modello con il contributo dei fattori alla spiegazione della variabilità totale dei dati, permettendo così di calibrare più facilmente i parametri dell'algoritmo. In secondo luogo, analizziamo il ruolo della sparsità locale negli elementi latenti a basso rango introducendo una nuova classe generale di modelli a infinito fattori. In questo scenario, forniamo gli strumenti teorici per verificare delle proprietà di compressione della distribuzione a priori. La maggior novità della classe di modelli proposta risiede nella specificazione della struttura di sparsità degli elementi latenti come dipendente da informazione ausiliaria che informi circa la similarità tra le variabili, che corrispondono alle colonne della matrice di dati. Questa specificazione permette di rispondere ad uno dei punti aperti degli attuali modelli a infiniti fattori che non permettevano la possibilità di indurre gruppi o altre strutture tra variabili. Proponiamo anche di estendere questa classe alla più generale classe di modelli per decomposizione di matrici. In modo simmetrico rispetto a quanto fatto con l'informazione esogena sulle variabili, il modello per la decomposizione di matrici include informazione aggiuntiva riguardante anche le righe della matrice di dati. Si definisce un nuovo algoritmo di stima ispirato dai metodi boosting, superando i limiti computazionali dei metodi basati su catene di Markov Monte Carlo e il problema di non-identificabilità che caratterizza tutti i modelli fattoriali sovra-parametrizzati. I dati di tracciamento dei giocatori di calcio rappresentano il filo conduttore della tesi. Vengono fornite riflessioni approfondite che mettono in luce le potenzialità del nostro metodo. Ad ogni modo, è lecito aspettarsi che vi sia un impatto su molti altri campi di applicazione.

Metodi bayesiani infinito-fattoriali con applicazioni a dati di tracciamento nel calcio / Schiavon, Lorenzo. - (2022 May 11).

Metodi bayesiani infinito-fattoriali con applicazioni a dati di tracciamento nel calcio

SCHIAVON, LORENZO
2022

Abstract

Factorization models are a mathematical representation of multidimensional data objects as a collection of simpler components. For instance, a matrix can be characterized as a sum of latent rank one components. Factor models are commonly used across a variety of disciplines to deal with data sets whereby a large number of observed variables is thought to reflect a smaller number of latent variables. However, it can be challenging to infer the relative impact of the different components as well as the number of components. To address this issue, it has become popular to rely on over-fitted factorization models that avoid strict constraints on either the number of factors and the ordering of the data. In the Bayesian framework, increasing shrinkage priors on latent elements have been proposed, allowing the introduction of infinitely many factors, albeit with impact decreasing with the component index, such that the unnecessary ones can be adaptively removed by increasingly shrinking their coefficients close to zero as the component index increases. These flexible approaches are usually named infinite factorization models. This thesis aims to provide an overview on infinite factorization models, presenting the state of the art, discussing the limitations of the current models, and gradually composing a general Bayesian infinite factorization framework that includes novel methods to address such deficiencies. In particular, we consider the role of sparsity in the latent low-rank elements, as being crucial to improve the inference and facilitate interpretation. Firstly, we focus on the effect of the sparsity induced by the usual approximation of the infinite model through a truncated version to facilitate the posterior inference. In this regard, it is fundamental to carefully assess how the truncation criterion affects the inference performance and the factor model representation. We propose a novel truncation criterion that relates the level of truncation to the factor contribution to the global data variability, allowing one to easily calibrate the algorithm's parameters. Secondly, we careful investigate the role of local sparsity within the low-rank latent elements by introducing a new general class of infinite factorization models. In this framework, we provide theoretical support to verify desirable shrinkage properties of the prior. The main novelty of the proposed class of models lies on the dependence of the local sparse pattern of the latent elements on auxiliary information which is supposed to inform on the similarity among variables, that correspond to columns of the data matrix. This structure enables us to fill a key gap of the current infinite factor models that do not allow the accommodation for grouped variables and other non-exchangeable structures. We also propose extending this class to the more general class of matrix decomposition models. Symmetrically to the use of the exogenous information about variables, the matrix decomposition model also embeds auxiliary information about the row entities of the data matrix. A novel estimation algorithm inspired by boosting approaches is designed, overcoming the computational limits of the current Markov chain Monte Carlo approaches and the non-identifiability issue which characterizes all the over-fitted factorization models. Practical gains with respect to the current state of art are shown in simulation studies and discussed in real data applications, further illustrating benefits in terms of parameter estimations and model interpretation. Football player tracking data represent the common thread of the thesis. Thoughtful insights and representations are provided, sheding ligth on the potential of our approach. However, the generality of the proposed framework is expected to impact many other application fields.
Bayesian infinite factorization methods with applications to tracking data in football
11-mag-2022
I modelli fattoriali sono una rappresentazione matematica di dati multidimensionali tramite una collezione di oggetti più semplici. Per esempio, una matrice di dati può essere descritta da una somma di componenti latenti a rango uno. I modelli fattoriali vengono utilizzati frequentemente in varie discipline, quando si suppone che un insieme di variabili osservate sia esprimibile con meno variabili latenti. Ad ogni modo, può risultare molto difficile capire il numero e il peso delle diverse componenti latenti. Per rispondere a questo problema, si sta diffondendo l'utilizzo di modelli fattoriali sovra parametrizzati che evitano l'imposizione di vincoli sia sul numero di fattori che sull'ordinamento dei dati. Nel contesto bayesiano, si sono affermate delle distribuzioni a priori con compressione crescente che permettono di avere infiniti fattori, ma con impatto decrescente rispetto all'indice di componente, in modo tale che i fattori non necessari vengano rimossi comprimendone a zero i rispettivi coefficienti. Questi modelli flessibili sono generalmente identificati con il nome di modelli infinito fattoriali. Questa tesi si pone l'obbiettivo di fornire una panoramica sui modelli infinito fattoriali, presentandone lo stato dell'arte, discutendone i limiti e costruendo in modo incrementale una struttura generale per modelli bayesiani infinito fattoriali che includa nuovi metodi per sopperire a tali mancanze. In particolare, la tesi tratta il ruolo della sparsità negli elementi latenti di basso rango, in quanto cruciale per migliorare l'inferenza e facilitare l'interpretazione del modello. Inizialmente, focalizziamo la nostra attenzione sull'effetto della sparsità indotta dall'usuale approssimazione dei modelli a infiniti fattori dovuta a troncamento, effettuata per facilitare l'inferenza sulla distribuzione a posteriori. A tal proposito, è importante valutare come il criterio di troncamento influisca sulla capacità di inferenza e sulla rappresentazione del modello. Proponiamo quindi un nuovo criterio di troncamento che pone in relazione il livello a cui viene troncato il modello con il contributo dei fattori alla spiegazione della variabilità totale dei dati, permettendo così di calibrare più facilmente i parametri dell'algoritmo. In secondo luogo, analizziamo il ruolo della sparsità locale negli elementi latenti a basso rango introducendo una nuova classe generale di modelli a infinito fattori. In questo scenario, forniamo gli strumenti teorici per verificare delle proprietà di compressione della distribuzione a priori. La maggior novità della classe di modelli proposta risiede nella specificazione della struttura di sparsità degli elementi latenti come dipendente da informazione ausiliaria che informi circa la similarità tra le variabili, che corrispondono alle colonne della matrice di dati. Questa specificazione permette di rispondere ad uno dei punti aperti degli attuali modelli a infiniti fattori che non permettevano la possibilità di indurre gruppi o altre strutture tra variabili. Proponiamo anche di estendere questa classe alla più generale classe di modelli per decomposizione di matrici. In modo simmetrico rispetto a quanto fatto con l'informazione esogena sulle variabili, il modello per la decomposizione di matrici include informazione aggiuntiva riguardante anche le righe della matrice di dati. Si definisce un nuovo algoritmo di stima ispirato dai metodi boosting, superando i limiti computazionali dei metodi basati su catene di Markov Monte Carlo e il problema di non-identificabilità che caratterizza tutti i modelli fattoriali sovra-parametrizzati. I dati di tracciamento dei giocatori di calcio rappresentano il filo conduttore della tesi. Vengono fornite riflessioni approfondite che mettono in luce le potenzialità del nostro metodo. Ad ogni modo, è lecito aspettarsi che vi sia un impatto su molti altri campi di applicazione.
Metodi bayesiani infinito-fattoriali con applicazioni a dati di tracciamento nel calcio / Schiavon, Lorenzo. - (2022 May 11).
File in questo prodotto:
File Dimensione Formato  
tesi_definitiva_Lorenzo_Schiavon.pdf

accesso aperto

Descrizione: tesi_definitiva_Lorenzo_Schiavon
Tipologia: Tesi di dottorato
Dimensione 2.97 MB
Formato Adobe PDF
2.97 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3449045
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact