SELEZIONE DEL MODELLO NEI MODELLI GRAFICI COLORATI PER DATI APPAIATI

Nguyen, Ngoc Dung

Gaussian graphical models (GGM) are a family of multivariate normal distributions whose conditional independence structure is represented by an undirected graph, where the vertices represent variables and every missing edge implies that the corresponding entry of the concentration matrix, which is the inverse of the covariance matrix, equals zero; see Lauritzen (1996). Hojsgaard and Lauritzen (2008) introduced colored GGMs which are GGMs with additional symmetry restrictions on the concentration matrix in the form of equality constraints on the parameters, which are depicted on the dependence graph by colorings of edges and vertices. The application of colored GGMs was motivated by the need of reducing the number of parameters when estimating covariance matrices of large dimensions with relatively few observations. On the other hand, there exist applied contexts where symmetry restrictions naturally follow from substantive research hypotheses of interest. A relevant instance is provided by the problem of joint learning of multiple graphical models, where observations come from two or more groups sharing the same variables. The association structure of each group is represented by a network and it is expected that there are similarities between groups. In paired data, the two groups are not independent because two sets of homologous variables are observed on every statistical unit. In this thesis, we focus on the application of colored GGMs to the joint learning of graphical models for paired data that, in the following, we call colored graphical models for paired data (PDCGMs). Although the symmetric restrictions implied by a colored GGM may usefully reduce the model dimensionality, the problem of model identification is much more challenging than in GGMs because both the dimensionality and complexity of the search spaces highly increase. For the construction of efficient model selection methods, it is imperative to understand the structure of model classes. In this work, we consider PDCGMs and show that this class of models forms a non-distributive lattice under the model inclusion order $\preceq_{\mathcal{C}}$. We then introduce a novel partial order $\preceq_{\tau}$ for this class of models and call it the twin order. Such order coincides with the model inclusion if two models are $\preceq_{\mathcal{C}}$ comparable but that also includes a relationship between certain models which are $\preceq_{\mathcal{C}}$ incomparable. We show that the class of PDCGMs forms a distributive lattice under the twin order and then we use this lattice to implement a coherent backward elimination stepwise procedure. Gabriel (1969) introduced the principle of coherence ``in any procedure involving multiple comparisons no hypothesis should be accepted if any hypothesis implied by it is rejected". We remark that we say ``accepted" instead of ``non-rejected". Consider a goodness-of-fit test for testing models at a level $\alpha$ so that for every model we can determine whether the model is rejected or accepted. In this context, the coherence is typically implemented by requiring that we should not accept a model while rejecting a more general model; see Edwards and Havranek (1987). Hence, under this formulation of the coherence, in a greedy search if a model is rejected then all its submodels are considered rejected without further testing. However, we show that the lattice of PDCGMs under model inclusion does not provide a proper implementation of the coherence principle. On the other hand, the coherence can be properly implemented on the distributive lattice under the twin order. We, therefore, introduce a backward elimination stepwise procedure with local moves on our distributive lattice which satisfies the coherence principle. This procedure is implemented in the programming language R and its behavior is investigated on the simulated data. Finally, this procedure is applied to the identification of the brain network from fMRI data.

Un modello grafico gaussiano (GGM) è una famiglia di distribuzioni normali multivariate la cui struttura di indipendenza condizionale viene rappresentata mediante un grafo non orientato. I vertici del grafo corrispondono alle variabili ed ogni arco assente dal grafo implica che il corrispondente elemento della matrice di concentrazione, ossia l'inversa della matrice di varianze e covarianze, è uguale a zero; si veda Lauritzen (1996). I modelli grafici colorati, introdotti da Hojsgaard and Lauritzen (2008), sono una famiglia di modelli grafici gaussiani con ulteriori vincoli di simmetria implementati come vincoli di uguaglianza negli elementi della matrice di concentrazione. L'utilizzo dei modelli grafici colorati fu motivato inizialmente dalla necessità di ridurre il numero di parametri nell'apprendimento di grafi con elevato numero di vertici in presenza di una limitata numerosità campionaria. Vi sono però contesti applicativi nei quali i vincoli di simmetria emergono naturalmente come quesiti scientifici di interesse. Un esempio rilevante è dato dall'apprendimento congiunto di network multipli nel caso di dati appaiati e oggetto di questa tesi è l'applicazione di modelli grafici colorati in questo ambito. Sebbene i vincoli di simmetria implichino naturalmente una riduzione della dimensionalità del modello, il problema dell'apprendimento del modello dai dati è estremamente complesso dato che la dimensione dello spazio di ricerca è molto maggiore rispetto a quella dei tradizionali modelli grafici non colorati. La costruzione di procedure di ricerca che siano efficienti è fondamentale comprendere la struttura dello spazio di ricerca. In questo lavoro noi consideriamo i modelli grafici colorati per dati appaiati (PDCGM) e mostriamo che se si utilizza il tradizionale ordinamento basato sulla relazione di sottomodello (ordinamento model-inclusion), questa famiglia forma un reticolo non-distributivo. Introduciamo quindi una nuova relazione d'ordine, che chiamiamo ordinamento twin. Mostriamo quindi che la famiglia di PDCGM forma un reticolo distributivo rispetto all'ordinamento twin e quindi utilizziamo questa struttura per introdurre una procedura di apprendimento di tipo stepwise. Gabriel (1969) ha introdotto il seguente principio detto principio di coerenza ``in una procedura in cui vengono verificate ipotesi multiple, una qualunque ipotesi non dovrebbe essere accettata quando, al contempo, un'ipotesi implicata da questa viene rifiutata''. Si noti che, per brevità, in questa formulazione utilizziamo il termine ``accettata'' invece del termine più rigoroso ``non-rifiutata''. Si consideri un test di livello $\alpha$ che può essere applicato al confronto di modelli in una procedura di apprendimento. In questo contesto, il principio di coerenza viene solitamente applicato richiedendo che non si deve accettare un qualunque modello quando un modello più generale è rifiutato; si veda, ad esempio, Edwards e Havranek (1987). Quindi, nell'implementazione di una procedura stepwise backward elimination coerente se un modello è rifiutato allora tutti i suoi sottomodelli sono automaticamente rifiutati. Tuttavia, noi mostriamo che per la famiglia di modelli grafici colorati per dati appaiati l'applicazione del principio di coerenza richiede ragionamenti più sofisticati e che l'applicazione automatica di questo principio sulla base del reticolo model inclusion porta ad effettuare dei passi che violano il principio di coerenza. Invece, il reticolo basato sulla relazione twin permette di identificare tali passi non coerenti e sostituirli con dei passi che rispettano il principio di coerenza. Questa variazione conferisce inoltre efficienza alla procedura. La procedura è implementata nel linguaggio R, le sue proprietà sono illustrate mediante una serie di applicazioni a dati simulati ed, infine, utilizzata per l'identificazione di un brain network sulla base di dati fMRI.

SELEZIONE DEL MODELLO NEI MODELLI GRAFICI COLORATI PER DATI APPAIATI / Nguyen, NGOC DUNG. - (2022 May 11).

SELEZIONE DEL MODELLO NEI MODELLI GRAFICI COLORATI PER DATI APPAIATI

NGUYEN, NGOC DUNG

2022

Abstract

Gaussian graphical models (GGM) are a family of multivariate normal distributions whose conditional independence structure is represented by an undirected graph, where the vertices represent variables and every missing edge implies that the corresponding entry of the concentration matrix, which is the inverse of the covariance matrix, equals zero; see Lauritzen (1996). Hojsgaard and Lauritzen (2008) introduced colored GGMs which are GGMs with additional symmetry restrictions on the concentration matrix in the form of equality constraints on the parameters, which are depicted on the dependence graph by colorings of edges and vertices. The application of colored GGMs was motivated by the need of reducing the number of parameters when estimating covariance matrices of large dimensions with relatively few observations. On the other hand, there exist applied contexts where symmetry restrictions naturally follow from substantive research hypotheses of interest. A relevant instance is provided by the problem of joint learning of multiple graphical models, where observations come from two or more groups sharing the same variables. The association structure of each group is represented by a network and it is expected that there are similarities between groups. In paired data, the two groups are not independent because two sets of homologous variables are observed on every statistical unit. In this thesis, we focus on the application of colored GGMs to the joint learning of graphical models for paired data that, in the following, we call colored graphical models for paired data (PDCGMs). Although the symmetric restrictions implied by a colored GGM may usefully reduce the model dimensionality, the problem of model identification is much more challenging than in GGMs because both the dimensionality and complexity of the search spaces highly increase. For the construction of efficient model selection methods, it is imperative to understand the structure of model classes. In this work, we consider PDCGMs and show that this class of models forms a non-distributive lattice under the model inclusion order $\preceq_{\mathcal{C}}$. We then introduce a novel partial order $\preceq_{\tau}$ for this class of models and call it the twin order. Such order coincides with the model inclusion if two models are $\preceq_{\mathcal{C}}$ comparable but that also includes a relationship between certain models which are $\preceq_{\mathcal{C}}$ incomparable. We show that the class of PDCGMs forms a distributive lattice under the twin order and then we use this lattice to implement a coherent backward elimination stepwise procedure. Gabriel (1969) introduced the principle of coherence ``in any procedure involving multiple comparisons no hypothesis should be accepted if any hypothesis implied by it is rejected". We remark that we say ``accepted" instead of ``non-rejected". Consider a goodness-of-fit test for testing models at a level $\alpha$ so that for every model we can determine whether the model is rejected or accepted. In this context, the coherence is typically implemented by requiring that we should not accept a model while rejecting a more general model; see Edwards and Havranek (1987). Hence, under this formulation of the coherence, in a greedy search if a model is rejected then all its submodels are considered rejected without further testing. However, we show that the lattice of PDCGMs under model inclusion does not provide a proper implementation of the coherence principle. On the other hand, the coherence can be properly implemented on the distributive lattice under the twin order. We, therefore, introduce a backward elimination stepwise procedure with local moves on our distributive lattice which satisfies the coherence principle. This procedure is implemented in the programming language R and its behavior is investigated on the simulated data. Finally, this procedure is applied to the identification of the brain network from fMRI data.

Scheda breve

Scheda completa

Scheda completa (DC)

	Titolo in inglese
	
				MODEL SELECTION FOR COLORED GRAPHICAL MODELS FOR PAIRED DATA
			
	Anno di discussione
	
				11-mag-2022
			
	Abstract
	
				Un modello grafico gaussiano (GGM) è una famiglia di distribuzioni normali multivariate la cui struttura di indipendenza condizionale viene rappresentata mediante un grafo non orientato. I vertici del grafo corrispondono alle variabili ed ogni arco assente dal grafo implica che il corrispondente elemento della matrice di concentrazione, ossia l'inversa della matrice di varianze e covarianze, è uguale a zero; si veda  Lauritzen (1996).

I modelli grafici colorati, introdotti da Hojsgaard and Lauritzen (2008), sono una famiglia di modelli grafici gaussiani con ulteriori vincoli di simmetria implementati come vincoli di uguaglianza negli elementi della matrice di concentrazione.  L'utilizzo dei modelli grafici colorati fu motivato inizialmente dalla necessità di ridurre il numero di parametri nell'apprendimento di grafi con elevato numero di vertici in presenza di una limitata numerosità campionaria. Vi sono però contesti applicativi nei quali i vincoli di simmetria emergono naturalmente come quesiti scientifici di interesse. Un esempio rilevante è dato dall'apprendimento congiunto di network multipli nel caso di dati appaiati e 
oggetto di questa tesi è l'applicazione di modelli grafici colorati in questo ambito. Sebbene i vincoli di simmetria implichino naturalmente una riduzione della dimensionalità del modello, il problema dell'apprendimento del modello dai dati è estremamente complesso dato che la dimensione dello spazio di ricerca è molto maggiore rispetto a quella dei tradizionali modelli grafici non colorati. La costruzione di procedure di ricerca che siano efficienti è fondamentale comprendere la struttura dello spazio di ricerca. In questo lavoro noi consideriamo i modelli grafici colorati per dati appaiati (PDCGM) e mostriamo che se si utilizza il tradizionale ordinamento basato sulla relazione di sottomodello (ordinamento model-inclusion), questa famiglia forma un reticolo non-distributivo. Introduciamo quindi una nuova relazione d'ordine, che chiamiamo ordinamento twin. Mostriamo quindi che la famiglia di PDCGM forma un reticolo distributivo rispetto all'ordinamento twin e quindi utilizziamo questa struttura per introdurre una procedura di apprendimento di tipo stepwise.

Gabriel (1969) ha introdotto il seguente principio detto principio di coerenza ``in una procedura in cui vengono verificate ipotesi multiple, una qualunque ipotesi non dovrebbe essere accettata quando, al contempo, un'ipotesi implicata da questa viene rifiutata''. Si noti che, per brevità, in questa formulazione utilizziamo il termine ``accettata'' invece del termine più rigoroso ``non-rifiutata''. Si consideri un test di livello $\alpha$ che può essere applicato al confronto di modelli in una procedura di apprendimento. In questo contesto, il principio di coerenza viene solitamente applicato richiedendo che non si deve accettare un qualunque modello quando un modello più generale è rifiutato; si veda, ad esempio, Edwards e Havranek (1987). Quindi, nell'implementazione di una procedura stepwise backward elimination coerente se un modello è rifiutato allora tutti i suoi sottomodelli sono automaticamente rifiutati. Tuttavia, noi mostriamo che per la famiglia di modelli grafici colorati per dati appaiati l'applicazione del principio di coerenza richiede ragionamenti più sofisticati e che l'applicazione automatica di questo principio sulla base del reticolo model inclusion porta ad effettuare dei passi che violano il principio di coerenza. Invece, il reticolo basato sulla relazione twin permette di identificare tali passi non coerenti e sostituirli con dei passi che rispettano il principio di coerenza. Questa variazione conferisce inoltre efficienza alla procedura. La procedura è implementata nel linguaggio R, le sue proprietà sono illustrate mediante una serie di applicazioni a dati simulati ed, infine, utilizzata per l'identificazione di un brain network sulla base di dati fMRI.
			
	Citazione
	
				SELEZIONE DEL MODELLO NEI MODELLI GRAFICI COLORATI PER DATI APPAIATI / Nguyen, NGOC DUNG. - (2022 May 11).
			
	Appare nelle tipologie:
	
				08.01 - Tesi di Dottorato UNIPD (Deposito Legale)

File in questo prodotto:

File	Dimensione	Formato
tesi_definitiva_Ngoc-Dung_Nguyen.pdf accesso aperto Descrizione: tesi_definitiva_Ngoc-Dung_Nguyen Tipologia: Tesi di dottorato Licenza: Altro Dimensione 1.91 MB Formato Adobe PDF Visualizza/Apri	1.91 MB	Adobe PDF	Visualizza/Apri