Integrating gene expression data to infer how biological changes drive transcriptional responses

Moretto, Marco

The work presented in this Ph.D. thesis is two sided. The first part describes a series of tools to integrate gene expression data, while the second one describes how to mathematically model them. The first part explains the methodology used to integrate publicly available transcriptomic data, the creation of a series of software tools that implement this methodology, and their application to create collections of gene expression data (compendia) for several prokaryote species and one eukaryote (the crop plant Vitis vinifera). Compendia are gene expression matrices in which every row is a gene of the species of interest while columns represent the different conditions in which genes have been measured. They provide a rich source of information for systems biology applications. Besides being the result of the first part of this Ph.D. project, gene expression compendia are the starting point for the second part, with the purpose of facilitating biological knowledge discovery drawing inference from mathematical models. We develop and discuss two complementary models. The first one uses a Bayesian approach, in which we model a probability distribution over an underlying true change in expression for a given gene in response to a given condition. The second one uses Boolean networks to model structural information about the known genetic mechanisms of response to stimuli. Boolean networks are used to fit a distribution over steady-states of cells in measured samples. These models may be used for various types of statistical inference and decision making. They can serve to formulate statistically sound hypothesis about stimuli/signals that better explain observed changes in gene expression, or about the inherent variability of a gene (independently from the conditions in which it is measured), or to find complex patterns of co-expression.

Questa tesi di dottorato tratta principalmente di due argomenti tra loro interconnessi: il primo è lo sviluppo di una serie di tool per l’integrazione di dati di espressione genica. Il secondo è lo sviluppo di metodologie per la modellazione matematica di tali dati. Nella prima parte, quindi, viene descritta la metodologia utilizzata per integrare dati di espressione genica disponibili nei principali database pubblici, la creazione di una serie di strumenti software che implementano tali metodologie e l’applicazione di quest’ultimi al fine di realizzare collezioni di dati di espressione (compendia) per diversi procarioti ed una specie eucariote di interesse agrario (Vitis vinifera). Tali compendia sono particolarmente rilevanti applicate alla systems biology in quanto forniscono una ricca fonte di informazione. Essi sono delle matrici di espressione in cui ogni riga rappresenta un gene della specie di interesse, mentre le colonne rappresentano le diverse condizioni in cui l’espressione genica è stata misurata. Oltre ad essere il risultato della prima parte di questo lavoro di dottorato, i compendia di espressione sono anche il punto di partenza per la seconda parte che ha lo scopo di facilitare l’interpretazione biologica dei dati attraverso inferenza su modelli matematici creati a partire da essi. In particolare vengono discussi e sviluppati due modelli tra loro complementari. Il primo utilizza un approccio Bayesiano modellando una distribuzione di probabilità sul vero cambiamento dell’espressione di un particolare gene in risposta ad una particolare condizione. Il secondo modello sfrutta le reti Booleane per modellare l’informazione strutturale dei meccanismi genetici noti di risposta agli stimoli. Le reti Booleane vengono utilizzate per la creazione di una distribuzione di probabilità sui possibili stati stazionari delle cellule presenti nel campione effettivamente misurato. Utilizzando questi modelli è possibile, ad esempio, formulare ipotesi statisticamente valide sugli stimoli/segnali maggiormente responsabili dell’espressione di alcuni geni, sulla innata variabilità di un determinato gene (indipendentemente dalle condizioni in cui esso è misurato) oppure trovare complessi schemi di co-espressione genica.

Integrating gene expression data to infer how biological changes drive transcriptional responses / Moretto, Marco. - (2016 Jul 26).