Dissecting the transcriptome complexity with bioinformatics tools

Martini, Paolo

Bioinformatics has acquired a lot of importance especially with the advent of genomic approaches. The large amount of data produced by ``omics'' experiments requires appropriate frameworks to handle, store and mine the information and to derive appropriate work hypotheses. Transcriptome is defined as the whole amount of RNA molecules produced by a cell that provides the bridge between the genome and proteins. RNA molecules can be divided in two major classes: protein coding RNAs or messenger RNAs (mRNAs) and non-coding RNAs (ncRNAs). While the first class has been the most studied in the last decades, ncRNAs were recently discovered demonstrating their importance in cell regulatory processes. The most important class of the ncRNAs is composed by the micro RNAs (miRNAs) that have been related to several pathologies, including cancer, because of their ability to regulate oncogenes or oncosuppresors and mRNAs involved in the cell cycle. Here, I am presenting a work that aims at following and providing the appropriate structure for the interpretation and storage of the transcriptomics data. In this regard, I devised a tool to integrate expression levels from microarray experiments with gene annotation data like the genome localization and organization in biological pathways. The tool was devised and tuned using two datasets: the first one concerning expression profiles of patients with acute myeloid leukemia (ALL), the second one regarding muscular dystrophies. The application of this new tool to these datasets was very promising, especially regarding meta-analysis studies (muscular dystrophies). For this reason I applied the new tool to analyze public and in-house produced datasets of expression profiles of patients with inflammatory myopathies. This analysis allowed generating the hypothesis of the involvement of JAK-STAT and interferon type I signaling pathways in myopathies. The inferred results were validated using qRT-PCR and the presences of specific proteins produced by validated mRNAs were tested by ELISA and proteomic analysis. To complete and extend the knowledge of the muscle physiology, I used the pig as a new model organism to develop a framework aiming at the integration of miRNA expression and the regulation of their mRNA-target. It was important to develop the appropriate experimental instruments to perform the expression analyses. I developed two microarray platforms to perform the expression profiles of both miRNA and mRNA purified from the same sample. Then, with the expression data, I computationally analyzed aspects of miRNA biogenesis and performed the data integration leading to the production of regulatory networks specific of the studied tissues, including skeletal-muscle. Our miRNA sequences (mature and hairpin) were crossed with public data from RNA-seq experiments demonstrating that there is an important overlap between our results and the sequences identified by RNA-seq, confirming the goodness of our approach

Con l’avvento degli approcci genomici la bioinformatica ha acquisito un importanza sempre maggiore nello studio della biologia. Infatti, gli approcci “omici” permettono di produrre un enorme quantitativo di dati che deve essere archiviato in corrette strutture (database). L’archiviazione del dato comporta la necessità di permettere l’accesso e la manipolazione dello stesso al fine di svolgere gli studi appropriati. Sono quindi richiesti strumenti appropriati che consentano l’ispezione e la manipolazione dei database fine di formulare delle ipotesi coerenti con la problematica biologica che si sta studiando. Il trascrittoma è definito come l’insieme delle molecole di RNA che sono prodotte da una cellula e rappresentano un passaggio necessario nel processo che dal gene porta alla produzione della proteina. Le molecole di RNA possono essere suddivise in due grandi gruppi: gli RNA codificanti o messaggeri e gli RNA non codificanti. Mentre la prima classe è stata oggetto di ampi studi negli ultimi decenni, gli RNA non codificanti sono stati scoperti solo di recente e associati a funzioni puramente regolative. La classe più importante coinvolta nel processo regolativo degli RNA messaggeri è quella dei micro RNA (miRNA) che sono stati oggetto di un studio intenso che li ha messi in relazione con lo sviluppo di patologie come il cancro in quanto coinvolti nella regolazione fine dell’espressione genica di oncogeni, oncosoppressori o geni del ciclo cellulare. In questa tesi presento una serie di soluzioni bioinformatiche mirate a fornire le strutture appropriate per condurre gli esperimenti e le analisi dei dati di trascrittomica. Nel corso del periodo di dottorato, ho sviluppato un metodo che consente l’integrazione dei livelli di espressione genica ottenuti da esperimenti di microarray con informazioni riguardanti la localizzazione degli stessi nei cromosomi o la loro organizzazione in processi biologici. Questo metodo è stato messo a punto e raffinato nel suo funzionamento usando due gruppi di dati disponibili nei database pubblici: il primo riguarda dati di espressione genica ottenuti da esperimenti di microarray su leucemia mieloide acuta; il secondo riguarda l’espressione genica di distrofie muscolari derivanti sempre da dati di microarray. I risultati di questo nuovo metodo si sono dimostrati molto promettenti, in particolare nell’applicazione della meta-analisi che consiste nell’integrare dati provenienti da differenti laboratori. Forte di questo primo risultato, ho applicato questo metodo di analisi anche all’ispezione dei processi sregolati nelle miopatie infiammatorie affiancando ai dati disponibili prodotti nel laboratorio di Genomica Funzionale diretto dal Prof. G. Lanfranchi quelli depositati nei database pubblici. La meta-analisi da me implementata ha permesso di studiare questa serie di dati sfruttando, per la prima volta, la localizzazione dei geni e raggruppandoli per la funzione permettendo di generare ipotesi sui meccanismi patologici. Grazie a questa tipologia di analisi ho ipotizzato il coinvolgimento nelle miopatie infiammatorie delle vie di segnale che fanno capo a JAK/STAT e agli interferoni. Le ipotesi generate analizzando i dati sono state confermate andando a validare i geni coinvolti nelle vie di segnale appena menzionate usando la qRT-PCR. Inoltre, usando approcci di proteomica, in collaborazione con la Prof. C. Gelfi (Università di Milano) e la tecnica ELISA, è stata anche validata la presenza delle proteine coinvolte in queste vie di segnale nei pazienti affetti da miopatie infiammatorie. Nella parte conclusiva del mio dottorato, mi sono occupato di completare ed estendere la conoscenza della fisiologia muscolare. Per far questo mi sono spostato sul maiale, un organismo modello molto importante per lo studio di patologie umane e per la produzione di componenti biologiche che possono essere utilizzate per sostituire quelle degradate nell’uomo (valvole aortiche per esempio). Usando il maiale ho sviluppato un sistema per integrare l’espressione dei miRNA e la regolazione che questi esercitano nei messaggeri target. Come prima cosa ho sviluppato le piattaforme di microarray per eseguire l’analisi dell’espressione genica di 14 tessuti di maiale. In particolare ho sviluppato due tipi di piattaforme per eseguire l’analisi dell’espressione dei trascritti e dei miRNA purificati dallo stesso campione. Con questi dati di espressione ho condotto analisi per delucidare alcuni aspetti inerenti la biogenesi dei miRNA. Infine, la completezza dei dati prodotti mi ha permesso di costruire delle reti di regolazione specifiche per ogni tessuto analizzato. Per confermare la validità del nostro approccio ho analizzato il grado di sovrapposizione tra le sequenze derivate dal nostro studio e le sequenze prodotte dai vari esperimenti di RNA-seq. Con questa analisi ho confermato la validità del mio approccio in quanto è stato rivelato una sovrapposizione importante tra le nostre sequenze e quelle derivate da RNA-seq

Dissecting the transcriptome complexity with bioinformatics tools / Martini, Paolo. - (2012 Jan 30).