The 3D organization of chromatin within the nucleus is crucial for genome functionality. This is true at multiple levels of resolution: on a large scale, with chromosomes occupying distinct volumes (chromosome territories), at the level of individual chromatin fibers, organized in compartmentalized domains (as the Topologically Associating Domains, TADs), and down to the formation of short range chromatin interactions (as enhancer-promoter loops). The widespread adoption of high-throughput techniques derived from Chromosome Conformation Capture (3C) has been instrumental in advancing the knowledge of chromatin nuclear organization. In particular, Hi-C has the potential to achieve the most comprehensive characterization of chromatin 3D interactions, as in principle it can detect any pair of restriction fragments connected as a result of ligation by proximity. The analysis of the enormous amount of genomic data produced by Hi-C required the development of ad hoc algorithms and computational procedures. Despite the increasing number of available bioinformatics pipelines, no consensus on the optimal approach to analyze Hi-C data has been reached yet. Therefore, we quantitatively compared several Hi-C data analysis methods for the identification of multi-scale chromatin structures to highlight strengths and weaknesses of the various methods and propose application guidelines and good practices. Specifically, we compared different computational approaches (6 for the characterization of chromatin loops and 7 to identify TADs) using publicly available Hi-C datasets, comprising data from different species and cell lines, Hi-C protocol variations and data resolution. Additionally, the algorithms were tested on simulated Hi-C data to assess sensitivity and precision of each method. The tools differed in terms of implemented analysis steps and strategies adopted for alignment, filtering, normalization, and feature identification (global or local looping interactions calling and single-scale or multi-scale TAD discovery). Results of this comparison indicate that performances of the methods considerably vary, both in quantitative and qualitative terms, and that the tools need extensive optimization of the parameters in order to work properly. Despite, in general, TAD callers resulted riper than algorithms to call interactions, still most of them are characterized by crucial limitations, as for instance the inability to investigate how the 3D organization of chromatin structures evolves over time (as e.g., during differentiation). Although the molecular mechanisms underlying TADs formation are still debated, it is evident that distinct interaction patterns can be observed within individual TADs. In particular, some domains appear to have a very compact structure, while others have a less uniform or weaker interaction frequency within the domain, while showing a strong interaction between the borders. To address these limitations, I developed TAD-AH (TADs Advanced Hierarchy), a four-step sequential procedure coded in R, for the characterization of both static and dynamically changing chromatin domains. As a case study, I analyzed Hi-C data generated prior and post human fibroblasts (IMR90) trans-differentiation into skeletal muscle cells (myoblasts, and, when put in differentiation media, myotubes) by overexpression of muscle stem cells master regulator MyoD. I integrated Hi-C with epigenomic and transcriptomic data from the same conditions and confirmed that the identified genomic features are consistent with the biological scenario under scrutiny.

L’organizzazione tridimensionale della cromatina all’interno del nucleo è alla base della regolazione funzionale del genoma, sia a livello macroscopico, dove i cromosomi occupano spazi distinti (territori cromosomici), sia a livello di singole fibre, dove la cromatina si organizza in domini compartimentalizzati (Topologically Associating Domains, TADs), dentro i quali avviene la formazione di interazioni a corto raggio (come quelle che sussistono tra promotori e regioni regolatrici). Le tecniche denominate Chromosome Conformation Capture (3C) hanno permesso di investigare e caratterizzare i diversi livelli dell’organizzazione strutturale della cromatina all’interno del nucleo. In particolare, l’Hi-C, attraverso la combinazione del protocollo di 3C e del sequenziamento massivo, è in grado di restituire un’immagine completa dell’architettura della cromatina e dei contatti all’interno del genoma. Nonostante in questi ultimi anni siano stati resi disponibili diversi strumenti computazionali per l’analisi dei dati di Hi-C, non esiste tuttora un consenso su quale sia il metodo ottimale da usare. Una valutazione comparativa dei software per l'analisi dei dati Hi-C è quindi necessaria non solo per evidenziare i punti di forza e le debolezze dei vari metodi, ma anche per proporre linee guida utili all’utente medio. Per questo motivo ho applicato diversi approcci computazionali (6 per la caratterizzazione delle interazioni e 7 per identificare i TAD) a 6 set di dati pubblici di Hi-C, relativi a diverse specie e linee cellulari (H1-hESC, IMR90, linee cellulari linfoblastoidi ed embrioni di D. melanogaster), a differenti metodiche sperimentali (standard Hi-C, simplified Hi-C e In situ Hi-C) e analizzati a diverse risoluzioni. Inoltre, gli algoritmi sono stati applicati a dati simulati per determinare sensibilità e precisione di ogni metodo. I software differiscono sia per le fasi di analisi implementate sia per le strategie adottate in ciascun passaggio: l'allineamento della sequenza completa contro quello della sequenza “spezzata”, i filtri applicati, la normalizzazione implicita contro quella esplicita, l’arricchimento di interazione locale contro quello globale e l’individuazione di TAD ad uno o più livelli. I metodi variano molto a livello di prestazioni sia in termini quantitativi sia qualitativi, e richiedono di ottimizzare un’ampia gamma di parametri per funzionare correttamente. Nonostante, in generale, gli algoritmi per identificare i TAD si siano dimostrati più affidabili di quelli per trovare le interazioni, ci sono ancora dei limiti fondamentali nell’identificazione dei TAD, ad esempio nello studio dell’evoluzione di queste strutture nel tempo. Sebbene i meccanismi alla base della formazione dei TAD siano tuttora dibattuti, è innegabile che questi siano caratterizzati da pattern distintivi di interazione: in alcuni TAD possiamo osservare un segnale di interazione più omogeneo, mentre in altri l’interazione è più che altro evidente tra le regioni che lo delimitano. Per superare questi limiti, ho sviluppato un nuovo metodo per l’analisi dei TAD a partire da dati di Hi-C (TAD-AH), atto ad indagare un aspetto finora inesplorato dell'architettura del genoma: la quarta dimensione, ovvero come la struttura si evolve nel tempo in base a stimoli di varia natura (ad esempio durante il differenziamento). Per testare TAD-AH ho analizzato dati di Hi-C generati prima e dopo il trans-differenziamento di fibroblasti umani (IMR90) in cellule muscolari (mioblasti e miotubi) ad opera del principale regolatore delle cellule staminali muscolari, MYOD. L’integrazione dei dati di Hi-C con altri dati epigenomici e trascrittomici ha confermato che la caratterizzazione delle strutture identificate è coerente con lo scenario biologico in esame.

Genome conformation and transcription regulation: methods and applications / Nicoletti, Chiara. - (2017 Oct 30).

Genome conformation and transcription regulation: methods and applications

Nicoletti, Chiara
2017

Abstract

L’organizzazione tridimensionale della cromatina all’interno del nucleo è alla base della regolazione funzionale del genoma, sia a livello macroscopico, dove i cromosomi occupano spazi distinti (territori cromosomici), sia a livello di singole fibre, dove la cromatina si organizza in domini compartimentalizzati (Topologically Associating Domains, TADs), dentro i quali avviene la formazione di interazioni a corto raggio (come quelle che sussistono tra promotori e regioni regolatrici). Le tecniche denominate Chromosome Conformation Capture (3C) hanno permesso di investigare e caratterizzare i diversi livelli dell’organizzazione strutturale della cromatina all’interno del nucleo. In particolare, l’Hi-C, attraverso la combinazione del protocollo di 3C e del sequenziamento massivo, è in grado di restituire un’immagine completa dell’architettura della cromatina e dei contatti all’interno del genoma. Nonostante in questi ultimi anni siano stati resi disponibili diversi strumenti computazionali per l’analisi dei dati di Hi-C, non esiste tuttora un consenso su quale sia il metodo ottimale da usare. Una valutazione comparativa dei software per l'analisi dei dati Hi-C è quindi necessaria non solo per evidenziare i punti di forza e le debolezze dei vari metodi, ma anche per proporre linee guida utili all’utente medio. Per questo motivo ho applicato diversi approcci computazionali (6 per la caratterizzazione delle interazioni e 7 per identificare i TAD) a 6 set di dati pubblici di Hi-C, relativi a diverse specie e linee cellulari (H1-hESC, IMR90, linee cellulari linfoblastoidi ed embrioni di D. melanogaster), a differenti metodiche sperimentali (standard Hi-C, simplified Hi-C e In situ Hi-C) e analizzati a diverse risoluzioni. Inoltre, gli algoritmi sono stati applicati a dati simulati per determinare sensibilità e precisione di ogni metodo. I software differiscono sia per le fasi di analisi implementate sia per le strategie adottate in ciascun passaggio: l'allineamento della sequenza completa contro quello della sequenza “spezzata”, i filtri applicati, la normalizzazione implicita contro quella esplicita, l’arricchimento di interazione locale contro quello globale e l’individuazione di TAD ad uno o più livelli. I metodi variano molto a livello di prestazioni sia in termini quantitativi sia qualitativi, e richiedono di ottimizzare un’ampia gamma di parametri per funzionare correttamente. Nonostante, in generale, gli algoritmi per identificare i TAD si siano dimostrati più affidabili di quelli per trovare le interazioni, ci sono ancora dei limiti fondamentali nell’identificazione dei TAD, ad esempio nello studio dell’evoluzione di queste strutture nel tempo. Sebbene i meccanismi alla base della formazione dei TAD siano tuttora dibattuti, è innegabile che questi siano caratterizzati da pattern distintivi di interazione: in alcuni TAD possiamo osservare un segnale di interazione più omogeneo, mentre in altri l’interazione è più che altro evidente tra le regioni che lo delimitano. Per superare questi limiti, ho sviluppato un nuovo metodo per l’analisi dei TAD a partire da dati di Hi-C (TAD-AH), atto ad indagare un aspetto finora inesplorato dell'architettura del genoma: la quarta dimensione, ovvero come la struttura si evolve nel tempo in base a stimoli di varia natura (ad esempio durante il differenziamento). Per testare TAD-AH ho analizzato dati di Hi-C generati prima e dopo il trans-differenziamento di fibroblasti umani (IMR90) in cellule muscolari (mioblasti e miotubi) ad opera del principale regolatore delle cellule staminali muscolari, MYOD. L’integrazione dei dati di Hi-C con altri dati epigenomici e trascrittomici ha confermato che la caratterizzazione delle strutture identificate è coerente con lo scenario biologico in esame.
30-ott-2017
The 3D organization of chromatin within the nucleus is crucial for genome functionality. This is true at multiple levels of resolution: on a large scale, with chromosomes occupying distinct volumes (chromosome territories), at the level of individual chromatin fibers, organized in compartmentalized domains (as the Topologically Associating Domains, TADs), and down to the formation of short range chromatin interactions (as enhancer-promoter loops). The widespread adoption of high-throughput techniques derived from Chromosome Conformation Capture (3C) has been instrumental in advancing the knowledge of chromatin nuclear organization. In particular, Hi-C has the potential to achieve the most comprehensive characterization of chromatin 3D interactions, as in principle it can detect any pair of restriction fragments connected as a result of ligation by proximity. The analysis of the enormous amount of genomic data produced by Hi-C required the development of ad hoc algorithms and computational procedures. Despite the increasing number of available bioinformatics pipelines, no consensus on the optimal approach to analyze Hi-C data has been reached yet. Therefore, we quantitatively compared several Hi-C data analysis methods for the identification of multi-scale chromatin structures to highlight strengths and weaknesses of the various methods and propose application guidelines and good practices. Specifically, we compared different computational approaches (6 for the characterization of chromatin loops and 7 to identify TADs) using publicly available Hi-C datasets, comprising data from different species and cell lines, Hi-C protocol variations and data resolution. Additionally, the algorithms were tested on simulated Hi-C data to assess sensitivity and precision of each method. The tools differed in terms of implemented analysis steps and strategies adopted for alignment, filtering, normalization, and feature identification (global or local looping interactions calling and single-scale or multi-scale TAD discovery). Results of this comparison indicate that performances of the methods considerably vary, both in quantitative and qualitative terms, and that the tools need extensive optimization of the parameters in order to work properly. Despite, in general, TAD callers resulted riper than algorithms to call interactions, still most of them are characterized by crucial limitations, as for instance the inability to investigate how the 3D organization of chromatin structures evolves over time (as e.g., during differentiation). Although the molecular mechanisms underlying TADs formation are still debated, it is evident that distinct interaction patterns can be observed within individual TADs. In particular, some domains appear to have a very compact structure, while others have a less uniform or weaker interaction frequency within the domain, while showing a strong interaction between the borders. To address these limitations, I developed TAD-AH (TADs Advanced Hierarchy), a four-step sequential procedure coded in R, for the characterization of both static and dynamically changing chromatin domains. As a case study, I analyzed Hi-C data generated prior and post human fibroblasts (IMR90) trans-differentiation into skeletal muscle cells (myoblasts, and, when put in differentiation media, myotubes) by overexpression of muscle stem cells master regulator MyoD. I integrated Hi-C with epigenomic and transcriptomic data from the same conditions and confirmed that the identified genomic features are consistent with the biological scenario under scrutiny.
Hi-C Bioinformatics Chromosome Conformation Capture Benchmarking
Genome conformation and transcription regulation: methods and applications / Nicoletti, Chiara. - (2017 Oct 30).
File in questo prodotto:
File Dimensione Formato  
nicoletti_chiara_thesis.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 19.58 MB
Formato Adobe PDF
19.58 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3424943
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact