A novel method for the production of long DNA sequences from short reads

Targon, Robin

Next Generation Sequencing (NGS) has deeply changed our way to study genome biology: in the last ten years an astonishing amount of evidence ranging from the transcriptome variability to the association patterns of specific proteins with DNA or RNA sequences were produced with this technology, thus opening the way to amazing discoveries and perspectives. Unfortunately, the short length of the sequencing reads produced by second generation sequencers is limiting the potential of this technology. In particular some very interesting studies have been hampered by the short read length. High-quality long reads would permit much better approaches to full-length transcripts analysis, alternative splicing, RNA editing, de novo whole genome assembly, genomic structural variations and haplotype characterization. The study that I conducted for my doctorate focused on the possibility to produce high-quality long reads using NGS technology. The first motivation behind the development of this project was to investigate full-length transcripts and in particular to verify the hypothesis whether the pattern of alternative splicing could be associated to transcription start sites. A further motivation was the application of this technology to de novo whole genome assembly. Since at the instrumental level the limits of the read length is not amendable, I addressed my efforts towards the development of a method to reconstruct the sequence of long DNA or RNA molecules by precise local assembly of short reads produced by second generation sequencers. The idea that I wanted to exploit is based on “molecular barcoding”. Typically, barcodes are short DNA sequence tags that are included in the adaptors and used for the preparation of NGS libraries. Barcodes make possible the association of each read to its corresponding library, allowing the analysis of multiple samples in the same sequencing run. In my project I used barcodes for a very different purpose. In fact, my objective was to label individual DNA or RNA molecules with univocal barcodes, to enable the identification of all the reads generated from the subfragments of each original molecule. For this purpose I used random barcodes, considering that reads with the same barcode would come from the same original DNA/RNA molecule. Therefore, in comparison to standard barcoding techniques, my approach has two main differences: firstly it is a single molecule barcoding, secondly the barcodes are made by random sequences. A considerable part of my work was dedicated to the development of reliable genetic engineering strategies to obtain mate-pair libraries constituted on one side by the barcoded end and on the other side by a random region of the original DNA or RNA molecule. Every step of the protocol was carefully optimized in order to make the method simple and at the same time robust. Several trials were performed to test the method. Although in these trials we limited the analysis to a low coverage, we found that mate pair reads sharing the same barcode were mostly mapping in clustered genomic positions, as expected. Our results, albeit preliminary, demonstrate that the method so far developed is capable to work. Although some steps of the protocol could be further optimized, the method is now applied to produce long genomic reads with high coverage. Furthermore, some adaptations are now implemented to apply the method also to transcriptome samples.

L'avvento dei sequenziatori di ultima generazione (NGS) ha profondamente cambiato il nostro approccio allo studio del genoma e dell'espressione genica: negli ultimi dieci anni è stata prodotta un'incredibile quantità di dati e di evidenze sperimentali riguardanti la complessità del trascrittoma e le interazioni tra specifiche proteine e molecole di DNA o RNA, aprendo così la strada ad entusiasmanti scoperte ed applicazioni tecnologiche. Sfortunatamente, la ridotta lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione limita le potenzialità di questa tecnologia. Nello specifico, alcune interessanti applicazioni quali l'analisi degli splicing alternativi e dell'RNA-editing, l'assemblaggio di genomi ex novo, la caratterizzazione di aplotipi e l'identificazione di variazioni strutturali a livello genomico, beneficerebbero sicuramente di una tecnologia in grado di produrre lunghe sequenze ad alta qualità. Lo studio che ho condotto durante il mio dottorato di ricerca è stato finalizzato alla produzione di lunghe sequenze ad alta qualità utilizzando gli attuali sequenziatori di seconda generazione. La principale motivazione che ha guidato questo studio è stata la volontà di caratterizzare a livello di sequenza nucleotidica le diverse isoforme trascrizionali in modo da poter verificare l'ipotesi di una relazione funzionale tra l'utilizzo di specifici siti d'inizio trascrizione e lo splicing alternativo degli esoni. Un'ulteriore motivazione era rappresentata dalla possibilità di ottenere la sequenza di lunghi frammenti di DNA al fine di facilitare l'assemblaggio di genomi. Non essendo possibile intervenire sulla lunghezza delle sequenze prodotte dai sequenziatori di seconda generazione, ho sviluppato una strategia che permette di ottenere lunghe sequenze nucleotidiche mediante un preciso assemblaggio di sequenze corte derivanti da una singola molecola. Questa strategia si basa sul concetto di “barcoding” molecolare. Un “barcode”, letteralmente “codice a barre”, è un corto frammento di DNA a sequenza nucleotidica nota che viene aggiunto a tutte le molecole di uno specifico campione. In questo modo è possibile sequenziare diversi campioni simultaneamente e associare ogni sequenza al proprio campione di provenienza semplicemente leggendo il “barcode” ad essa associato. Nel mio progetto lo scopo e la natura dei “barcode” è differente: i “barcode” utilizzati hanno sequenza casuale, in moda da poter marcare ogni singola molecola del campione con una sequenza univoca. La presenza di un “barcode” univoco permette l'assegnazione delle sequenze prodotte alla molecola di origine e, quindi, il loro corretto assemblaggio. Una parte considerevole di questo lavoro è stata dedicata allo sviluppo di strategie di ingegneria genetica che permettessero la costruzione di librerie “mate pair” in cui parte della sequenza fosse costituita dal “barcode”, mentre l'altra parte rappresentasse una porzione casuale della molecola di DNA o RNA di origine. Ogni singolo passaggio del protocollo è stato ottimizzato al fine di rendere il metodo più semplice e robusto. Diverse prove di sequenziamento sono state effettuate per poter valutare l'efficienza della metodica; sebbene l'analisi di queste prove sia stata condizionata dal basso “coverage” di sequenziamento, abbiamo dimostrato come le sequenze “mate pair” che condividono lo stesso “barcode” si allineino, come atteso, a livello della stessa posizione genomica. I risultati ottenuti, sebbene siano preliminari, dimostrano che il metodo sviluppato funziona. Nonostante alcuni passaggi del protocollo richiedano un'ulteriore ottimizzazione, il metodo verrà a breve impiegato per la produzione di lunghe sequenze genomiche aumentando il “coverage” di sequenziamento. Nel prossimo futuro l'introduzione di alcune modifiche minori al protocollo permetterà di estendere il suo utilizzo all'analisi di trascrittomi.

A novel method for the production of long DNA sequences from short reads / Targon, Robin. - (2015 Jan 31).