Microalgae are of great importance in ecology, biochemistry, and biotechnology. Nevertheless, just a few genomes have been sequenced so far, most of them by Sanger sequencing. While next generation sequencing techniques have revolutionized genome resequencing, genetic mapping, or transcriptome and ChIP analyses, de novo assembly of eukaryotic genomes still presents significant hurdles, because of their large size and stretches of repetitive sequences. Microalgae contain fewer repetitive regions in their 30–100 Mb genomes than genomes of mammals or higher plants and thus are suitable candidates to test de novo genome assembly from short sequence reads. Here, we present a draft sequence of the Nannochloropsis gaditana genome that was obtained by a combination of SOLiD and Roche 454 sequencing. Mate-Pair SOLiD sequencing of genomic DNA to 250-fold coverage and an additional 7-fold coverage by single-end 454 sequencing resulted in 15 Gb of raw sequence data. Reads were assembled to a 32 Mb draft version (N50 of 50kb) with the a pipeline of tools evolved in our group. 167 scaffolds were produced accounting for 18.7Mb. Our study supports the expectation that for typical microalgae, de novo assembly of genomes from short sequence reads alone is feasible, cheap and efficient; that a mixture of SOLiD and 454 sequencing substantially improves the assembly; and that the resulting data can be used for comparative studies and to provide a valuable framework to plan the application of recombinant techniques. Furthermore a whole transcriptome analyses was carried out to identify, characterize and catalogue all the transcripts expressed, exploiting the great potential of RNA-Seq using the SOLiD platform to determine the correct gene annotation, the identification and characterization of the splicing patterns and to obtain the structure of genes, also defining—at single nucleotide resolution—the transcriptional boundaries of genes and the expressed Single Nucleotide Polymorphisms (SNPs). Important technical innovations were also introduced in this work that allowed a precise mapping of the transcription start to support a robust prediction of the regulatory region on the genome sequence. RNA-Seq was also used to study the differential expression of transcripts in cultures able to accumulate substantially different amounts of lipids, in order to obtain insights on lipid metabolism of N.gaditana. The study was carried on using as input sequences for the SOLiD run both polyadenylated mRNA enriched fractions and ribo-depleted RNA samples that allowed to recovery also the plastidial mRNA. Our results shows how data obtained from a single SOLiD run, applying specific ad hoc variation on the standard protocols, provide enough coverage to support a valuable annotation of a completely new genome and to provide all the information necessary to underline the main features of pathways of interest if different biological samples are compared. The N. gaditana sequencing project fulfilled the two important aims of assembling a draft of the genome sequence using sole next generation short reads and providing a careful genome annotation, with the goal of a better understanding of N. gaditana biology and the idea of improving its value as a model organism for biotechnological applications related to biofuel production.

Nonostante le microalghe rivestano una particolare importanza per l’ecologia, la biochimica e le biotecnologie, solo poche specie sono state sequenziate a tutt’oggi e per lo più nell’era del sequenziamento di tipo Sanger. Mentre i sequenziatori di nuova generazione hanno fornito straordinari mezzi al risequenziamento di genomi di singoli individue per cui il genoma della specie di riferimento era già disponibile, il sequenziamento di genomi eucariotici completamente nuovi, utilizzando sequenze corte, presenta ancora grandi difficoltà. Le principali difficoltà si riscontrano in fase di assemblaggio e sono principalmente dovute alle notevoli dimensioni dei genomi eucariotici e alla presenza di regioni ripetute. Le microalghe, nei loro genomi, grandi in genere dalle 30Mb alle 100Mb, contengono poche regioni a bassa complessità e costituiscono pertanto degli interessanti organismi sui quali sperimentare il sequenziamento ex novo utilizzando esclusivamente i sequenziatori di seconda generazione. In questo lavoro, descriviamo il sequenziamento e l’assemblaggio del genoma della microalga Nannochloropsis gaditana, ottenuto utilizzando le sequenze prodotte dal 454 della Roche e dal SOLiD. Il sequenziamento di ‘mate-pairs’ utilizzando il SOLiD ha prodotto una copertura di sequenza di circa 250 volte la grandezza del genoma, mentre il sequenziamento 454 è stato utilizzato per produrre una ulteriore copertura di 7 volte con sequenze di media lunghezza. Le sequenze sono state assemblate in una versione preliminare non del tutto finita di 32Mb, dove 18.7Mb sono state incluse in 167 grandi scaffolds. Il 50% degli scaffolds ottenuti è più grande di 50Kb, mentre un terzo del genoma è stato assemblato in circa 20 contigs. Il nostro lavoro conferma la previsione che le tecniche di nuova generazione sono adatte al sequenziamento del genoma di una microalga e consentono di ottenere risultati utili in un tempo più breve di quelli tradizionali e ad un minor costo. I dati ottenuti potranno esser utilizzati per analisi comparative del genoma e saranno anche un importante prerequisito per l’applicazione di tecniche ricombinati alla microalga di interesse biotecnologico. Inoltre, durante questo progetto, sono state portate avanti anche diverse analisi del trascrittoma tramite sequenziamento, finalizzate alla produzione di una lista di geni utile all’annotazione del genoma e all’identificazione di geni differenzialmente espressi in condizioni di accumulo di lipidi. Vengono presentate, in questo lavoro, anche alcune innovazioni tecniche che hanno permesso di sfruttare al meglio il sequenziamento SOLiD per produrre un’accurata annotazione della struttura del trascrittoma e una più completa analisi dei geni differenzialmente espressi codificati negli organelli. I risultati dimostrano che una sola corsa SOLiD su campioni preparati in modo adeguato, è sufficiente per l’annotazione accurata di un genoma completamente nuovo e per l’individuazione di geni differenzialmente espressi in condizioni di interesse.  

Going ultra deep to unravel the secret recipe of biofuel / Corteggiani Carpinelli, Elisa. - (2010).

Going ultra deep to unravel the secret recipe of biofuel

Corteggiani Carpinelli, Elisa
2010

Abstract

Nonostante le microalghe rivestano una particolare importanza per l’ecologia, la biochimica e le biotecnologie, solo poche specie sono state sequenziate a tutt’oggi e per lo più nell’era del sequenziamento di tipo Sanger. Mentre i sequenziatori di nuova generazione hanno fornito straordinari mezzi al risequenziamento di genomi di singoli individue per cui il genoma della specie di riferimento era già disponibile, il sequenziamento di genomi eucariotici completamente nuovi, utilizzando sequenze corte, presenta ancora grandi difficoltà. Le principali difficoltà si riscontrano in fase di assemblaggio e sono principalmente dovute alle notevoli dimensioni dei genomi eucariotici e alla presenza di regioni ripetute. Le microalghe, nei loro genomi, grandi in genere dalle 30Mb alle 100Mb, contengono poche regioni a bassa complessità e costituiscono pertanto degli interessanti organismi sui quali sperimentare il sequenziamento ex novo utilizzando esclusivamente i sequenziatori di seconda generazione. In questo lavoro, descriviamo il sequenziamento e l’assemblaggio del genoma della microalga Nannochloropsis gaditana, ottenuto utilizzando le sequenze prodotte dal 454 della Roche e dal SOLiD. Il sequenziamento di ‘mate-pairs’ utilizzando il SOLiD ha prodotto una copertura di sequenza di circa 250 volte la grandezza del genoma, mentre il sequenziamento 454 è stato utilizzato per produrre una ulteriore copertura di 7 volte con sequenze di media lunghezza. Le sequenze sono state assemblate in una versione preliminare non del tutto finita di 32Mb, dove 18.7Mb sono state incluse in 167 grandi scaffolds. Il 50% degli scaffolds ottenuti è più grande di 50Kb, mentre un terzo del genoma è stato assemblato in circa 20 contigs. Il nostro lavoro conferma la previsione che le tecniche di nuova generazione sono adatte al sequenziamento del genoma di una microalga e consentono di ottenere risultati utili in un tempo più breve di quelli tradizionali e ad un minor costo. I dati ottenuti potranno esser utilizzati per analisi comparative del genoma e saranno anche un importante prerequisito per l’applicazione di tecniche ricombinati alla microalga di interesse biotecnologico. Inoltre, durante questo progetto, sono state portate avanti anche diverse analisi del trascrittoma tramite sequenziamento, finalizzate alla produzione di una lista di geni utile all’annotazione del genoma e all’identificazione di geni differenzialmente espressi in condizioni di accumulo di lipidi. Vengono presentate, in questo lavoro, anche alcune innovazioni tecniche che hanno permesso di sfruttare al meglio il sequenziamento SOLiD per produrre un’accurata annotazione della struttura del trascrittoma e una più completa analisi dei geni differenzialmente espressi codificati negli organelli. I risultati dimostrano che una sola corsa SOLiD su campioni preparati in modo adeguato, è sufficiente per l’annotazione accurata di un genoma completamente nuovo e per l’individuazione di geni differenzialmente espressi in condizioni di interesse.  
2010
Microalgae are of great importance in ecology, biochemistry, and biotechnology. Nevertheless, just a few genomes have been sequenced so far, most of them by Sanger sequencing. While next generation sequencing techniques have revolutionized genome resequencing, genetic mapping, or transcriptome and ChIP analyses, de novo assembly of eukaryotic genomes still presents significant hurdles, because of their large size and stretches of repetitive sequences. Microalgae contain fewer repetitive regions in their 30–100 Mb genomes than genomes of mammals or higher plants and thus are suitable candidates to test de novo genome assembly from short sequence reads. Here, we present a draft sequence of the Nannochloropsis gaditana genome that was obtained by a combination of SOLiD and Roche 454 sequencing. Mate-Pair SOLiD sequencing of genomic DNA to 250-fold coverage and an additional 7-fold coverage by single-end 454 sequencing resulted in 15 Gb of raw sequence data. Reads were assembled to a 32 Mb draft version (N50 of 50kb) with the a pipeline of tools evolved in our group. 167 scaffolds were produced accounting for 18.7Mb. Our study supports the expectation that for typical microalgae, de novo assembly of genomes from short sequence reads alone is feasible, cheap and efficient; that a mixture of SOLiD and 454 sequencing substantially improves the assembly; and that the resulting data can be used for comparative studies and to provide a valuable framework to plan the application of recombinant techniques. Furthermore a whole transcriptome analyses was carried out to identify, characterize and catalogue all the transcripts expressed, exploiting the great potential of RNA-Seq using the SOLiD platform to determine the correct gene annotation, the identification and characterization of the splicing patterns and to obtain the structure of genes, also defining—at single nucleotide resolution—the transcriptional boundaries of genes and the expressed Single Nucleotide Polymorphisms (SNPs). Important technical innovations were also introduced in this work that allowed a precise mapping of the transcription start to support a robust prediction of the regulatory region on the genome sequence. RNA-Seq was also used to study the differential expression of transcripts in cultures able to accumulate substantially different amounts of lipids, in order to obtain insights on lipid metabolism of N.gaditana. The study was carried on using as input sequences for the SOLiD run both polyadenylated mRNA enriched fractions and ribo-depleted RNA samples that allowed to recovery also the plastidial mRNA. Our results shows how data obtained from a single SOLiD run, applying specific ad hoc variation on the standard protocols, provide enough coverage to support a valuable annotation of a completely new genome and to provide all the information necessary to underline the main features of pathways of interest if different biological samples are compared. The N. gaditana sequencing project fulfilled the two important aims of assembling a draft of the genome sequence using sole next generation short reads and providing a careful genome annotation, with the goal of a better understanding of N. gaditana biology and the idea of improving its value as a model organism for biotechnological applications related to biofuel production.
Nannochloropsis, genomics, transcriptomics, Next generation sequencing, metabolic biochemistry
Going ultra deep to unravel the secret recipe of biofuel / Corteggiani Carpinelli, Elisa. - (2010).
File in questo prodotto:
File Dimensione Formato  
TesiDottoratoCC.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 15.36 MB
Formato Adobe PDF
15.36 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3421612
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact