Genomic analysis and identification of polymorphisms in grape by second generation sequencing

Rigobello, Chiara

Recently, an extensive amount of genomic data has been collected for grapevine (Vitis vinifera), culminating with the complete sequencing of the genome (August 2007) of a highly homozygous lineage of Pinot Noir (PN40024). My group have focused its research on this cultivar of Pinot with the multiple goals of genome assembly, gene identification and annotation, transcriptome analysis and identification of polymorphisms. Genomic projects heavily depend on genome annotations and are limited by the current deficiencies in the published predictions of gene structure and function. For this reason an improved annotation will allow better data mining of the grape genome, and more correct planning and design of next experiments. Moreover in the genomics era, many of the experiments useful to confirm the identification of gene and their function can be achieved using high-throughput methods: for example, whole genome sequencing and massive parallel transcriptome analysis obtained by means of second generation sequencers (SOLiD, Applied Biosystem; Solexa, Illumina; 454, Roche). In addition, these methodologies are suitable for re-sequencing strategies in order to identify variations (polymorphisms) that could explain differences in phenotype. During my PhD, I was involved in the sequencing project of Vitis vinifera genome to gain a 2 X coverage of genome sequence via traditional Sanger method. In a second moment, with the introduction of a “new generation sequencer” (SOLiDTM, Applied Biosystem) in my lab, I was able to perform a new kind of DNA sequence analysis (through sequencing by ligation system) which produces a larger amount of data (Giga bases per run) in comparison with Sanger method. I have applied this new technology in testing the sequencing efficiency and in discovering polymorphisms in Vitis vinifera cultivars of Merlot and Prosecco. The sequencing of the homozygous lineage of Pinot noir has been achieved through a “whole-genome-shotgun” (WGS) approach. It implies the shearing of DNA in random fragments, the cloning in a vector, and at the end the sequencing of the cloned insert. Out of three tested amplification methods (PCR, Tepli 29 kit and Millipore mini- preparation), the miniprep was used for the majority of the template since it produces very reliable results in terms of reproducibility and template quality. The amplification process is a necessary step in Sanger sequencing to read the signal on automatic capillary electrophoresis machines. The data output (“reads”) are given by electropherograms, 900-1000bp long, collected by a software. The amount of coverage for grape was 12 X, that means that the consortium produced 480 Mb (genome size) 12 times: 5.7 Gb. My lab contributed with a 2 folds genome coverage. A draft genome sequence has been obtain in August and led to the publication of a paper in Nature: “The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla.” [Nature, 499, 463-468 (2007)]. The availability of the SOLiD technology in my lab have allowed a specific study on the discovery of polymorphisms through re-sequencing of Merlot and Prosecco cultivars. The sequencing of grape genome has been performed on a particular homozygous lineage in order to have a determined reference sequence. Pinot Noir in nature is highly polymorphic with two clearly distinguishable haplotypes revealing millions of SNPs. This represent a powerful resource for molecular breeding programs and QTL markers association studies. In fact, once the initial sequence for a particular genome is available, it is then possible to perform comparative sequencing or re-sequencing to identify polymorphisms, mutations, and structural variations between organisms. Whole genome re-sequencing requires a highly parallel system to provide the depth of coverage required for variant detection. Library preparation is also critical as the complexity and time involved are multiplied when analyzing multiple genomes. The choice of these two particular cultivars resides in several aspects: 1. availability of source samples (supplied by prof. F. Lo Schiavo and Prof C. Bonghi - University of Padua); 2. different growth conditions; 3. autochthonous cultivar origins (Merlot is cultivated in Monselice and comes from a French clone, while Prosecco is a real Veneto-grape); 4. sparse of genomic information on these two specific cultivars. Assuming these information, mate pairs libraries were created for the two examined cultivars in order to possibly evaluate polymorphisms presence within the two cultivated varietas. These libraries were used in a standard sequencing run on SOLiDTM3. On the average, 7 Gb of sequences have been produced for Merlot and Prosecco and about 1.2 million SNPs and 2.2 million SNPs were identified respectively through bioinformatics analysis. These large amount of data produced will be analyzed to obtain further information. Variations in sequence will be tested via PCR of random sampled polymorphic sites to confirm bioinformatics suggestions. Moreover, analysis of specific gene sets will be useful in investigating differences within gene family or between families. All variations are going to be mapped in the Vitis vinifera GBrowse as SNPs Merlot and SNPs Prosecco entries. Each entry shows the modified base, the modified codon and the possibly modified amino acid. The last part of the research investigates structural variations (SVs). Preliminary results have been observed, indicating some interesting zones to be better understood. The limit of bioinformatics analyses is the “low” coverage obtained taking into account only the right (mates mapped with the right distance and orientation against the reference genome) positioned pairs of the mate-pairs library. The large amount of produced data offers the possibility to investigated several aspects of genes relationship and regulatory mechanisms. In particular, a more accurate analysis of rearrangements in coding regions will be conducted to verify the nucleotide diversity and the mutation rate among cultivars.

La quantità di dati genomici (ESTs, geni, proteine) disponibili per la vite (Vitis vinifera) è, ad oggi, molto ampia. Il risultato più importante lo si è raggiunto nell’agosto del 2007 con il sequenziamento dell’intero genoma di una linea altamente omozigote, ed appositamente creata, di Pinot Noir (PN40024). Il mio gruppo ha incentrato la sua ricerca su questa cultivar di Pinot con l’intento di completare l’ assemblaggio del genoma, di identificare i geni e annotarli (cioè di descriverne la composizione), di studiarne il trascrittoma e infine di identificare i polimorfismi. I progetti di genomica dipendono fortemente dall’ annotazione e sono vincolati da eventuali carenze nelle predizioni sulla struttura e sulla funzione genica. Per questo motivo, un miglioramento nella fase di annotazione si riflette in una più precisa descrizione dei dati ottenuti dal sequenziamento del genoma e una conseguente pianificazione degli esperimenti più corretta. Inoltre, nell’era della genomica e grazie a dei metodi high-throughput, possono essere sviluppati in parallelo degli esperimenti di identificazione genica e/o tesi a descriverne la loro funzione con un output molto elevato: il sequenziamento di interi genomi o l’analisi del trascrittoma possono venir ottenuti grazie a singoli esperimenti con sequenziatori di seconda generazione (SOLiD (Applied Biosystems) Solexa (Illumina) e 454 (Roche)). Queste metodologie sono adatte per le strategie di ri-sequenziamento di interi genomi, con l’intento di identificare varianti (polimorfismi) genotipiche che potrebbero spiegare le differenze a livello del fenotipo. Durante il mio dottorato, sono stata inizialmente coinvolta nel progetto di sequenziamento del genoma di Vitis vinifera intrapreso da un Consorzio europeo (I.G.G.P.) con l’intento di sequenziare il genoma in modo che ogni base fosse rappresentata 12 volte (12 X coverage per base). Il mio gruppo ha partecipato al progetto di sequenziamento per una quota di 2 genomi equivalenti attraverso l’approccio Sanger. La disponibilità della sequenza genomica di vite potrebbe aiutare i ricercatori a comprendere meglio alcuni caratteri comuni ad altre piante da frutto. In particolare, considerando l’alto tasso di eterozigosità delle varie cultivar di Vitis, le differenze tra le varietà dovrebbero scaturire dalla valutazione dei polimorfismi condivisi e quelli specifici per la singola cultivar. In un secondo momento, con l’introduzione di un sequenziatore di nuova generazione (SOLiDTM, Applied Biosystems che sfrutta il sistema di “sequenziamento per ligazione”) nel mio laboratorio, ho avuto l’opportunità di applicare questa nuova tecnologia nell’identificazione di polimorfismi in due cultivar di Vitis vinifera: Merlot e Prosecco. L’obiettivo del progetto era quello di avere il maggior numero possibile di marcatori al fine di disegnare eventualmente una mappa genetica per la singola cultivar. E’ ben noto che la disponibilità di marcatori genetici offre la possibilità di idagare i genotipi e valutare le differenze tra le specie o le sottospecie. Le mappe genetiche consentono di facilitare le tecniche di allevamento delle piante (breeding) e la ricerca genomica, individuando gli alleli migliori associati a caratteri “positivi” o alleli che portano, ad esempio, alla suscettibilità rispetto ad alcuni patogeni o a determinate condizioni ambientali. Il sequenziamento della linea omozigote di Pinot nero è stato ottenuto attraverso un approccio “Whole genome shotgun” (WGS) che implica la frammentazione casuale del DNA, il clonaggio in un vettore, l’amplificazione e il successivo sequenziamento dell’inserto clonato. Dei tre metodi testati per l’amplificazione (PCR, Tepli 29 kit Millipore e mini-prep),la miniprep è stata scelta per amplificare la maggior parte dei templati. Questo perchè durante lo svolgimento di questa ricerca la tecnica della mini-prep ha prodotto dei risultati molto affidabili sia in termini di riproducibilità che di qualità dell’inserto. Il processo di amplificazione è un passo necessario per il sequenziamento Sanger. I dati (reads) sono prodotti sottoforma di elettroferogrammi, lunghi tra le 900 e le 1000 bp, che sono successivamente raccolti da un software. E’ stato sequenziato un totale di 12 X coverage del genoma, che corrisponde a circa 5,7 Gb di sequenza. Un primo consensus del genoma della vite corrispondente all’ 8,4 X coverage è stato ottenuto nell’agosto del 2007 e un articolo è stato pubblicato su Nature: “The grapevine genome sequence suggests ancestral exaploidization in major angiosperm phyla.” [Nature, 499, 463-468 (2007)]. La disponibilità della piattaforma SOLiD (Applied Biosystems) nel mio laboratorio, mi ha permesso di condurre un esperimento sull’identificazione dei polimorfismi attraverso il re-sequencing delle cultivar di Merlot e Prosecco. Il sequenziamento Sanger del Pinot nero è stato effettuato su un ceppo omozigote in modo da avere una precisa sequenza di riferimento priva (< 3%) di siti in eterozigosi. Il Pinot nero in natura è altamente polimorfico, con due aplotipi ben distinguibili che rivelano milioni di SNP. Questo aspetto della vite rappresenta una potente risorsa per i programmi di miglioramento genetico e molecolare. Una volta che la sequenza di una particolare specie è disponibile, è possibile poi eseguire degli esperimenti di sequenziamento comparativo o ri-sequenziamento di altri genomi correlati per identificare polimorfismi, mutazioni e variazioni strutturali. Questo tipo di studi, però, necessita della disponibilità di una reference (un genoma a cui fare riferimento) ed un sistema ad alta processività che fornisca la copertura numero di reads per base) necessaria per il rilevamento di una variante. Un altro punto critico del re-sequencing è la preparazione delle librerie di DNA che è molto complessa e impegna tanto tempo considerando l’analisi multipla dei genomi da confrontare. Per questi motivi l’uso dei sequenziatori di nuova generazione è innovativo: gli esperimenti di re-sequencing sono eseguiti in parallelo su diversi genomi con un notevole rispormio di tempo. La scelta di queste due cultivar in particolare è dovuta a diversi aspetti: 1. la disponibilità di campioni (fornito dalla prof F. Lo Schiavo e dal prof C. Bonghi - Università degli Studi di Padova); 2. le diverse condizioni di crescita; 3. l’origine autoctona delle cultivar (il Merlot proviene da una coltivazione in campo nei pressi di Monselice e deriva da un clone francese, mentre il Prosecco è un vero e proprio vitigno veneto); 4. l’esiguità di informazioni genomiche su queste due specifiche cultivar. Considerando tutti questi aspetti, due librerie mate-pairs sono state create, una per ogni cultivar a cui è seguita una corsa di sequenziamento standard sulla piatttaforma SOLiDTM 3. Successivamente i dati prodotti sono stati analizzati per l’identificazione di eventuali polimorfismi. Sono state prodotte per il Merlot 8,4 Gb di sequenza genomica, mentre per il Prosecco 6,8 Gb. Grazie all’uso di un software specifico di allinemento di short reads, circa 1,2 milioni di SNP e 2,2 milioni di SNP sono stati identificati rispettivamente. Ulteriori studi sono necessari per approfondire questa prima analisi dei dati. Le varianti individuate saranno inoltre testate mediante una PCR di pool di SNP casuali per confermare le analisi bioinformatiche. L’analisi di specifici set di geni sarà utile per indagare le differenze all’interno di una famiglia genica o tra famiglie. Tutte le variazioni sono state mappate nel GBrowse della vite come SNP di Merlot e SNP di Prosecco. Ciascuna evidenza indica il cambiamento di base, il codone che nel caso viene modificato e l’amminoacido che eventualmente cambia. Durante questo studio ho cercato di identificare anche le variazioni strutturali (SVs). Sono stati ottenuti dei risultati preliminari che portano all’identificazione di alcune “aree” di particolare interesse, soprattutto per quel che riguarda le delezioni definite large. Il limite delle analisi bioinformatiche per il rilevamento delle differenze è spesso dovuto ad una bassa copertura del genoma. In questo caso, prendendo in considerazione solo le coppie corrette della libreria mate-pairs, cioè quelle coppie con corretto orientamento reciproco e che mappano ad una giusta distanza nel genoma di riferimento, si è ottenuta una buona copertura fisica (50 X per il Merlot e 141 X per il Prosecco) e una bassa copertura di sequenza (1,5 X Merlot e 3,5 X Prosecco). Quest’ultimo dato, in ogni caso, se preso in considerazione assieme al coverage fisico, fornisce alcune importanti indicazioni sui riarrangiamenti genomici. Si può quindi affermare che, la grande quantità di dati prodotti dai sequenziatori di nuova generazione offre la possibilità di studiare in parallelo diversi aspetti che riguardano le relazioni tra i geni e i meccanismi che regolano le loro funzioni. Il problema sorge nell’analisi ed interpretazione corretta dei dati stessi; infatti, una pianificazione della ricerca non corretta potrebbe portare ad un grosso spreco di risultati. Per quanto riguarda questo specifico studio, è neccessaria un’analisi più accurata dei riarrangiamenti nelle regioni codificanti per verificare la diversità nucleotidica e il tasso di mutazione tra le cultivar.

Genomic analysis and identification of polymorphisms in grape by second generation sequencing / Rigobello, Chiara. - (2010 Oct 07).