The domesticated apple (Malus × domestica) is one of the most cultivated plant over the world and is one of the most genetically polymorphic agricultural species. Studying the genetic diversity of the apple germplasm could provide important hints about the domestication process as giving a valuable resource for high resolution genetic mapping, QTL analysis and breeding programs. Advances in next generation sequencing technologies have driven the costs of DNA sequencing down to the point that whole genome re-sequencing (WGS) is now feasible for high diversity, large genome species. The aim of this work is to gain information on genome-wide genetic variability patterns in apple and to identify regions of the genome that may have been selected during the process of plant domestication. SNPs were called from Illumina short reads for 63 apple cultivars representative of European germplasm diversity. The identified SNPs (over 15 millions) were filtered for quality and to avoid repeated and paralogous regions. Additional filters (minor allele frequency and Hardy-Weinberg equilibrium) were applied to discard variants derived from genotyping errors resulting in a final number of 426,321 SNPs . The SNPs kept after the quality filters were used to study the population structure and the genetic diversity. A weak stratification of the analyzed population emerged both from the principal component analysis (PCA) and a model based clustering approach performed using fastStructure. This analysis showed the presence of three subpopulations with a high level of admixture. FST between each couple of sub-groups was 0.055, 0.083 and 0.096 that indicate a moderate differentiation. Two different approaches were used to identify selective sweeps. The first is based on allelic frequencies and the site frequency spectrum (SFS) and it is implemented in the software SweeD. The second is based on linkage disequilibrium patterns and the omega statistic and it is implemented in the software OmegaPlus. Regions that were identified by both softwares were merged and used as candidate regions for positive selection resulting in 1,194 sweeps on the whole genome. A total of 153 gene predictions were extracted from these candidate regions and annotated using Gene Ontology terms and mapping on the KEGG pathway database. Similarity searches were also performed against plant databases to find gene orthologs and to better understand the function of candidates. The annotation revealed that genes under positive selection are involved in pathways like photosynthesis, protein ubiquitination, plant hormone signal transduction and starch and sucrose metabolism. In particular for the plant hormone signal transduction, were identified the auxin influx carrier and a SAUR family protein that lead to cell enlargement and plant growth and the ethylene insensitive protein 2 that leads to fruit ripening and senescence. The genes identified in regions under positive selection that were functionally annotated are consistent with the domestication traits for a better fruit: bigger, tastier and sweeter

Il melo domestico (Malus × domestica) è una delle piante più coltivate al mondo ed è tra le specie agricole geneticamente più polimorfiche. Studiare la diversità genetica in melo può dare importanti suggerimenti sul processo di domesticazione e valide risorse per creare mappe genetiche ad alta risoluzione, per analisi di QTL e nei programmi di breeding. I miglioramenti nelle tecnologie di sequenziamento del DNA, dette NGS, hanno ridotto di molto i costi del sequenziamento al punto che i risequenziamenti completi di genomi sono ora fattibili anche per specie ad alta diversità genetica e dal genoma molto grande. Lo scopo di questo lavoro è l'analisi della variabilità genetica dell’intero genoma di melo e l'identificazione di regioni genomiche sottoposte a selezione durante il processo di domesticazione. A tale scopo 63 cultivar di melo, rappresentanti l’intera diversità del germoplasma europeo, sono state sequenziate con teconolgia Illumina. Dalle sequenze sono stati predetti oltre 15 milioni di SNP che sono stati filtrati eliminare le predizioni scadenti o legate a regioni ripetute e paraloghe. Ulteriori filtri (minor allele frequency e Hardy-Weinberg equilibrium) sono stati applicati per eliminare gli SNP derivati da errori di genotipizzazione. Il numero finale degli SNP filtrati è risultato di 426'321. Gli SNP rimasti dopo i filtri di qualità sono stati usati per studiare la struttura di popolazione e la diversità genetica. Dall'analisi delle componenti principali e da un metodo di clusterizzazione implementato in fastStructure, è emersa una debole stratificazione della popolazione analizzata. Questa analisi ha mostrato la presenza di tre sottopopolazioni con un alto livello di admixture. L’FST tra ogni coppia di sottopopolazioni è risultato di 0,055, 0,083 and 0,096 indicando un livello di differenziazione moderato. Due diversi approcci sono stati usati per identificare 'selective sweep'. Il primo è basato sulle frequenze alleliche e sul 'site frequency spectrum' (SFS) ed è implementato nel software SweeD. Il secondo è basato sui pattern di 'linkage disequilibrium' e la statistica ω ed è implementato nel software OmegaPlus. Le regioni del genoma che sono state identificate da entrambi i software sono state usate come regioni candidate sotto selezione positiva. In tutto il genoma le regioni sotto selezione sono risultate 1'194. In totale 153 predizioni geniche sono state estratte dalle regioni candidate e annotate usando i termini della Gene Ontology e con i pathway metabolici descritti nel database KEGG. Ricerche di similarità in database di piante sono state fatte per trovare geni ortologhi e per capire meglio la funzione dei geni candidati. L'annotazione ha rivelato che i geni sotto selezione positiva sono coinvolti in vari processi quali la fotosintesi, l'ubiquitinazione di proteine, la trasduzione del segnale ormonale delle piante o il metobolismo di amidi e zuccheri. In particolare, per la trasduzione del segnale, sono stati identificati l'importatore dell'auxina e una proteina della famiglia SAUR che agiscono sull'aumento della dimensione cellulare e sulla crescita della pianta e la proteina 2 insensibile all'etilene che porta alla maturazione del frutto e alla senescenza. Le annotazioni funzionali disponibili ascrivono i geni identificati a ruoli fisiologici coerenti con i tratti fenotipici attesi per un processo di domesticazione. Per esempio i tratti legati al miglioramento delle caratterisitche del frutto come la dimensione, il gusto e la dolcezza

Identification of selective sweeps in domesticated apple (Malus × domestica Borkh.) / Kerschbamer, Emanuela. - (2015 Feb 04).

Identification of selective sweeps in domesticated apple (Malus × domestica Borkh.)

Kerschbamer, Emanuela
2015

Abstract

Il melo domestico (Malus × domestica) è una delle piante più coltivate al mondo ed è tra le specie agricole geneticamente più polimorfiche. Studiare la diversità genetica in melo può dare importanti suggerimenti sul processo di domesticazione e valide risorse per creare mappe genetiche ad alta risoluzione, per analisi di QTL e nei programmi di breeding. I miglioramenti nelle tecnologie di sequenziamento del DNA, dette NGS, hanno ridotto di molto i costi del sequenziamento al punto che i risequenziamenti completi di genomi sono ora fattibili anche per specie ad alta diversità genetica e dal genoma molto grande. Lo scopo di questo lavoro è l'analisi della variabilità genetica dell’intero genoma di melo e l'identificazione di regioni genomiche sottoposte a selezione durante il processo di domesticazione. A tale scopo 63 cultivar di melo, rappresentanti l’intera diversità del germoplasma europeo, sono state sequenziate con teconolgia Illumina. Dalle sequenze sono stati predetti oltre 15 milioni di SNP che sono stati filtrati eliminare le predizioni scadenti o legate a regioni ripetute e paraloghe. Ulteriori filtri (minor allele frequency e Hardy-Weinberg equilibrium) sono stati applicati per eliminare gli SNP derivati da errori di genotipizzazione. Il numero finale degli SNP filtrati è risultato di 426'321. Gli SNP rimasti dopo i filtri di qualità sono stati usati per studiare la struttura di popolazione e la diversità genetica. Dall'analisi delle componenti principali e da un metodo di clusterizzazione implementato in fastStructure, è emersa una debole stratificazione della popolazione analizzata. Questa analisi ha mostrato la presenza di tre sottopopolazioni con un alto livello di admixture. L’FST tra ogni coppia di sottopopolazioni è risultato di 0,055, 0,083 and 0,096 indicando un livello di differenziazione moderato. Due diversi approcci sono stati usati per identificare 'selective sweep'. Il primo è basato sulle frequenze alleliche e sul 'site frequency spectrum' (SFS) ed è implementato nel software SweeD. Il secondo è basato sui pattern di 'linkage disequilibrium' e la statistica ω ed è implementato nel software OmegaPlus. Le regioni del genoma che sono state identificate da entrambi i software sono state usate come regioni candidate sotto selezione positiva. In tutto il genoma le regioni sotto selezione sono risultate 1'194. In totale 153 predizioni geniche sono state estratte dalle regioni candidate e annotate usando i termini della Gene Ontology e con i pathway metabolici descritti nel database KEGG. Ricerche di similarità in database di piante sono state fatte per trovare geni ortologhi e per capire meglio la funzione dei geni candidati. L'annotazione ha rivelato che i geni sotto selezione positiva sono coinvolti in vari processi quali la fotosintesi, l'ubiquitinazione di proteine, la trasduzione del segnale ormonale delle piante o il metobolismo di amidi e zuccheri. In particolare, per la trasduzione del segnale, sono stati identificati l'importatore dell'auxina e una proteina della famiglia SAUR che agiscono sull'aumento della dimensione cellulare e sulla crescita della pianta e la proteina 2 insensibile all'etilene che porta alla maturazione del frutto e alla senescenza. Le annotazioni funzionali disponibili ascrivono i geni identificati a ruoli fisiologici coerenti con i tratti fenotipici attesi per un processo di domesticazione. Per esempio i tratti legati al miglioramento delle caratterisitche del frutto come la dimensione, il gusto e la dolcezza
4-feb-2015
The domesticated apple (Malus × domestica) is one of the most cultivated plant over the world and is one of the most genetically polymorphic agricultural species. Studying the genetic diversity of the apple germplasm could provide important hints about the domestication process as giving a valuable resource for high resolution genetic mapping, QTL analysis and breeding programs. Advances in next generation sequencing technologies have driven the costs of DNA sequencing down to the point that whole genome re-sequencing (WGS) is now feasible for high diversity, large genome species. The aim of this work is to gain information on genome-wide genetic variability patterns in apple and to identify regions of the genome that may have been selected during the process of plant domestication. SNPs were called from Illumina short reads for 63 apple cultivars representative of European germplasm diversity. The identified SNPs (over 15 millions) were filtered for quality and to avoid repeated and paralogous regions. Additional filters (minor allele frequency and Hardy-Weinberg equilibrium) were applied to discard variants derived from genotyping errors resulting in a final number of 426,321 SNPs . The SNPs kept after the quality filters were used to study the population structure and the genetic diversity. A weak stratification of the analyzed population emerged both from the principal component analysis (PCA) and a model based clustering approach performed using fastStructure. This analysis showed the presence of three subpopulations with a high level of admixture. FST between each couple of sub-groups was 0.055, 0.083 and 0.096 that indicate a moderate differentiation. Two different approaches were used to identify selective sweeps. The first is based on allelic frequencies and the site frequency spectrum (SFS) and it is implemented in the software SweeD. The second is based on linkage disequilibrium patterns and the omega statistic and it is implemented in the software OmegaPlus. Regions that were identified by both softwares were merged and used as candidate regions for positive selection resulting in 1,194 sweeps on the whole genome. A total of 153 gene predictions were extracted from these candidate regions and annotated using Gene Ontology terms and mapping on the KEGG pathway database. Similarity searches were also performed against plant databases to find gene orthologs and to better understand the function of candidates. The annotation revealed that genes under positive selection are involved in pathways like photosynthesis, protein ubiquitination, plant hormone signal transduction and starch and sucrose metabolism. In particular for the plant hormone signal transduction, were identified the auxin influx carrier and a SAUR family protein that lead to cell enlargement and plant growth and the ethylene insensitive protein 2 that leads to fruit ripening and senescence. The genes identified in regions under positive selection that were functionally annotated are consistent with the domestication traits for a better fruit: bigger, tastier and sweeter
apple, Malus x domestica, selective sweep, domestication, selection
Identification of selective sweeps in domesticated apple (Malus × domestica Borkh.) / Kerschbamer, Emanuela. - (2015 Feb 04).
File in questo prodotto:
File Dimensione Formato  
Emanuela_Kerschbamer_thesis.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 12.7 MB
Formato Adobe PDF
12.7 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3424163
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact