From High-Throughput Analysis of Genetic Variants to the Experimental Validation of Putative Protein Function

Gasparini, Alessandra

The state-of-the-art approach for the genetic molecular cause research relies on massively parallel gene sequencing, which represents a challenge both in data handling and variant prioritization. The univocal assignment of disease pathogenicity to the sequence variants is often difficult, and requires the integration of different lines of evidence for a comprehensive interpretation. During my thesis, I contributed to the development of novel approaches to evaluate rare variant contribution to the clinical phenotype. These methods were presented and evaluated at the Critical Assessment of Genome Interpretation, ranking among top programs considering either performance or the number of correct assigned disease predictions. A similar strategy was employed for identification of disease genes linked to neurodevelopmental disorders (NDDs) comorbidity. In this case, computational methods were applied to select the most promising candidate genes for the design of diagnostic panel, which is currently used for patient screening at Pediatrics Clinic of the University of Padova. The variants found within the panel genes have been selected according frequency, pathogenicity prediction and variant segregation analysis within the family. Furthermore, I took advantage of different computational tools to investigate the mutated gene function, and used this information to demonstrate the impact of likely pathogenic variant on clinical phenotype. In several cases, likely pathogenic mutations mapped to intrinsically disordered regions (IDRs), which lack a fixed three-dimensional structure. Coherently, several studies demonstrate that mutations in IDRs are often associated with the pathogenesis of various human diseases. Thus, IDRs classification could represent a critical step for understanding the impact of possibly disease-causative variants mapping in these regions. Due to the influence of intrinsically disordered proteins (IDPs) in diseases, I participated to the manual curation and update of entries in the DisProt database, the primary repository of disorder-related data on sequence. Interestingly, increasing evidence from literature highlights the IDPs involvement in neuronal signal transduction. Among the proteins encoded by diagnostic panel genes, TANC2 especially emerged as intrinsically disordered protein with a possible role in synaptic signal transduction. As TANC2 and its protein family function was poorly characterized, I performed an in silico analysis to characterize the TANC protein activity, and the implicated biological processes. The functional hypothesis emerged from the bioinformatics analysis was used to drive further experimental investigations. In vitro validation of predicted TANC2-CDKL5 interaction highlighted the relevance of the IDRs in regulating degradation of CDKL5, whose mutations are associated with a heterogeneous set of NDD phenotypes. Furthermore, I demonstrated that TANC2 contributes to downregulate CDKL5 expression levels. For this reason, TANC2 protein could represent a novel therapeutic target to design new drugs for the treatment of CDKL5 over-expression associated diseases.

La strategia di elezione per l'identificazione di varianti causative di malattie genetiche consiste nell’utilizzo di piattaforme di Next Generation Sequencing. Questo tipo di approccio rappresenta una sfida, sia per quanto riguarda la gestione della mole di dati da sequenziamento, che per l’interpretazione clinica dei risultati. L’identificazione di varianti chiaramente implicate nella determinazione della patologia è un processo complesso, che richiede l'integrazione di diversi tipi di informazione. Durante il mio dottorato, ho contributo all’implementazione di metodi computazionali per predire la probabilità che un determinato genotipo sia associato al fenotipo clinico di interesse. Questi metodi sono stati presentati, e valutati, in occasione del Critical Assessment of Genome Interpretation (CAGI), dove si sono posizionati tra i migliori classificati sia per prestazioni che numero di predizioni corrette. Una strategia analoga è stata applicata all’identificazione di geni implicati nella comorbidità tra disordini del neurosviluppo. Anche in questo caso, l’utilizzo di tecniche bioinformatiche si è reso fondamentale per la selezione di geni candidati, che sono stati poi utilizzati nella progettazione di un pannello genico diagnostico attualmente in uso presso la Clinica Pediatrica dell’Università di Padova. Data la gran quantità di dati prodotti per esperimento, le varianti trovate nei geni inclusi nel pannello sono state filtrate in base alla frequenza, alla predizione di patogenicità e all'analisi di segregazione all'interno della famiglia. In alcuni casi, un ulteriore contributo a supporto dell’effettiva patogenicità della variante è stato dato dall’analisi bioinformatica della proteina mutata. Frequentemente, la variante candidata provoca alterazioni a livello di regioni intrinsecamente disordinate (IDR), caratterizzate dall’assenza di una conformazione tridimensionale stabile. Questo dato è coerente con la più recente letteratura: diversi studi, infatti, dimostrano l’implicazione di mutazioni nelle IDR in diverse patologie umane. La classificazione delle IDR, quindi, può rappresentare un primo passo per comprendere l'impatto di eventuali varianti causative all'interno di queste regioni. Data la rilevanza delle IDR a livello biologico e clinico, ho partecipato alla curazione manuale e all'aggiornamento delle voci presenti nel database DisProt, la principale banca dati relativa al disordine nelle proteine. È interessante notare che, tra i vari processi biologici in cui le IDR sono coinvolte, queste regioni svolgono un ruolo molto importante nel signaling neuronale. Tra le proteine codificate dai geni inclusi nel pannello genico, TANC2 si è distinta per essere una proteina disordinata, probabilmente implicata alla trasduzione del segnale a livello delle sinapsi neuronali. Dato che la funzione di TANC2 e della rispettiva famiglia proteica risultava ancora poco chiara, ho eseguito un’analisi in silico delle proteine TANC, grazie alla quale è stato possibile caratterizzare le funzioni e i diversi processi cellulari in cui queste sono coinvolte. Le ipotesi funzionali emerse dall'analisi bioinformatica sono state utilizzate per condurre ulteriori indagini sperimentali. In particolare, la validazione in vitro dell'interazione TANC2-CDKL5 ha evidenziato l’estrema importanza di regioni intrinsecamente disordinate nella regolazione della degradazione di CDKL5, le cui mutazioni sono associate con manifestazioni cliniche legate a disordini del neurosviluppo. Inoltre, gli esperimenti hanno dimostrato che TANC2 contribuisce alla down-regolazione dei livelli di espressione di CDKL5. Per questo motivo, TANC2 si candida a rappresentare un nuovo target terapeutico per lo sviluppo di nuovi composti per il trattamento di condizioni cliniche associate all’over-espressione di CDKL5.

From High-Throughput Analysis of Genetic Variants to the Experimental Validation of Putative Protein Function / Gasparini, Alessandra. - (2018 Jan 10).