Production and distribution of scientific information has grown exponentially in the recent years. PubMed, a service of the U.S. National Library of Medicine that includes over 18 million Medline citations to journal articles, has been extending its coverage to some 40.000 abstracts in life sciences and biomedical literature every month. The information age allowed storage and dissemination of huge amount of data but our ability to extract and process knowledge remained constant. We make inferences on uncharacterised observations by recording and using natural language, which unfortunately is rarely adequate. Furthermore, biomedical research is characterised by highly specialised disciplines with limited communication among them and poorly shared resources. These many aspects draw attention to the real need of integration, a general concept with many definitions. In the context of my PhD, integration is intended as the process by which data from one source can be exchanged, interpreted or manipulated by another, in a way that make sense to the users in their interaction with the system. Biomedical ontologies (OBO) in general and the Gene Ontology (GO) in particular, have been fundamental components of an important information integration effort started in year 2000 with the ambitious goal to build a tool for the unification of biology and beyond. My PhD project, standing on the shoulders of those initiatives, has been focused on the development of a human-readable knowledgebase system that hopefully would facilitate exploitation of biological experimental data. This resource relies on information extracted from many databases, mostly manually curated, and uses an ontology of human diseases (i.e. the ‘Disease Ontology’) as a backbone of the system. The objective is providing some support to the scientific biomedical community in the interpretation of data on human diseases and their correlated genes, possibly delivering information on available interacting drugs. To test the system meanwhile evaluating its value, real research case was investigated in the second part of my PhD work. Functional analysis of inherently complex high-throughput data sources for systems biology (e.g. microarray) is a fundamental step to understand mechanisms regulating molecular processes modulated in diseases and pathological states. Nonetheless, advances at any level relevant to disease understanding and drug discovery for psychiatric disorders in recent years have been relatively unsuccessful compared with other areas. Therefore, a suitable computational strategy sustained by the newly developed resource was designed to allow investigation of the involvement in dendritic plasticity of specific disease genes, their mechanisms of action and the available drugs they are known to interact with. Dendritic plasticity, an important component of the central nervous system function during development, has been recently postulated to be strongly involved in pathogenesis of psychiatric diseases. The concept of plasticity spans a broad spectrum from describing clinical features of behavior/learning and memory down to the molecular mechanisms by which neurons create and lose synapse connections between one another. The chosen approach allowed the semi-automated identification of a great number of genes involved in plasticity mechanism at the molecular level. At the same time it also allowed preliminary validation of the newly developed Disease Ontology Knowledgebase and an evaluation of its potentialities.

In questi ultimi anni, la produzione e distribuzione di dati scientifici è cresciuta esponenzialmente. PubMed, un servizio della U.S. National Library of Medicine che include ormai oltre 18 milioni di citazioni estratte da Medline, incrementa il proprio contenuto di circa 40.000 estratti da pubblicazioni scientifiche o biomediche ogni mese. L’avvento dell’era dell’informazione ha permesso di accumulare e disseminare enormi quantità di dati, ma la nostra capacità di ricavarne conoscenza è rimasta costante. Le nostre inferenze che nascono dall’osservazione si basano spesso sull’uso del linguaggio verbale che raramente risulta adeguato. Inoltre, la ricerca biomedica è caratterizzata da discipline fortemente specializzate che raramente comunicano o condividono risorse. Tutti questi aspetti aiutano a rivolgere l’attenzione sulla reale necessità di integrare informazioni, un concetto generale con molte definizioni. Nel contesto del mio dottorato, per integrazione si intende il processo attraverso il quale i dati possono essere scambiati, interpretati e manipolati pur rimanendo comprensibili da chi utilizza il sistema. Le ontologie biomediche in generale e la Gene Ontology in particolare sono state una componente fondamentale di un importante sforzo di integrazione di informazioni di tipo biologico iniziato nel 2000 con l’ambizioso obiettivo di sviluppare uno strumento per l’unificazione della biologia e oltre. Il mio progetto di dottorato, accompagnandosi a questa iniziativa, si è focalizzato sullo sviluppo di un particolare tipo di database (knowledgebase) che possa facilitare l’esplorazione di specifici dati sperimentali. Il sistema si sviluppa sulla base di informazioni estratte da numerose fonti di dati per buona parte curate manualmente, usando come struttura portante un’ontologia di malattie umane (Disease Ontology). Lo scopo è quello di fornire supporto alla comunità scientifica biomedica per l’interpretazione dei dati relativi a malattie umane, ai geni a queste ricollegabili e ai farmaci in grado di curarle. Nella seconda parte del dottorato è stata approfondita una specifica tematica di ricerca utile per provare il sistema e valutarne le reali possibilità. L’analisi funzionale di dati complessi prodotti con tecnologie high-throughput come i microarray, risulta fondamentale per comprendere i meccanismi di regolazione dei processi molecolari implicati negli stati patologici. Tuttavia, nonostante la disponibilità di validi strumenti di indagine, nel campo delle malattie psichiatriche non si sono avuti gli stessi rilevanti progressi, utili per comprenderne i meccanismi patologici, ottenuti invece in altre aree di ricerca. Pertanto, una adeguata strategia computazionale, abbinata al recente sviluppo della risorsa oggetto di questo lavoro, è stata disegnata per consentire un’indagini sul coinvolgimento di alcuni specifici geni, meccanismi e farmaci nella causa o la cura della patologia psichiatrica. La plasticità dendritica è una componente importante nel funzionamento del sistema nervoso centrale durante lo sviluppo, ed è stato recentemente postulato che possa essere fortemente coinvolta nella patogenesi delle malattie legate al sistema nervoso centrale. Il concetto di plasticità abbraccia un ampio spettro di caratteristiche cliniche che descrivono aspetti del comportamento, dell’apprendimento e della memoria fino ai meccanismi molecolari con cui i neuroni creano o perdono le loro sinapsi. La strategia scelta ha consentito di identificare in modo semi-automatico un grande numero di geni coinvolti a livello molecolare nel meccanismo della plasticità dendritica e ha permesso allo stesso tempo la verifica, in certa misura e in via preliminare, delle qualità e delle potenzialità del knowledgebase sviluppato.

Development of an integrated disease ontology knowledgebase and its application to study mechanisms of neuropsychiatric disorders(2009 Jan).

Development of an integrated disease ontology knowledgebase and its application to study mechanisms of neuropsychiatric disorders

-
2009

Abstract

In questi ultimi anni, la produzione e distribuzione di dati scientifici è cresciuta esponenzialmente. PubMed, un servizio della U.S. National Library of Medicine che include ormai oltre 18 milioni di citazioni estratte da Medline, incrementa il proprio contenuto di circa 40.000 estratti da pubblicazioni scientifiche o biomediche ogni mese. L’avvento dell’era dell’informazione ha permesso di accumulare e disseminare enormi quantità di dati, ma la nostra capacità di ricavarne conoscenza è rimasta costante. Le nostre inferenze che nascono dall’osservazione si basano spesso sull’uso del linguaggio verbale che raramente risulta adeguato. Inoltre, la ricerca biomedica è caratterizzata da discipline fortemente specializzate che raramente comunicano o condividono risorse. Tutti questi aspetti aiutano a rivolgere l’attenzione sulla reale necessità di integrare informazioni, un concetto generale con molte definizioni. Nel contesto del mio dottorato, per integrazione si intende il processo attraverso il quale i dati possono essere scambiati, interpretati e manipolati pur rimanendo comprensibili da chi utilizza il sistema. Le ontologie biomediche in generale e la Gene Ontology in particolare sono state una componente fondamentale di un importante sforzo di integrazione di informazioni di tipo biologico iniziato nel 2000 con l’ambizioso obiettivo di sviluppare uno strumento per l’unificazione della biologia e oltre. Il mio progetto di dottorato, accompagnandosi a questa iniziativa, si è focalizzato sullo sviluppo di un particolare tipo di database (knowledgebase) che possa facilitare l’esplorazione di specifici dati sperimentali. Il sistema si sviluppa sulla base di informazioni estratte da numerose fonti di dati per buona parte curate manualmente, usando come struttura portante un’ontologia di malattie umane (Disease Ontology). Lo scopo è quello di fornire supporto alla comunità scientifica biomedica per l’interpretazione dei dati relativi a malattie umane, ai geni a queste ricollegabili e ai farmaci in grado di curarle. Nella seconda parte del dottorato è stata approfondita una specifica tematica di ricerca utile per provare il sistema e valutarne le reali possibilità. L’analisi funzionale di dati complessi prodotti con tecnologie high-throughput come i microarray, risulta fondamentale per comprendere i meccanismi di regolazione dei processi molecolari implicati negli stati patologici. Tuttavia, nonostante la disponibilità di validi strumenti di indagine, nel campo delle malattie psichiatriche non si sono avuti gli stessi rilevanti progressi, utili per comprenderne i meccanismi patologici, ottenuti invece in altre aree di ricerca. Pertanto, una adeguata strategia computazionale, abbinata al recente sviluppo della risorsa oggetto di questo lavoro, è stata disegnata per consentire un’indagini sul coinvolgimento di alcuni specifici geni, meccanismi e farmaci nella causa o la cura della patologia psichiatrica. La plasticità dendritica è una componente importante nel funzionamento del sistema nervoso centrale durante lo sviluppo, ed è stato recentemente postulato che possa essere fortemente coinvolta nella patogenesi delle malattie legate al sistema nervoso centrale. Il concetto di plasticità abbraccia un ampio spettro di caratteristiche cliniche che descrivono aspetti del comportamento, dell’apprendimento e della memoria fino ai meccanismi molecolari con cui i neuroni creano o perdono le loro sinapsi. La strategia scelta ha consentito di identificare in modo semi-automatico un grande numero di geni coinvolti a livello molecolare nel meccanismo della plasticità dendritica e ha permesso allo stesso tempo la verifica, in certa misura e in via preliminare, delle qualità e delle potenzialità del knowledgebase sviluppato.
gen-2009
Production and distribution of scientific information has grown exponentially in the recent years. PubMed, a service of the U.S. National Library of Medicine that includes over 18 million Medline citations to journal articles, has been extending its coverage to some 40.000 abstracts in life sciences and biomedical literature every month. The information age allowed storage and dissemination of huge amount of data but our ability to extract and process knowledge remained constant. We make inferences on uncharacterised observations by recording and using natural language, which unfortunately is rarely adequate. Furthermore, biomedical research is characterised by highly specialised disciplines with limited communication among them and poorly shared resources. These many aspects draw attention to the real need of integration, a general concept with many definitions. In the context of my PhD, integration is intended as the process by which data from one source can be exchanged, interpreted or manipulated by another, in a way that make sense to the users in their interaction with the system. Biomedical ontologies (OBO) in general and the Gene Ontology (GO) in particular, have been fundamental components of an important information integration effort started in year 2000 with the ambitious goal to build a tool for the unification of biology and beyond. My PhD project, standing on the shoulders of those initiatives, has been focused on the development of a human-readable knowledgebase system that hopefully would facilitate exploitation of biological experimental data. This resource relies on information extracted from many databases, mostly manually curated, and uses an ontology of human diseases (i.e. the ‘Disease Ontology’) as a backbone of the system. The objective is providing some support to the scientific biomedical community in the interpretation of data on human diseases and their correlated genes, possibly delivering information on available interacting drugs. To test the system meanwhile evaluating its value, real research case was investigated in the second part of my PhD work. Functional analysis of inherently complex high-throughput data sources for systems biology (e.g. microarray) is a fundamental step to understand mechanisms regulating molecular processes modulated in diseases and pathological states. Nonetheless, advances at any level relevant to disease understanding and drug discovery for psychiatric disorders in recent years have been relatively unsuccessful compared with other areas. Therefore, a suitable computational strategy sustained by the newly developed resource was designed to allow investigation of the involvement in dendritic plasticity of specific disease genes, their mechanisms of action and the available drugs they are known to interact with. Dendritic plasticity, an important component of the central nervous system function during development, has been recently postulated to be strongly involved in pathogenesis of psychiatric diseases. The concept of plasticity spans a broad spectrum from describing clinical features of behavior/learning and memory down to the molecular mechanisms by which neurons create and lose synapse connections between one another. The chosen approach allowed the semi-automated identification of a great number of genes involved in plasticity mechanism at the molecular level. At the same time it also allowed preliminary validation of the newly developed Disease Ontology Knowledgebase and an evaluation of its potentialities.
ontologia, knowledgebase, neuropsychiatric disorders, molecular mechanisms
Development of an integrated disease ontology knowledgebase and its application to study mechanisms of neuropsychiatric disorders(2009 Jan).
File in questo prodotto:
File Dimensione Formato  
Fabrizio_Caldara_Tesi_Dottorato.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 6.11 MB
Formato Adobe PDF
6.11 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3426868
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact