The data that is being acquired by the Gaia space mission will allow us to compile a catalog of one billion stars. In the backdrop of this huge influx of data, it is crucial to have an efficient classification model. The aim of this thesis is, in particular, to develop appropriate models for the classification of variable stars based on the data that will be provided by the Gaia space survey. The first contribution of the thesis is the development of a two-stage classification model, the Two Stage Dirichlet Mixture model (TSDM), based on finite mixtures of Dirichlet distributions. We validated this model on a well-studied subgroup of variable stars in the Hipparcos catalog analo- gously to what done by Dubath et al. (2011). We also propose two different transformations of the attributes used for the classification, which allow us to use the Dirichlet distribution whose support is a simplex. The adequacy of these transformations was evaluated with the selected data, highlighting an ability to correctly classify variable stars of 69.3%. Secondly, we introduced an extension of the TSDM model, called the fixed backdrop (FB) model, whose purpose is to identify new variable star classes. Our proposal is based on the semi-supervised classification model developed by Vatanen et al. (2012) for the identification of anomalies. The FB model, in particular, combines the TSDM model, used to represent the already known classes (the so-called background), with a finite mixture of Dirichlet distributions which represent the new class. We have looked at the proposed model assuming a scenario in which the Beta Cephei (BCEP) class is the anomaly, achieving a sensitivity of 77%. The third contribution of the thesis is the feasibility study for a Bayesian supervised variable stars classification using finite mixture of Dirichlet distributions. In particular, we propose a possible a priori conjugate distribution to the model.

I dati che saranno acquisiti dalla missione spaziale Gaia consentiranno di compilare un catalogo contenente circa un miliardo di stelle. Alla luce di questo enorme afflusso di dati, è cruciale poter disporre di un modello di classificazione efficiente. L’obiettivo di questa tesi, in particolare, è sviluppare dei modelli adeguati per la classificazione delle stelle variabili in base ai dati che saranno forniti dalla missione spaziale Gaia. Il primo contributo della tesi è lo sviluppo di un modello di classificazione a due stadi, detto modello Two Stage Dirichlet Mixture (TSDM), basato su delle misture finite di distribuzioni Dirichlet. Abbiamo validato questo modello su un sottogruppo ben studiato di stelle variabili riportate nel catalogo Hipparcos in analogia a quanto fatto da Dubath et al. (2011). Proponiamo, inoltre, due diverse trasformazioni delle caratteristiche utilizzate per la classificazione, che ci consentono di utilizzare per l’appunto la distribuzione di Dirichlet il cui supporto è un simplesso. L’adeguatezza di queste trasformazioni è stata vagliata con i dati selezionati, evidenziando una capacità di corretta classificazione delle stelle variabili considerate del 69.3%. In secondo luogo, abbiamo introdotto un’estensione del modello TSDM, detta modello a sfondo fisso (FB), il cui scopo è identificare nuove classi di stelle variabili. La nostra proposta si basa sul modello per la classificazione semi supervisionata sviluppato da Vatanen et al. (2012) per l’identificazione di anomalie. Il modello FB, in particolare, combina il modello TSDM, usato per rappresentare le classi già note (il cosiddetto sfondo), con una mistura finita di distribuzioni di Dirichlet che rappresenta la nuova classe. Abbiamo vagliato il modello proposto assumendo uno scenario in cui la classe Beta Cephei (BCEP) rappresenta l’anomalia, conseguendo una sensibilità del 77%. il terzo contributo della tesi valuta la fattiblità di una classificazione di stelle Bayesiana supervisionata tramite l’utilizzo di misture di distribuzioni di Dirichlet. In particolare, proponiamo una possibile distribuzione a priori coniugata per il modello.

Finite Dirichlet mixture models for classification and detection of new classes of variable stars / John, Prince. - (2018 Feb 16).

Finite Dirichlet mixture models for classification and detection of new classes of variable stars

John, Prince
2018

Abstract

I dati che saranno acquisiti dalla missione spaziale Gaia consentiranno di compilare un catalogo contenente circa un miliardo di stelle. Alla luce di questo enorme afflusso di dati, è cruciale poter disporre di un modello di classificazione efficiente. L’obiettivo di questa tesi, in particolare, è sviluppare dei modelli adeguati per la classificazione delle stelle variabili in base ai dati che saranno forniti dalla missione spaziale Gaia. Il primo contributo della tesi è lo sviluppo di un modello di classificazione a due stadi, detto modello Two Stage Dirichlet Mixture (TSDM), basato su delle misture finite di distribuzioni Dirichlet. Abbiamo validato questo modello su un sottogruppo ben studiato di stelle variabili riportate nel catalogo Hipparcos in analogia a quanto fatto da Dubath et al. (2011). Proponiamo, inoltre, due diverse trasformazioni delle caratteristiche utilizzate per la classificazione, che ci consentono di utilizzare per l’appunto la distribuzione di Dirichlet il cui supporto è un simplesso. L’adeguatezza di queste trasformazioni è stata vagliata con i dati selezionati, evidenziando una capacità di corretta classificazione delle stelle variabili considerate del 69.3%. In secondo luogo, abbiamo introdotto un’estensione del modello TSDM, detta modello a sfondo fisso (FB), il cui scopo è identificare nuove classi di stelle variabili. La nostra proposta si basa sul modello per la classificazione semi supervisionata sviluppato da Vatanen et al. (2012) per l’identificazione di anomalie. Il modello FB, in particolare, combina il modello TSDM, usato per rappresentare le classi già note (il cosiddetto sfondo), con una mistura finita di distribuzioni di Dirichlet che rappresenta la nuova classe. Abbiamo vagliato il modello proposto assumendo uno scenario in cui la classe Beta Cephei (BCEP) rappresenta l’anomalia, conseguendo una sensibilità del 77%. il terzo contributo della tesi valuta la fattiblità di una classificazione di stelle Bayesiana supervisionata tramite l’utilizzo di misture di distribuzioni di Dirichlet. In particolare, proponiamo una possibile distribuzione a priori coniugata per il modello.
16-feb-2018
The data that is being acquired by the Gaia space mission will allow us to compile a catalog of one billion stars. In the backdrop of this huge influx of data, it is crucial to have an efficient classification model. The aim of this thesis is, in particular, to develop appropriate models for the classification of variable stars based on the data that will be provided by the Gaia space survey. The first contribution of the thesis is the development of a two-stage classification model, the Two Stage Dirichlet Mixture model (TSDM), based on finite mixtures of Dirichlet distributions. We validated this model on a well-studied subgroup of variable stars in the Hipparcos catalog analo- gously to what done by Dubath et al. (2011). We also propose two different transformations of the attributes used for the classification, which allow us to use the Dirichlet distribution whose support is a simplex. The adequacy of these transformations was evaluated with the selected data, highlighting an ability to correctly classify variable stars of 69.3%. Secondly, we introduced an extension of the TSDM model, called the fixed backdrop (FB) model, whose purpose is to identify new variable star classes. Our proposal is based on the semi-supervised classification model developed by Vatanen et al. (2012) for the identification of anomalies. The FB model, in particular, combines the TSDM model, used to represent the already known classes (the so-called background), with a finite mixture of Dirichlet distributions which represent the new class. We have looked at the proposed model assuming a scenario in which the Beta Cephei (BCEP) class is the anomaly, achieving a sensitivity of 77%. The third contribution of the thesis is the feasibility study for a Bayesian supervised variable stars classification using finite mixture of Dirichlet distributions. In particular, we propose a possible a priori conjugate distribution to the model.
variable stars, mixture models, Dirichlet distribution, supervised classification, unsupervised classification, new class detection,
Finite Dirichlet mixture models for classification and detection of new classes of variable stars / John, Prince. - (2018 Feb 16).
File in questo prodotto:
File Dimensione Formato  
ThesisFull_14Jan2018.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 7.29 MB
Formato Adobe PDF
7.29 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3423151
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact