The thesis has been developed focusing on the use of multivariate statistical methods in the High Energy Physics framework. Stemming from the framework described by the current dominant physical theory, known as the Standard Model, the thesis has been developed by following two directions, associated with two different physical research questions. The first route takes the steps from the need of improving the knowledge within the Standard Model. From a statistical point of view, such improvement refers to the aim of obtaining more accurate estimates of the parameters describing the Standard Model in order to gain a better knowledge of the probability distribution of the underlying physical process, known as the background. In practice, estimation of such probability distribution builds on the use of Monte Carlo simulated data, which, in turn, can be costly and imprecise. To prevent these problems, the physical community has developed a novel procedure to generate artificial background data from the experimental ones. Within the thesis, a formal validation of the physical procedure is performed by means of introducing a statistical permutation-based two-sample test for density equality. The test relies on kernel density estimation and is suitably adjusted to be applied to high dimensional data. The second direction of research derives from the incompleteness of the Standard Model, known to be unable to fully describe the Universe and the interactions among its characterising forces. The goal of going beyond the Standard Model is reached through model-independent searches of new physics which aim at looking for new possible particles not predicted by the Standard Model. Such particles, referred to as a signal, are expected to behave as a deviation from the known background. From a statistical perspective, the problem is recasted to a peculiar classification one where only partial information is available. Therefore a semi-supervised approach shall be adopted, either by strengthening or by relaxing assumptions underlying clustering or classification methods respectively. Within this context, the thesis follows two distinct approaches. The first approach consists of developing a parametric semi-supervised method which originates from the framework of model-based clustering. A dimensionality reduction technique is proposed by resorting to penalised methods to circumvent issues related to parameters estimation and the curse of dimensionality. The proposed variable selection approach is extended from the unsupervised to the semi-supervised context with attention to features exhibiting anomalous properties. The second approach followed with the aim of new physics searches consists of suitably adjusting and statistically validating an existing procedure, developed within the physical community. Some improvements to the algorithm are also proposed regarding, among others, cases of high dimensional and correlated data.

Questa tesi si concentra sull'uso di metodi statistici multivariati in un contesto della fisica per le alte energie. Partendo dall'ipotesi dominante nella teoria fisica, conosciuto come Modello Standard, questa tesi si muove in due direzioni, associate a due diverse domande di ricerca provenienti dalla fisica. Il primo contributo parte dalla necessità di comprendere meglio i dettagli del Modello Standard. Da un punto di vista statistico, il miglioramento della conoscenza del Modello Standard può essere tradotto nell’obiettivo di ottenere stime più accurate dei parametri che lo descrivono, al fine di avere una migliore conoscenza della distribuzione di probabilità dei processi fisici sottostanti, noti come background. Nella pratica tali stime partono da simulazioni Monte Carlo che a loro volta possono essere computazionalmente onerose e imprecise. Per ovviare a questo problema la comunità scientifica ha elaborato nuove procedure per generare il background dai dati sperimentali. All'interno della tesi si propone un metodo per validare in maniera formale queste procedure fisiche, basato su un test di permutazione a due campioni per l'uguaglianza in distribuzione. Il test proposto si basa sull’uso stime kernel della densità, ed è stato opportunamente aggiustato in modo da poter essere applicato a dati elevata dimensionalità. Il secondo contributo parte dalla considerazione che il Modello Standard è incompleto, essendo incapace di descrivere l'universo che ci circonda e l'interazione tra le forze che lo caratterizzano. L'obiettivo di superare il Modello Standard è attuato ricercando nuove possibili particelle non predette dalla teoria. Queste particelle definite segnale, si assume si manifestino come deviazione rispetto al comportamento del background. Da un punto di vista statistico questa ricerca può essere interpretata come un problema di classificazione dove solo una parte dell'informazione è disponibile. L’approccio, che assume dunque caratteristiche semi-supervisionate, può essere affrontato o rilassando le ipotesi proprie dei metodi di classificazione, o rafforzando quelle dei metodi di raggruppamento. In questo contesto, la tesi segue due approcci. Il primo consiste nello sviluppare un metodo parametrico basato su modelli di raggruppamento, in cui si propone una tecnica per la riduzione della dimensionalità basata su metodi penalizzati, in modo da prevenire problemi relativi alla stima dei parametri e alla maledizione della dimensionalità. Il metodo proposto per selezione delle variabili è esteso dal caso non supervisionato a quello semi supervisionato, con particolare attenzione per le variabili con caratteristiche anomale. Il secondo approccio, consiste nel tarare e validare da un punto di vista statistico, procedure già esistenti, e sviluppate in contesti fisici. Alcune migliorie sono state proposte, riguardando, tra le altre, casi ad alta dimensionalità e dati correlati.

Advanced statistical methods for data analysis in particle physics / Kotkowski, Grzegorz. - (2018 Nov 30).

Advanced statistical methods for data analysis in particle physics

Kotkowski, Grzegorz
2018

Abstract

Questa tesi si concentra sull'uso di metodi statistici multivariati in un contesto della fisica per le alte energie. Partendo dall'ipotesi dominante nella teoria fisica, conosciuto come Modello Standard, questa tesi si muove in due direzioni, associate a due diverse domande di ricerca provenienti dalla fisica. Il primo contributo parte dalla necessità di comprendere meglio i dettagli del Modello Standard. Da un punto di vista statistico, il miglioramento della conoscenza del Modello Standard può essere tradotto nell’obiettivo di ottenere stime più accurate dei parametri che lo descrivono, al fine di avere una migliore conoscenza della distribuzione di probabilità dei processi fisici sottostanti, noti come background. Nella pratica tali stime partono da simulazioni Monte Carlo che a loro volta possono essere computazionalmente onerose e imprecise. Per ovviare a questo problema la comunità scientifica ha elaborato nuove procedure per generare il background dai dati sperimentali. All'interno della tesi si propone un metodo per validare in maniera formale queste procedure fisiche, basato su un test di permutazione a due campioni per l'uguaglianza in distribuzione. Il test proposto si basa sull’uso stime kernel della densità, ed è stato opportunamente aggiustato in modo da poter essere applicato a dati elevata dimensionalità. Il secondo contributo parte dalla considerazione che il Modello Standard è incompleto, essendo incapace di descrivere l'universo che ci circonda e l'interazione tra le forze che lo caratterizzano. L'obiettivo di superare il Modello Standard è attuato ricercando nuove possibili particelle non predette dalla teoria. Queste particelle definite segnale, si assume si manifestino come deviazione rispetto al comportamento del background. Da un punto di vista statistico questa ricerca può essere interpretata come un problema di classificazione dove solo una parte dell'informazione è disponibile. L’approccio, che assume dunque caratteristiche semi-supervisionate, può essere affrontato o rilassando le ipotesi proprie dei metodi di classificazione, o rafforzando quelle dei metodi di raggruppamento. In questo contesto, la tesi segue due approcci. Il primo consiste nello sviluppare un metodo parametrico basato su modelli di raggruppamento, in cui si propone una tecnica per la riduzione della dimensionalità basata su metodi penalizzati, in modo da prevenire problemi relativi alla stima dei parametri e alla maledizione della dimensionalità. Il metodo proposto per selezione delle variabili è esteso dal caso non supervisionato a quello semi supervisionato, con particolare attenzione per le variabili con caratteristiche anomale. Il secondo approccio, consiste nel tarare e validare da un punto di vista statistico, procedure già esistenti, e sviluppate in contesti fisici. Alcune migliorie sono state proposte, riguardando, tra le altre, casi ad alta dimensionalità e dati correlati.
30-nov-2018
The thesis has been developed focusing on the use of multivariate statistical methods in the High Energy Physics framework. Stemming from the framework described by the current dominant physical theory, known as the Standard Model, the thesis has been developed by following two directions, associated with two different physical research questions. The first route takes the steps from the need of improving the knowledge within the Standard Model. From a statistical point of view, such improvement refers to the aim of obtaining more accurate estimates of the parameters describing the Standard Model in order to gain a better knowledge of the probability distribution of the underlying physical process, known as the background. In practice, estimation of such probability distribution builds on the use of Monte Carlo simulated data, which, in turn, can be costly and imprecise. To prevent these problems, the physical community has developed a novel procedure to generate artificial background data from the experimental ones. Within the thesis, a formal validation of the physical procedure is performed by means of introducing a statistical permutation-based two-sample test for density equality. The test relies on kernel density estimation and is suitably adjusted to be applied to high dimensional data. The second direction of research derives from the incompleteness of the Standard Model, known to be unable to fully describe the Universe and the interactions among its characterising forces. The goal of going beyond the Standard Model is reached through model-independent searches of new physics which aim at looking for new possible particles not predicted by the Standard Model. Such particles, referred to as a signal, are expected to behave as a deviation from the known background. From a statistical perspective, the problem is recasted to a peculiar classification one where only partial information is available. Therefore a semi-supervised approach shall be adopted, either by strengthening or by relaxing assumptions underlying clustering or classification methods respectively. Within this context, the thesis follows two distinct approaches. The first approach consists of developing a parametric semi-supervised method which originates from the framework of model-based clustering. A dimensionality reduction technique is proposed by resorting to penalised methods to circumvent issues related to parameters estimation and the curse of dimensionality. The proposed variable selection approach is extended from the unsupervised to the semi-supervised context with attention to features exhibiting anomalous properties. The second approach followed with the aim of new physics searches consists of suitably adjusting and statistically validating an existing procedure, developed within the physical community. Some improvements to the algorithm are also proposed regarding, among others, cases of high dimensional and correlated data.
Penalized mixture models, Anomaly detection, new physics searches
Advanced statistical methods for data analysis in particle physics / Kotkowski, Grzegorz. - (2018 Nov 30).
File in questo prodotto:
File Dimensione Formato  
kotkowski_grzegorz_thesis.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 1.54 MB
Formato Adobe PDF
1.54 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3426690
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact