Advances in data analysis techniques may play a decisive role in the discovery reach of particle collider experiments. However, the importing of expertise and methods from other data-centric disciplines such as machine learning and statistics faces significant hurdles, mainly due to the established use of different language and constructs. A large part of this document, also conceived as an introduction to the description of an analysis searching for non-resonant Higgs pair production in data collected by the CMS detector at the Large Hadron Collider (LHC), is therefore devoted to a broad redefinition of the relevant concepts for problems in experimental particle physics. The aim is to better connect these issues with those in other fields of research, so the solutions found can be repurposed. The formal exploration of the properties of the statistical models at particle colliders is useful to highlight the main challenges posed by statistical inference in this context: the multi-dimensional nature of the models, which can be studied only in a generative manner via forward simulation of observations, and the effect of nuisance parameters. The first issue can be tackled with likelihood-free inference methods coupled with the use of low-dimensional summary statistics, which may be constructed either with machine learning techniques or through physically motivated variables (e.g. event reconstruction). The second, i.e. the misspecification of the generative model which is addressed by the inclusion of nuisance parameters, reduces the effectiveness of summary statistics constructed with machine-learning techniques. A subset of the data analysis techniques formally discussed in the introductory part of the document are also exploited to study the non-resonant production process pp → HH → bbbb at the LHC in the context of the Standard Model (SM) and its extensions in effective fields theories (EFT), based on anomalous couplings of the Higgs field. Data collected in 2016 by the CMS detector and corresponding to a total of 35.9 fb−1 of proton-proton collisions are used to set an 95% confidence upper limit at 847 fb on the production cross section σ(pp → HH → bbbb) in the SM. Upper limits are also obtained for the cross sections corresponding to a representative set of points of the parameter space of EFT. The combination of those results with the ones obtained from the study of other decay channels of HH pairs is also discussed. In addition, the exercise of reformulating the goals of high energy physics analysis as a statistical inference problem is combined with modern machine learning technologies to develop a new technique, referred to as inference-aware neural optimisation. The technique produces summary statistics which directly minimise the expected uncertainty on the parameters of interest, optimally accounting for the effect of nuisance parameters. The application of this technique to a synthetic problem demonstrates that the obtained summary statistics are considerable more effective than those obtained with standard supervised learning methods, when the effect of the nuisance parameters is significant. Assuming its scalability to LHC data scenarios, this technique has ground-breaking potential for analyses dominated by systematic uncertainties.

I progressi nelle tecniche di analisi dei dati possono giocare un ruolo decisivo nelle prospettive di scoperta degli esperimenti ai colliders, tuttavia l'acquisizione di expertise e nuove tecniche in machine learning e statistica da altre discipline quantitative incontra barriere significative, sopratutto causate dall'uso di diverso linguaggio e formalismi. Una gran parte di questo documento, pensata anche come introduzione alla descrizione di un'analisi che ricerca la produzione non risonante di coppie di bosoni di Higgs in dati raccolti dal rivelatore CMS al Large Hadron Collider (LHC), è per questo motivo rivolta ad una ridefinizione dei concetti rilevanti per i problemi in fisica sperimentale delle particelle elementari che permetta loro di venir collegati a quelli di altri campi di ricerca, in modo tale che le soluzioni trovate possano essere riutilizzate. L'esplorazione formale delle proprietà dei modelli statistici ai colliders di particelle è utile per sottolineare le principali sfide poste dalla pratica dell'inferenza statistica: la natura multi-dimensionale dei modelli, che sono studiabili solamente con metodi generativi (cioè attraverso simulazioni), e l'effetto di parametri di disturbo. Il primo problema può essere affrontato con metodi di inferenza "likelihood-free", e con l'identificazione di summary statistics a bassa dimensionalità, che possono essere costruite con tecniche di machine learning o con l'uso di variabili motivate dalle caratteristiche fisiche dei processi studiati. Il secondo, ovvero la cattiva specificazione del modello generativo, che necessita pertanto l'inclusione di parametri di disturbo, riduce l'utilità delle summary statistics create con algoritmi di machine learning. Alcune delle tecniche di analisi dati formalmente discusse nella parte introduttiva sono anche sfruttate per studiare il processo di produzione pp->HH->bbbb a LHC nel contesto del modello standard (SM) e delle sue estensioni in teorie di campo efficace (EFT), basate su accoppiamenti anomali del campo di Higgs. Dati raccolti nel 2016 dal rivelatore CMS corrispondenti a un totale di 35.9 femtobarns inversi di collisioni protone-protone sono usati per fissare un limite al 95% di livello di confidenza a 847 fb sulla sezione d'urto di produzione sigma(pp->HH->bbbb) nello SM. Limiti superiori sono ottenuti anche per le sezioni d'urto corrispondenti ad un insieme rappresentativo di punti dello spazio dei parametri delle teorie EFT. E' altresì discussa la combinazione di questi risultati con quelli derivanti dallo studio di altri canali di decadimento delle coppie HH. In aggiunta, il risultato dell'esercizio di riformulare i goals dell'analisi in fisica delle alte energie come un problema di inferenza statistica è stato combinato con l'uso di strumenti avanzati di machine learning per sviluppare una nuova tecnica, chiamata "inference-aware neural optimization", che produce summary statistics che minimizzano direttamente l'incertezza attesa sui parametri di interesse, tenendo conto in maniera ottimale dell'effetto dei parametri di disturbo. L'applicazione di questa tecnica ad un problema di test dimostra che le summary statistics ottenute con questo metodo sono considerevolmente più efficaci di quelle ottenute con approcci standard di supervised learning quando l'effetto dei parametri di disturbo è significativo. Assumendo la sua scalabilità a scenari di analisi dati a LHC, questa tecnica potrebbe rivelarsi rivoluzionaria per analisi dominate da incertezze sistematiche.

Statistical Learning and Inference at Particle Collider Experiments(2019 Mar 29).

Statistical Learning and Inference at Particle Collider Experiments

-
2019

Abstract

I progressi nelle tecniche di analisi dei dati possono giocare un ruolo decisivo nelle prospettive di scoperta degli esperimenti ai colliders, tuttavia l'acquisizione di expertise e nuove tecniche in machine learning e statistica da altre discipline quantitative incontra barriere significative, sopratutto causate dall'uso di diverso linguaggio e formalismi. Una gran parte di questo documento, pensata anche come introduzione alla descrizione di un'analisi che ricerca la produzione non risonante di coppie di bosoni di Higgs in dati raccolti dal rivelatore CMS al Large Hadron Collider (LHC), è per questo motivo rivolta ad una ridefinizione dei concetti rilevanti per i problemi in fisica sperimentale delle particelle elementari che permetta loro di venir collegati a quelli di altri campi di ricerca, in modo tale che le soluzioni trovate possano essere riutilizzate. L'esplorazione formale delle proprietà dei modelli statistici ai colliders di particelle è utile per sottolineare le principali sfide poste dalla pratica dell'inferenza statistica: la natura multi-dimensionale dei modelli, che sono studiabili solamente con metodi generativi (cioè attraverso simulazioni), e l'effetto di parametri di disturbo. Il primo problema può essere affrontato con metodi di inferenza "likelihood-free", e con l'identificazione di summary statistics a bassa dimensionalità, che possono essere costruite con tecniche di machine learning o con l'uso di variabili motivate dalle caratteristiche fisiche dei processi studiati. Il secondo, ovvero la cattiva specificazione del modello generativo, che necessita pertanto l'inclusione di parametri di disturbo, riduce l'utilità delle summary statistics create con algoritmi di machine learning. Alcune delle tecniche di analisi dati formalmente discusse nella parte introduttiva sono anche sfruttate per studiare il processo di produzione pp->HH->bbbb a LHC nel contesto del modello standard (SM) e delle sue estensioni in teorie di campo efficace (EFT), basate su accoppiamenti anomali del campo di Higgs. Dati raccolti nel 2016 dal rivelatore CMS corrispondenti a un totale di 35.9 femtobarns inversi di collisioni protone-protone sono usati per fissare un limite al 95% di livello di confidenza a 847 fb sulla sezione d'urto di produzione sigma(pp->HH->bbbb) nello SM. Limiti superiori sono ottenuti anche per le sezioni d'urto corrispondenti ad un insieme rappresentativo di punti dello spazio dei parametri delle teorie EFT. E' altresì discussa la combinazione di questi risultati con quelli derivanti dallo studio di altri canali di decadimento delle coppie HH. In aggiunta, il risultato dell'esercizio di riformulare i goals dell'analisi in fisica delle alte energie come un problema di inferenza statistica è stato combinato con l'uso di strumenti avanzati di machine learning per sviluppare una nuova tecnica, chiamata "inference-aware neural optimization", che produce summary statistics che minimizzano direttamente l'incertezza attesa sui parametri di interesse, tenendo conto in maniera ottimale dell'effetto dei parametri di disturbo. L'applicazione di questa tecnica ad un problema di test dimostra che le summary statistics ottenute con questo metodo sono considerevolmente più efficaci di quelle ottenute con approcci standard di supervised learning quando l'effetto dei parametri di disturbo è significativo. Assumendo la sua scalabilità a scenari di analisi dati a LHC, questa tecnica potrebbe rivelarsi rivoluzionaria per analisi dominate da incertezze sistematiche.
29-mar-2019
Advances in data analysis techniques may play a decisive role in the discovery reach of particle collider experiments. However, the importing of expertise and methods from other data-centric disciplines such as machine learning and statistics faces significant hurdles, mainly due to the established use of different language and constructs. A large part of this document, also conceived as an introduction to the description of an analysis searching for non-resonant Higgs pair production in data collected by the CMS detector at the Large Hadron Collider (LHC), is therefore devoted to a broad redefinition of the relevant concepts for problems in experimental particle physics. The aim is to better connect these issues with those in other fields of research, so the solutions found can be repurposed. The formal exploration of the properties of the statistical models at particle colliders is useful to highlight the main challenges posed by statistical inference in this context: the multi-dimensional nature of the models, which can be studied only in a generative manner via forward simulation of observations, and the effect of nuisance parameters. The first issue can be tackled with likelihood-free inference methods coupled with the use of low-dimensional summary statistics, which may be constructed either with machine learning techniques or through physically motivated variables (e.g. event reconstruction). The second, i.e. the misspecification of the generative model which is addressed by the inclusion of nuisance parameters, reduces the effectiveness of summary statistics constructed with machine-learning techniques. A subset of the data analysis techniques formally discussed in the introductory part of the document are also exploited to study the non-resonant production process pp → HH → bbbb at the LHC in the context of the Standard Model (SM) and its extensions in effective fields theories (EFT), based on anomalous couplings of the Higgs field. Data collected in 2016 by the CMS detector and corresponding to a total of 35.9 fb−1 of proton-proton collisions are used to set an 95% confidence upper limit at 847 fb on the production cross section σ(pp → HH → bbbb) in the SM. Upper limits are also obtained for the cross sections corresponding to a representative set of points of the parameter space of EFT. The combination of those results with the ones obtained from the study of other decay channels of HH pairs is also discussed. In addition, the exercise of reformulating the goals of high energy physics analysis as a statistical inference problem is combined with modern machine learning technologies to develop a new technique, referred to as inference-aware neural optimisation. The technique produces summary statistics which directly minimise the expected uncertainty on the parameters of interest, optimally accounting for the effect of nuisance parameters. The application of this technique to a synthetic problem demonstrates that the obtained summary statistics are considerable more effective than those obtained with standard supervised learning methods, when the effect of the nuisance parameters is significant. Assuming its scalability to LHC data scenarios, this technique has ground-breaking potential for analyses dominated by systematic uncertainties.
inference, learning, physics, LHC, CMS
Statistical Learning and Inference at Particle Collider Experiments(2019 Mar 29).
File in questo prodotto:
File Dimensione Formato  
DeCastroManzano_Pablo_thesis.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Creative commons
Dimensione 11.22 MB
Formato Adobe PDF
11.22 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3421861
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact