In recent times, the rise of `big data' has brought along major computational challenges in all the main disciplines of scientific research, including the field of spatial statistics. Some of these challenges include parametric estimation and quantification of estimation uncertainty that, when building statistical models using big data, pose an important computational load. Many methods have been proposed to address these challenges such as dimension reduction, approximation by Markov random fields, tapering of the covariance matrix, and subsampling based approaches. In this thesis a new \textit{divide-and-conquer} approach is proposed that we call \texttt{farmer} for providing effect size and standard error estimates in spatial models of big data. According to the proposed approach, all observations are divided into blocks that are mutually exclusive according to their position. For each block, the model parameters are estimated and recombined using a fixed or random meta-model to take into account the (possible) spatial dependence. This generalized method can be applied to a wide range of spatial models. For example, consider a linear Gaussian spatial model. In a simulation study, the \texttt{farmer} estimators were compared with estimators based on methods with similar sampling ideas. In the context of the Gaussian model, two applications with real data are presented. The proposed method appears computationally efficient compared to equivalent methods and has lower bias in the estimates. Furthermore, the proposed approach provides a more realistic estimate of standard errors. Finally, we propose an application of the method to generalized linear spatial models for simulated and real counting data.

Negli ultimi due decenni l'avvento dei \textit{big-data} ha portato sfide computazionali in tutte le principali discipline della ricerca scientifica. Anche la Statistica spaziale sta affrontando questa sfida. Quando un modello parametrico viene proposto per \textit{big-data}, la stima parametrica e la quantificazione dell'incertezza nella stima comporta un carico computazionale importante. Per questo sono stati proposti molti metodi per gestire queste sfide quali la riduzione della dimensionalit\`a, l'approssimazione mediante campi casuali di Markov, la rastremazione \textit{tapering} della matrice di covarianza e approcci basati sul campionamento. In questa tesi si propone un nuovo approccio \textit{divide-and-conquer} detto \texttt{farmer} per la stima e la valutazione dell'incertezza dei parametri in modelli spaziali in presenza di grandi moli di dati spaziali. Secondo l'approccio proposto tutte le osservazioni vengono divise in blocchi mutualmente esclusivi secondo la loro posizione e per ogni blocco si stimano i parametri del modello. Le stime vengono quindi ricombinate tramite un meta-modello a effetti fissi o casuali per tenere conto della (eventuale) dipendenza spaziale. Il metodo risulta completamente generale e può essere applicato ad un ampia gamma di modelli spaziali A titolo d'esempio viene considerato un modello spaziale lineare gaussiano. In uno studio di simulazione gli stimatori \texttt{farmer} sono stati confrontati con stimatori che si basano sulla medesima idea di campionamento Sempre nel contesto del modello gaussiano si presentano due applicazioni con dati reali. Il metodo proposto \`{e} risultato computazionalmente efficiente rispetto ai metodi concorrenti, con distorsione delle stime inferiore. Inoltre, l'approccio proposto fornisce una stima pi\`{u} realistica degli errori standard. Infine si propone un'applicazione del metodo a modelli spaziali lineari generalizzati per dati di conteggio simulati e reali.

A divide and conquer approach for large spatial dataset / Moinuddin, Md. - (2019 Dec 02).

A divide and conquer approach for large spatial dataset

Moinuddin, Md
2019

Abstract

Negli ultimi due decenni l'avvento dei \textit{big-data} ha portato sfide computazionali in tutte le principali discipline della ricerca scientifica. Anche la Statistica spaziale sta affrontando questa sfida. Quando un modello parametrico viene proposto per \textit{big-data}, la stima parametrica e la quantificazione dell'incertezza nella stima comporta un carico computazionale importante. Per questo sono stati proposti molti metodi per gestire queste sfide quali la riduzione della dimensionalit\`a, l'approssimazione mediante campi casuali di Markov, la rastremazione \textit{tapering} della matrice di covarianza e approcci basati sul campionamento. In questa tesi si propone un nuovo approccio \textit{divide-and-conquer} detto \texttt{farmer} per la stima e la valutazione dell'incertezza dei parametri in modelli spaziali in presenza di grandi moli di dati spaziali. Secondo l'approccio proposto tutte le osservazioni vengono divise in blocchi mutualmente esclusivi secondo la loro posizione e per ogni blocco si stimano i parametri del modello. Le stime vengono quindi ricombinate tramite un meta-modello a effetti fissi o casuali per tenere conto della (eventuale) dipendenza spaziale. Il metodo risulta completamente generale e può essere applicato ad un ampia gamma di modelli spaziali A titolo d'esempio viene considerato un modello spaziale lineare gaussiano. In uno studio di simulazione gli stimatori \texttt{farmer} sono stati confrontati con stimatori che si basano sulla medesima idea di campionamento Sempre nel contesto del modello gaussiano si presentano due applicazioni con dati reali. Il metodo proposto \`{e} risultato computazionalmente efficiente rispetto ai metodi concorrenti, con distorsione delle stime inferiore. Inoltre, l'approccio proposto fornisce una stima pi\`{u} realistica degli errori standard. Infine si propone un'applicazione del metodo a modelli spaziali lineari generalizzati per dati di conteggio simulati e reali.
2-dic-2019
In recent times, the rise of `big data' has brought along major computational challenges in all the main disciplines of scientific research, including the field of spatial statistics. Some of these challenges include parametric estimation and quantification of estimation uncertainty that, when building statistical models using big data, pose an important computational load. Many methods have been proposed to address these challenges such as dimension reduction, approximation by Markov random fields, tapering of the covariance matrix, and subsampling based approaches. In this thesis a new \textit{divide-and-conquer} approach is proposed that we call \texttt{farmer} for providing effect size and standard error estimates in spatial models of big data. According to the proposed approach, all observations are divided into blocks that are mutually exclusive according to their position. For each block, the model parameters are estimated and recombined using a fixed or random meta-model to take into account the (possible) spatial dependence. This generalized method can be applied to a wide range of spatial models. For example, consider a linear Gaussian spatial model. In a simulation study, the \texttt{farmer} estimators were compared with estimators based on methods with similar sampling ideas. In the context of the Gaussian model, two applications with real data are presented. The proposed method appears computationally efficient compared to equivalent methods and has lower bias in the estimates. Furthermore, the proposed approach provides a more realistic estimate of standard errors. Finally, we propose an application of the method to generalized linear spatial models for simulated and real counting data.
Spatial statistics, big-data, farmer approach, meta analytic model, no-Gaussian data
A divide and conquer approach for large spatial dataset / Moinuddin, Md. - (2019 Dec 02).
File in questo prodotto:
File Dimensione Formato  
final_thesis_Md_Moinuddin.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Non specificato
Dimensione 6.87 MB
Formato Adobe PDF
6.87 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3425417
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact