The statistical modeling of integer-valued extremes has received less attention than its continuous counterparts in the extreme value theory (EVT) literature. In this dissertation, we mainly focus on two problems: one, how to introduce and deal with different kinds of dependence (either its simple or temporal) behavior over the tail when one is working with discrete threshold exceedances, and second, how to model the entire range of discrete extreme data. Firstly, to describe simple or temporal dependence in discrete exceedances above a threshold. The modeling framework is executed in two steps. In the first step, discrete exceedances are modeled through a discrete generalized Pareto distribution (DGPD), which can be obtained by mixing a Geometric variable with a Gamma distribution. In the second step, a model for discrete extreme values is built by injecting Gamma random variables or latent Gamma process via hierarchical framework, which confirms that the marginal distribution is a DGPD, as expected from classical discrete EVT. In that construction, we obtained a bivariate distribution with DGPD marginals through the Laplace transform of multivariate Gamma distribution with Gamma marginals. In addition, we further developed a bivariate geometric distribution through Farlie- Gumbel-Morgenstern Copula, mixed it into bivariate Gamma distribution, and found a bivariate distribution with DGPD marginals. In this scenario, we have two dependence parameters: one is the copula dependence parameter, and the other is linked with the layer induced through Gamma random variables associated with the hierarchical setting. Further, we employ four distinct underlying stationary Gamma processes, each pro- ducing a different temporal dependency structure, either asymptotic independence or asymptotic dependence. The proposed model is applied to real discrete time series by using a pairwise likelihood approach. Observations of both series over a finite thresh- old have shown asymptotic independent behavior. One can use a new model for the discrete-time series, which has asymptotic-dependent behavior over the tail. In both scenarios, the proposed model is more flexible. Secondly, selecting the optimal threshold to define exceedances remains challenging when working with discrete extreme data. Moreover, within a regression framework, the treatment of the many data points (those below the chosen threshold) is either ignored or decoupled from extremes. One possibility is to model the bulk part (observation below the threshold) and tail part (observation above the threshold) by separate models with a mixture setting. Again optimal threshold is needed, and this framework is computationally burdensome. Based on these considerations, we propose to enforce EVT compliance by using smooth transitions between the two tails (lower and upper). By extending Generalized Additive Models (GAM) to discrete extremes responses, we are able to incorporate covariates. A GAM model quantifies the parameters of the model as functions of covariates. We also develop models with an additional parameter representing the proportion of zero values in the data in the case of zero inflation. The maximum likelihood estimation procedure is implemented for estimation purposes. With the advantage of bypassing the threshold selection step, our findings indicate that the proposed models are more flexible and robust than competing models (i.e., DGPD, Poisson distribution, and negative binomial distribution).

La modellazione statistica dei valori estremi interi ha ricevuto meno attenzione rispetto a quelli continui nella letteratura sulla teoria dei valori estremi (EVT). In questa tesi, ci concentriamo principalmente su due problemi. Il primo si concentra su come introdurre e trattare diversi tipi di dipendenza (semplice o temporale) nella coda della distribuzione quando si tratta il superamento di soglie discrete. In secondo luogo, affrontiamo il problema di modellare l’intera gamma di dati estremi discreti. Innanzitutto, poniamo l’attenzione sul primo obiettivo, vale a dire quello di descrive- re la dipendenza semplice o temporale nel caso di superamenti di una soglia discreta. La modellazione statistica viene eseguita in due fasi. Nella prima, i superamenti sono mo- dellati attraverso una distribuzione di Pareto generalizzata discreta (DGPD), che pu`o essere ottenuta combinando una variabile geometrica con una distribuzione Gamma. Nella seconda fase, si costruisce un modello per i valori estremi discreti introducendo variabili casuali Gamma o processi latenti Gamma attraverso una struttura gerarchica, che conduce ad una distribuzione marginale DGPD, coerentemente alla teoria classica dei valori estremi discreti. In questa costruzione, abbiamo ottenuto una distribuzione bivariata con marginali DGPD attraverso la trasformata di Laplace della distribuzione multivariata Gamma con marginali Gamma. Inoltre, abbiamo sviluppato una distribu- zione geometrica bivariata attraverso la copula Farlie-Gumbel-Morgenstern, l’abbiamo combinata alla distribuzione Gamma bivariata e abbiamo ottenuto una distribuzione bivariata con marginali DGPD. In questo scenario, abbiamo due parametri di dipen- denza: uno `e il parametro di dipendenza della copula, mentre l’altro `e legato allo strato indotto dalle variabili casuali Gamma associate all’impostazione gerarchica. Inoltre, impieghiamo quattro distinti processi Gamma stazionari sottostanti, ognuno dei quali produce una diversa struttura di dipendenza temporale, sia di indipendenza che dipendenza asintotica. Il modello proposto viene applicato a serie temporali discrete reali utilizzando un approccio di verosimiglianza a coppie. Le osservazioni di entrambe le serie su una soglia finita hanno mostrato un comportamento asintotico indipendente. `E possibile utilizzare un nuovo modello per le serie temporali discrete, che presenta un comportamento asintotico-dipendente sulla coda. In entrambi gli scenari, il modello proposto `e pi`u flessibile. Tuttavia, la selezione della soglia ottimale per definire i superamenti rimane una sfi- da quando si lavora con dati estremi discreti. Inoltre, in un quadro di regressione, il trattamento dei molti punti di dati (quelli al di sotto della soglia scelta) viene ignorato o disaccoppiato dagli estremi. Una possibilit`a `e quella di modellare la parte di massa (osservazioni al di sotto della soglia) e la parte di coda (osservazioni al di sopra della soglia) con modelli separati con un modello mistura. Anche in questo caso `e necessaria una soglia ottimale e questo schema `e computazionalmente oneroso. Sulla base di queste considerazioni, proponiamo di far rispettare l’EVT utilizzando transizioni morbide tra le due code (inferiore e superiore). Estendendo i modelli additivi generalizzati (GAM) a variabili risposta discrete, siamo in grado di incorporare covariate. Un modello GAM quantifica i parametri come funzioni delle covariate. Sviluppiamo anche modelli con un parametro aggiuntivo nel caso di inflazione di zeri. La procedura di massima vero- simiglianza `e stata implementata ai fini di stimare i parametri del modello proposto. Sfruttando il vantaggio di poter evitare la fase di selezione della soglia, i nostri risultati indicano che i modelli proposti sono pi`u flessibili e robusti rispetto ai modelli concorrenti (ad esempio, DGPD, distribuzione di Poisson e distribuzione binomiale negativa).

Modellazione di valori estremi per dati discreti / Ahmad, Touqeer. - (2023 Jun 14).

### Modellazione di valori estremi per dati discreti

#### Abstract

The statistical modeling of integer-valued extremes has received less attention than its continuous counterparts in the extreme value theory (EVT) literature. In this dissertation, we mainly focus on two problems: one, how to introduce and deal with different kinds of dependence (either its simple or temporal) behavior over the tail when one is working with discrete threshold exceedances, and second, how to model the entire range of discrete extreme data. Firstly, to describe simple or temporal dependence in discrete exceedances above a threshold. The modeling framework is executed in two steps. In the first step, discrete exceedances are modeled through a discrete generalized Pareto distribution (DGPD), which can be obtained by mixing a Geometric variable with a Gamma distribution. In the second step, a model for discrete extreme values is built by injecting Gamma random variables or latent Gamma process via hierarchical framework, which confirms that the marginal distribution is a DGPD, as expected from classical discrete EVT. In that construction, we obtained a bivariate distribution with DGPD marginals through the Laplace transform of multivariate Gamma distribution with Gamma marginals. In addition, we further developed a bivariate geometric distribution through Farlie- Gumbel-Morgenstern Copula, mixed it into bivariate Gamma distribution, and found a bivariate distribution with DGPD marginals. In this scenario, we have two dependence parameters: one is the copula dependence parameter, and the other is linked with the layer induced through Gamma random variables associated with the hierarchical setting. Further, we employ four distinct underlying stationary Gamma processes, each pro- ducing a different temporal dependency structure, either asymptotic independence or asymptotic dependence. The proposed model is applied to real discrete time series by using a pairwise likelihood approach. Observations of both series over a finite thresh- old have shown asymptotic independent behavior. One can use a new model for the discrete-time series, which has asymptotic-dependent behavior over the tail. In both scenarios, the proposed model is more flexible. Secondly, selecting the optimal threshold to define exceedances remains challenging when working with discrete extreme data. Moreover, within a regression framework, the treatment of the many data points (those below the chosen threshold) is either ignored or decoupled from extremes. One possibility is to model the bulk part (observation below the threshold) and tail part (observation above the threshold) by separate models with a mixture setting. Again optimal threshold is needed, and this framework is computationally burdensome. Based on these considerations, we propose to enforce EVT compliance by using smooth transitions between the two tails (lower and upper). By extending Generalized Additive Models (GAM) to discrete extremes responses, we are able to incorporate covariates. A GAM model quantifies the parameters of the model as functions of covariates. We also develop models with an additional parameter representing the proportion of zero values in the data in the case of zero inflation. The maximum likelihood estimation procedure is implemented for estimation purposes. With the advantage of bypassing the threshold selection step, our findings indicate that the proposed models are more flexible and robust than competing models (i.e., DGPD, Poisson distribution, and negative binomial distribution).
##### Scheda breve Scheda completa Scheda completa (DC)
On the modeling of discrete extreme values
14-giu-2023
La modellazione statistica dei valori estremi interi ha ricevuto meno attenzione rispetto a quelli continui nella letteratura sulla teoria dei valori estremi (EVT). In questa tesi, ci concentriamo principalmente su due problemi. Il primo si concentra su come introdurre e trattare diversi tipi di dipendenza (semplice o temporale) nella coda della distribuzione quando si tratta il superamento di soglie discrete. In secondo luogo, affrontiamo il problema di modellare l’intera gamma di dati estremi discreti. Innanzitutto, poniamo l’attenzione sul primo obiettivo, vale a dire quello di descrive- re la dipendenza semplice o temporale nel caso di superamenti di una soglia discreta. La modellazione statistica viene eseguita in due fasi. Nella prima, i superamenti sono mo- dellati attraverso una distribuzione di Pareto generalizzata discreta (DGPD), che pu`o essere ottenuta combinando una variabile geometrica con una distribuzione Gamma. Nella seconda fase, si costruisce un modello per i valori estremi discreti introducendo variabili casuali Gamma o processi latenti Gamma attraverso una struttura gerarchica, che conduce ad una distribuzione marginale DGPD, coerentemente alla teoria classica dei valori estremi discreti. In questa costruzione, abbiamo ottenuto una distribuzione bivariata con marginali DGPD attraverso la trasformata di Laplace della distribuzione multivariata Gamma con marginali Gamma. Inoltre, abbiamo sviluppato una distribu- zione geometrica bivariata attraverso la copula Farlie-Gumbel-Morgenstern, l’abbiamo combinata alla distribuzione Gamma bivariata e abbiamo ottenuto una distribuzione bivariata con marginali DGPD. In questo scenario, abbiamo due parametri di dipen- denza: uno `e il parametro di dipendenza della copula, mentre l’altro `e legato allo strato indotto dalle variabili casuali Gamma associate all’impostazione gerarchica. Inoltre, impieghiamo quattro distinti processi Gamma stazionari sottostanti, ognuno dei quali produce una diversa struttura di dipendenza temporale, sia di indipendenza che dipendenza asintotica. Il modello proposto viene applicato a serie temporali discrete reali utilizzando un approccio di verosimiglianza a coppie. Le osservazioni di entrambe le serie su una soglia finita hanno mostrato un comportamento asintotico indipendente. `E possibile utilizzare un nuovo modello per le serie temporali discrete, che presenta un comportamento asintotico-dipendente sulla coda. In entrambi gli scenari, il modello proposto `e pi`u flessibile. Tuttavia, la selezione della soglia ottimale per definire i superamenti rimane una sfi- da quando si lavora con dati estremi discreti. Inoltre, in un quadro di regressione, il trattamento dei molti punti di dati (quelli al di sotto della soglia scelta) viene ignorato o disaccoppiato dagli estremi. Una possibilit`a `e quella di modellare la parte di massa (osservazioni al di sotto della soglia) e la parte di coda (osservazioni al di sopra della soglia) con modelli separati con un modello mistura. Anche in questo caso `e necessaria una soglia ottimale e questo schema `e computazionalmente oneroso. Sulla base di queste considerazioni, proponiamo di far rispettare l’EVT utilizzando transizioni morbide tra le due code (inferiore e superiore). Estendendo i modelli additivi generalizzati (GAM) a variabili risposta discrete, siamo in grado di incorporare covariate. Un modello GAM quantifica i parametri come funzioni delle covariate. Sviluppiamo anche modelli con un parametro aggiuntivo nel caso di inflazione di zeri. La procedura di massima vero- simiglianza `e stata implementata ai fini di stimare i parametri del modello proposto. Sfruttando il vantaggio di poter evitare la fase di selezione della soglia, i nostri risultati indicano che i modelli proposti sono pi`u flessibili e robusti rispetto ai modelli concorrenti (ad esempio, DGPD, distribuzione di Poisson e distribuzione binomiale negativa).
Modellazione di valori estremi per dati discreti / Ahmad, Touqeer. - (2023 Jun 14).
File in questo prodotto:
File
Final Thesis.pdf

accesso aperto

Descrizione: Final Thesis
Tipologia: Tesi di dottorato
Dimensione 8.5 MB
Utilizza questo identificativo per citare o creare un link a questo documento: `https://hdl.handle.net/11577/3487881`