Dependent data arise frequently in applied research. When quantile regression is the statistical method of choice, several approaches have been proposed that can accommodate dependence among observations. Cluster bootstrap is one of the most popular among them. While practical, this method is generally inefficient and computationally demanding, especially when the number of clusters is large. When the primary interest is on marginal quantiles, estimating equations have been proposed that model the association between the sign of the regression residuals with the Pearson's correlation coefficient. The latter, however, is an inadequate measure of dependence between binary variables because of its range depends on their marginal probabilities. Instead, we propose to model a working association matrix through odds ratios, which are popular measures of association of binary outcomes. Different working structures can be easily estimated by suitable logistic regression models. These structures can be parameterized and may depend on covariates and clusters. Simulations demonstrated that the efficiency of the estimator increases as the working correlation structure approaches the true one. We extend the proposed method to penalized estimating equations, they have increasingly been used to reduce model complexity in several applications. We focus on penalized smoothly clipped absolute deviation models for feature selection and reduced-rank penalized smoothing splines. Simulations showed that the proposed methods potentially improve the performance of the marginal quantile regression estimator. When the correlation structure is correctly specified the estimator's efficiency increases, similarly to what happens in the non-penalized case tackled in the first part of the thesis. We applied the proposed methods to data from a study on cognitive behavior and treatment in patients with obsessive compulsive disorder. To show the full potential of the methods, we modified the original data in some of the analyses.
Nella ricerca applicata, i dati dipendenti sono molto frequenti. Nella regressione quantile sono stati proposti diversi approcci per tenere in considerazione la dipendenza tra le osservazioni. Uno dei metodi più utilizzato è il cluster bootstrap, sebbene sia generalmente inefficiente e computazionalmente dispendioso, soprattutto quando il numero di cluster è elevato. Quando l'interesse principale è sui quantili marginali, sono state proposte delle equazioni di stima che modellizzano l'associazione tra i segni dei residui di regressione attraverso il coefficiente di correlazione di Pearson. Tuttavia, questa misura è inadeguata per la dipendenza tra variabili binarie, poichè il suo range dipende dalle loro probabilità marginali. Nella prima parte della tesi viene proposta una matrice di dipendenza definita attraverso gli odds ratios. Le diverse strutture di associazione possono essere stimate attraverso modelli di regressione logistica e possono essere parametrizzate per dipendere da covariate e gruppi. Attraverso uno studio di simulazione viene mostrato che l'efficienza degli stimatori aumenta quando la matrice di associazione è vicina a quella vera. Nella seconda parte della tesi si estende questo metodo ad equazioni di stima penalizzate, che sono utilizzate per ridurre automaticamente la complessità del modello stimato. In quest'ultima parte del lavoro si concentra l'attenzione sui modelli con penalità smoothly clipped absolute deviation per la selezione automatica dei predittori e sulle spline penalizzate tramite riduzione di rango. Attraverso uno studio di simulazione mostriamo che questi metodi hanno performance migliori rispetto a quelli senza penalizzazione. Quando la struttura di associazione è vicina a quella vera l'efficienza dello stimatore aumenta, analogamente al metodo proposto nella prima parte della tesi. I metodi discussi nella tesi sono stati applicati ad un dataset proveniente da uno studio sul comportamento cognitivo in pazienti con disturbi ossessivi-compulsivi; inoltre, per mostrare il massimo potenziale dei metodi penalizzati, si è provveduto a modificare il dataset originale in alcune analisi.
Extensions of marginal quantile regression to the analysis of dependent data / Bossoli, Davide. - (2017 Jan 31).
Extensions of marginal quantile regression to the analysis of dependent data
Bossoli, Davide
2017
Abstract
Nella ricerca applicata, i dati dipendenti sono molto frequenti. Nella regressione quantile sono stati proposti diversi approcci per tenere in considerazione la dipendenza tra le osservazioni. Uno dei metodi più utilizzato è il cluster bootstrap, sebbene sia generalmente inefficiente e computazionalmente dispendioso, soprattutto quando il numero di cluster è elevato. Quando l'interesse principale è sui quantili marginali, sono state proposte delle equazioni di stima che modellizzano l'associazione tra i segni dei residui di regressione attraverso il coefficiente di correlazione di Pearson. Tuttavia, questa misura è inadeguata per la dipendenza tra variabili binarie, poichè il suo range dipende dalle loro probabilità marginali. Nella prima parte della tesi viene proposta una matrice di dipendenza definita attraverso gli odds ratios. Le diverse strutture di associazione possono essere stimate attraverso modelli di regressione logistica e possono essere parametrizzate per dipendere da covariate e gruppi. Attraverso uno studio di simulazione viene mostrato che l'efficienza degli stimatori aumenta quando la matrice di associazione è vicina a quella vera. Nella seconda parte della tesi si estende questo metodo ad equazioni di stima penalizzate, che sono utilizzate per ridurre automaticamente la complessità del modello stimato. In quest'ultima parte del lavoro si concentra l'attenzione sui modelli con penalità smoothly clipped absolute deviation per la selezione automatica dei predittori e sulle spline penalizzate tramite riduzione di rango. Attraverso uno studio di simulazione mostriamo che questi metodi hanno performance migliori rispetto a quelli senza penalizzazione. Quando la struttura di associazione è vicina a quella vera l'efficienza dello stimatore aumenta, analogamente al metodo proposto nella prima parte della tesi. I metodi discussi nella tesi sono stati applicati ad un dataset proveniente da uno studio sul comportamento cognitivo in pazienti con disturbi ossessivi-compulsivi; inoltre, per mostrare il massimo potenziale dei metodi penalizzati, si è provveduto a modificare il dataset originale in alcune analisi.File | Dimensione | Formato | |
---|---|---|---|
tesi_definitiva_Davide_Bossoli.pdf
accesso aperto
Tipologia:
Tesi di dottorato
Licenza:
Non specificato
Dimensione
865.49 kB
Formato
Adobe PDF
|
865.49 kB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.