Approximate bayes random effects models for large datasets

Ciera, James Mbugua

Many medical studies collect functional data, such as trajectories in a biomarker over time. It is of interest to estimate the trajectories and identify or predict clinically-important features. Linear mixed effects (LME) models are commonly used in such cases, with non-linear effects easily incorporated through splines. However, for sufficient flexibility, it is often necessary to use adaptive splines in which the number and locations of knots is unknown and potentially varying across subjects. This can be accomplished with MCMC methodology, using reversible jump or stochastic search variable selection. However, such approaches are slow and infeasible to implement routinely, particularly for large data sets. Motivated by methods proposed in the machine learning literature for compressive sensing, we focus on relevant vector machine (RVM) methodology - a fast approximate Bayes functional data analysis approach that relies on sparseness-favouring hierarchical priors for basis coefficients. Recent literature on the use of RVM methodology is restricted to models that assume that the distribution of the basis coefficients is centered at zero with diagonal covariance. However, in many longitudinal and functional data analysis applications, centering at zero is an unrealistic assumption and does not allow shrinkage towards a population-averaged function. In this work, we develop a generalized multi-task relevant vector machine (MT-RVM) methodology that generates sparse functional linear mixed models to estimate both population-average and subject-specific curves. In particular, we first consider an LME model that assumes independent random effects and then extend the approach to a more generalized LME model with correlated random effects. Further, we extend the application of the generalized MT-RVM methodology into multi-level relevant vector machine (ML-RVM) methodology to generate a sparse multi-level functional mixed model. The analysis of basal body temperature curves over the menstrual cycle has been the motivating application for all the developed methods.

Molti studi medici raccolgono dati in forma funzionale come ad esempio le traiettorie in un bio-marcatore nel corso del tempo. Di questi dati di interesse stimare le traiettorie e individuare o predire caratteristiche clinicamente importanti. I modelli lineari ad effetti misti (LME) sono comunemente utilizzati in questi casi, anche utilizzando effetti non-lineari che si possono includere facilmente attraverso splines. Tuttavia, per ottenere una flessibilità adeguata, spesso necessario utilizzare splines adattive in cui il numero e la posizione dei nodi ignoto e potenzialmente variabile tra soggetti. In questo contesto si utilizzano strumenti di tipo MCMC (Markov Chain Monte Carlo), come ad esempio il reversible jump o la selezione di variabili attraverso ricerca stocastica. Questi approcci sono, tuttavia, lenti e difficilmente utilizzabili in contesti in cui si ripetono spesso le operazioni di stima, in particolare per grandi dati set. A partire dagli strumenti sviluppati nella letteratura del compressive sensing in ambito di machine learning, ci siamo concentrati sulle relevant vector machine (RVM) - un approccio di analisi di dati funzionali bayesiano che utilizza veloci approssimazioni che sfruttano distribuzioni a priori gerarchiche per i coefficienti delle basi che ne favoriscano la sparsit. La letteratura recente per l’uso della metodologia RVM limitata ai modelli che assumono che una distribuzione dei coefficienti base centrata sullo zero con matrice di varianze e covarianze diagonale. In molte applicazioni su dati longitudinali e funzionali, tuttavia, la centratura sullo zero risulta essere una ipotesi poco realistica non consentendo il restringimento ad una funzione centrata sulla media della popolazione. In questo lavoro, abbiamo sviluppato una "multi-task relevant vector machine" generalizzata (MT-RVM), che genera modelli funzionali lineari misti sparsi per stimare sia la curva della media della popolazione che la curva specifica per soggetto. In particolare, in primo luogo abbiamo considerato un modello LME che assume effetti casuali indipendenti e successivamente abbiamo esteso questo approccio ad un modello LME pi generalizzato con effetti casuali correlati. Inoltre, abbiamo esteso la metodologia MT-RVM generalizzata alla situazione in cui sono disponibili diversi livelli di gerarchia, ottenendo una “multi-level relevant vector machine” (ML-RVM) che genera un modello multi-level funzionale sparso ad effetti misti. I metodi sviluppati sono stati motivati dal problema di analizzare le curve della temperatura basale durante il ciclo mestruale, e tale applicazione viene considerata come esemplificazione durante tutta la tesi.

Approximate bayes random effects models for large datasets / Ciera, James Mbugua. - (2010 Jan).