Some Advances in Permutation Testing

The main objective of this Ph.D thesis is to provide some advances in permutation testing within different fields of statistics. Mainly, the thesis is divided into four parts. First, the two notions of power function of permutation tests (conditional and unconditional) are reviewed. The use of empirical conditional power function for sample size estimation is investigated. Then, the notions of reproducibility probability and generalizability probability are defined within the permutation framework. It is shown that the reproducibility and generalizability probabilities are important tools for sample size adjustment. Second, permutation tests with ranked set sampling are investigated. The effectiveness of ranked set sampling on the power of permutation tests is studied. Two-sample permutation test is considered as a guide. The power of the two-sample permutation test is computed for ranked set and simple random samples. It is shown that the test for ranked set sample is more powerful than for simple random sample. Moreover, the effectiveness of the set size and number of cycles of ranked set sample is studied. It is shown that the power increased by the set size and/or the number of cycles. In addition, two test statistics are proposed for ranked set sample and investigated under different kind of distributions (symmetric and asymmetric). Third, permutation tests in linear mixed model are investigated. Some tests for a zero random effect variance component are reviewed and a new permutation test is proposed. Random intercept model is considered as a guide. The proposed permutation test has the correct nominal level of significance and is more powerful than the usual tests based on a mixture of chi-square distributions. Moreover, the proposed permutation test is the fastest, according to computing time, approach among those resampling-based test approaches. Finally, permutation tests in cluster analysis is investigated. Tests for random agreement between two sets of clusters of a dataset are discussed. The adjusted Rand index is proposed as a test statistic. Two testing methods are proposed. The first method is based on the chi-square distribution assuming the cluster sizes within each set of clusters are equal. The second method is based on the permutation approach. Comparison between these proposed methods is carried out in terms of empirical level of significance.

L'obiettivo principale di questa tesi di Dottorato è di conseguire alcuni sviluppi nell'analisi di permutazione nell'ambito di diversi campi della statistica. La tesi è suddivisa in quattro parti. La prima parte prende in esame due nozioni relative alla potenza del test di permutazione (condizionata e incondizionata). E' stato anche indagato l'uso della potenza empirica condizionata per la valutazione della dimensione del campione. Quindi, vengono definite all'interno dell'approccio di permutazione, le nozioni di probabilità di riproducibilità e di probabilità di generalizzabilità. Viene mostrato che le probabilità di riproducibilità e generalizzabilità sono strumenti importanti nell'aggiornamento della dimensione del campione. Nella seconda parte vengono studiati test di permutazione nel ranked set sampling. Quindi viene anche studiato l'effetto di questo tipo di campionamento sulla potenza dei test. Un test di permutazione per due campioni è stato preso come guida. L'efficienza del test di permutazione per due campioni viene calcolata per il ranked set sampling e quello casuale semplice. Viene anche esaminata l'efficienza relativa del ranked set sampling rispetto al campione casuale semplice nella condizione di uguaglianza delle numerosità campionarie effettivamente osservate. Viene inoltre esaminata l'efficienza rispetto alla dimensione delle unità e il numero dei cicli del ranked set sampling; ne risulta che l'efficienza aumenta a seconda del set size e/o il numero dei cicli. Inoltre, vengono proposti due test statistici di permutazione esaminati sotto diversi tipi di distribuzione degli errori (simmetrica e asimmetrica). Nella terza parte, vengono esaminati test sul modello lineare misto. Viene in particolare proposto un test di permutazione per l'ipotesi nulla che la componente di varianza sia pari a zero contro l'alternativa che sia positiva. Fa da guida il modello dell'intercetta casuale. Il test di permutazione proposto ha il corretto livello di significatività ed è più efficiente dei test basati sulla mistura di distribuzioni chi-square. Inoltre, il test proposto è anche l'approccio più veloce in termini di tempi di calcolo fra quelli basati sul ricampionamento. Infine, vengono esaminati test di aggregazione casuale fra due gruppi cluster di un medesimo set di dati. L'adjusted Rand index viene adottato come test statistico. Vengono proposti due metodi di analisi. Il primo è basato sulla distribuzione chi-square tramite l'uso della relazione tra la statistica di Pearson e l'adjusted Rand index. Il secondo è basato sull'approccio permutazionale. Il confronto tra i due metodi proposti è svolto in termini di livello empirico di significatività.

Some Advances in Permutation Testing(2011 Dec 12).