Confronto tra campioni indipendenti
In statistica, il confronto tra due o più campioni indipendenti ha lo scopo di verificare, in generale, se un certo numero di campioni statistici proviene da un'unica popolazione, con distribuzione unica , oppure se ciascun campione proviene da una popolazione con distribuzione distinta. È possibile utilizzare diverse metriche per misurare la discrepanza tra le distribuzioni osservate tra due campioni, ed è possibile condurre diversi test per mettere alla prova l'ipotesi di appartenenza a un'unica popolazione, con distribuzione comune. I test presentati qua suppongono indipendenza tra i campioni studiati, per cui un'associazione di qualche tipo potrebbe viziare il risultato o ridurre la potenza del test.
Il problema è analogo a quello di verifica della bontà di adattamento (goodness of fit), cioè l'aderenza di un campione a una distribuzione teorica nota a priori. Al contrario, nel caso di confronto tra campioni indipendenti, è sconosciuta ed esiste solo sotto l'ipotesi nulla di appartenenza dei diversi campioni alla stessa popolazione, perciò viene stimata a partire dall'unione dei vari campioni.
I metodi mostrati in questa pagina riguardano tutti distribuzioni univariate, tuttavia, per alcuni di essi, sono state proposte in letteratura delle estensioni al caso multivariato, più o meno efficienti.
Variabili categoriche
[modifica | modifica wikitesto]Nel caso di variabili categoriche, due test utilizzabili (e largamente utilizzati) per il confronto tra due o più campioni sono il test chi quadrato di Pearson oppure il test esatto di Fisher. Tra i due il primo ha valore asintotico ed è quindi consigliabile per campioni sufficientemente grandi, mentre il secondo è esatto, ma computazionalmente dispendioso quando i campioni sono molti e numerosi.
Un'alternativa sovrapponibile, ma raccomandata, al test chi quadro di Pearson è il test G, basato sul rapporto di verosimiglianza multinomiale.
La statistica test chi quadrato è anche utilizzata come misura della distanza tra diverse distribuzioni (sulle stesse categorie). Una versione normalizzata di tale metrica è l'indice V di Cramer. Altre distanze sono elencate sotto
Variabili numeriche
[modifica | modifica wikitesto]Se si assume un certo modello generatore dei dati, è logico che si opti per un metodo parametrico per confrontare i due o più campioni; ad esempio, nel caso si voglia confrontare delle frequenze che si suppone generate da uno o più processi di Poisson, un modello di Poisson è la scelta più indicata per misurare la differenza tra campioni oppure sottoporli a test sull'ipotesi di omogeneità. Altrimenti, è consigliabile affidarsi a un metodo non parametrico.
Test sulla posizione
[modifica | modifica wikitesto]La casistica più comune di confronti tra campioni diversi verte intorno alla tendenza centrale di ciascun campione, e a misurare la differenza tra queste. Spesso infatti l'attenzione del ricercatore è concentrata su tale statistica sintetica della popolazione. Questo genere di test non è in grado di rilevare se due campioni differiscono nella loro distribuzione, fintanto che la loro media e/o la loro mediana coincidono.
- Test t: si tratta di un test parametrico sulla differenza tra le medie di due campioni. I test t utilizza assunzioni molto stringenti: i due campioni devono avere distribuzione normale con varianza uguale, altrimenti il risultato del test potrebbe essere anche fortemente distorto. Esiste anche un'estensione del test a cui ci si può rivolgere per verificare la differenza tra le medie evitando l'assunzione di uguale varianza. L'estensione del test t a un numero di campioni maggiore di 2 è il test ANOVA.
- Test di Mann-Whitney: è l'alternativa non parametrica più popolare al test t, e si affida ad assunzioni più rilassate: la distribuzione è libera, ma la differenza tra ila posizione dei due campioni viene rilevata correttamente se entrambi hanno uguale distribuzione, eccezion fatta per la posizione appunto, cioè se i due campioni hanno distribuzioni che coincidono tra loro ma traslate l'un l'altra. Il test di Mann-Whitney si basa sui ranghi delle osservazioni, perciò sono adatti a qualsiasi variabile ordinale. L'estensione di questo test a un numero di campioni maggiore di 2 è il Test di Kruskal-Wallis.
- Test della mediana: come dice il nome, questo test ha lo scopo di verificare che tutti i campioni abbiano uguale mediana. È un test non parametrico applicabile alle variabili tanto numeriche quanto ordinali, ma è un'alternativa meno potente ai test precedenti.
Test sui momenti superiori
[modifica | modifica wikitesto]Esistono molti test per confrontare campioni diversi su parametri diversi dalla media o comunque dalla posizione, ad esempio il test F per il rapporto fra varianze o l'equivalente non-parametrico di Ansari-Bradley, tuttavia il loro uso tipico è su due campioni di cui non si suppone uguale posizione, per cui l'ipotesi nulla non è quella di uguale distribuzione. Stesso discorso vale per i test sui momenti superiori al secondo, che si usano tipicamente per i verificare la normalità.
Un altro tipo di problema, comunque molto più raro del confronto tra le posizioni di due campioni, richiede un confronto simultaneo di posizione e scala. Si indicano per questa casistica i test sui ranghi di Cucconi e di Lepage.
Test sull'intera distribuzione
[modifica | modifica wikitesto]Può essere di interesse, piuttosto che un confronto mirato di singole tendenze delle distribuzioni campionarie, un confronto generico sensibile a qualsiasi differenza nelle distribuzioni. Una soluzione comune è quella di categorizzare la variabile dividendo il campione totale in classi adiacenti (come in un istogramma) ed utilizzare quelle classi per costruire una tabella di contingenza su cui poter eseguire un test chi quadro oppure un test G. A ben vedere il test della mediana, introdotto sopra, è un caso particolare di questo metodo.
Un confronto più naturale tra variabili numeriche è quello tra le funzioni di ripartizione empiriche (ECDF, dall'inglese empirical cumulative distribution function). Si basano su questa idea i seguenti test:
- Test di Kolmogorov-Smirnov: la statistica test è il valore di massima differenza assoluta tra le due ECDF. Siccome di questa differenza si prende solo il punto di massimo, il test di Kolmogorov-Smirnov risulta sensibile soprattutto a differenze nella posizione tra i due campioni, anche se non altrettanto dei test che misurano specificamente tale differenza. Si tratta quindi di un test particolarmente conservativo[1].
- Test di Cramer-Von Mises: la statistica test stavolta è l'integrale su tutto il codominio delle funzioni di ripartizione, del quadrato della differenza tra le due funzioni. Rispetto al precedente la potenza è superiore o nei casi peggiori analoga[1][2].
- Test di Anderson-Darling: si tratta di un test simile al precedente, che però assegna maggior peso alle code della distribuzione.
Questi tre test misurano la differenza tra le due funzioni di ripartizione empiriche integrandola rispetto ad (stimato su entrambi i campioni), mentre il test di K.S. si limita a misurare il valore massimo, perciò in tutti e tre i casi il risultato dipende solo dall'ordine delle osservazioni, e il loro utilizzo è applicabile anche a variabili ordinali. Tuttavia potrebbe sembrare appropriato per una variabile numerica conservare l'informazione sulla distanza tra le osservazioni nei due campioni, che nei test precedenti va persa. A questo scopo sono stati proposti ulteriori alternative, come ad esempio l'utilizzo della distanza di Vaseršteĭn tra i campioni come statistica test, la cui distribuzione deve essere stimata tramite bootstrap[3]. Oppure dei test basati sul metodo kernel[4], queste opzioni, a differenza dei test precedenti, sono naturalmente adatte a distribuzioni multivariate.
Altre distanze
[modifica | modifica wikitesto]Sono numerose le metriche ideate per misurare la distanza tra coppie di distribuzioni di probabilità, tuttavia le seguenti richiedono, per variabili continue, una stima della funzione di densità, come ad esempio un istogramma:
- Distanza L1, pari al doppio della distanza di variazione totale, e collegata alla histogram intersection distance.
- Distanza L2.
- Divergenza di Kullback-Leibler, collegata all'entropia incrociata e alla log-verosimiglianza, si trattano queste di distanze che assumono che una delle due distribuzioni sia "reale" e l'altra una sua approssimazione. Per questo motivo è più ragionevole rivolgersi alla divergenza di Jensen-Shannon, che, se misurata sulle classi di un istogramma, è equivalente alla statistica test G (del rapporto di verosimiglianza).
- Distanza di Hellinger, collegata al coefficiente di Bhattacharyya.
Non dipendono invece dalla funzione di densità, ma soltanto da quella di ripartizione (sostituibile con l'ECDF):
- Distanza di Vaseršteĭn, anche nota come earth mover distance (EMD, dall'inglese "distanza di movimento terra"), è diventata particolarmente popolare nelle applicazioni moderne per via della sua efficacia ed intuitività. Tramite algoritmi di calcolo più sofisticati, è immediatamente generalizzabile a qualsiasi distribuzione discreta o continua su uno spazio metrico (dove l'ECDF non è definibile).
- Distanza di Lévy, il cui uso invece è generalmente limitato ad applicazioni teoriche in teoria della misura.
Note
[modifica | modifica wikitesto]- ^ a b (EN) Elena Landoni, Federico Ambrogi e Luigi Mariani, Parametric and nonparametric two-sample tests for feature screening in class comparison: a simulation study, in Epidemiology, Biostatistics and Public Health, vol. 13, n. 2, 21 giugno 2016, DOI:10.2427/11808. URL consultato il 16 aprile 2020 (archiviato dall'url originale il 22 luglio 2020).
- ^ Mike Steele e Janet Chaseling, A comparison of the powers of the Chi-Square test statistic with the discrete Kolmogorov-Smirnov and Cramér-von Mises test statistics, Springer, 2006, pp. 615–621. URL consultato il 15 aprile 2020.
- ^ Connor Dowd, twosamples: Fast Permutation Based Two Sample Tests, 3 dicembre 2018. URL consultato il 15 aprile 2020.
- ^ Arthur Gretton, Karsten M. Borgwardt e Malte J. Rasch, A Kernel Two-Sample Test, in Journal of Machine Learning Research, vol. 13, n. 25, 2012, pp. 723–773. URL consultato il 15 aprile 2020.