In statistica la significatività è la possibilità rilevante che compaia un determinato valore. Ci si riferisce anche a "statisticamente differente da zero", ma ciò non significa che la "significatività" sia rilevante, o vasta, come indurrebbe a pensare la parola. Ma solo che è diversa dal numero limite.
Livello di significatività
[modifica | modifica wikitesto]Il livello di significatività di un test è dato solitamente da una verifica del test d'ipotesi. Nel caso più semplice è definita come la probabilità di accettare o rigettare l'ipotesi nulla.
L'utilizzo nella pratica
[modifica | modifica wikitesto]I livelli di significatività sono solitamente rappresentati con la lettera greca α (alfa). I livelli più usati sono 5% (α=0,05) e 1% (α=0,01); nel caso di ipotesi a carattere prevalentemente esplorativo è consuetudine adoperare un livello di significatività al 10% (α=0,1). Se il test di verifica d'ipotesi dà un valore p minore del livello α, l'ipotesi nulla è rifiutata. Tali risultati sono informalmente riportati come 'statisticamente significativi'. Per esempio se si sostiene che c'è solo una possibilità su mille che ciò possa accadere per coincidenza, viene usato un livello di significatività dello 0,1%. Più basso è il livello di significatività, maggiore è l'evidenza. In alcune situazioni conviene esprimere la significatività statistica con 1 − α. In generale, quando si interpreta una significatività stabilita, bisogna stare attenti nell'indicare che cosa, precisamente, è stato testato statisticamente.
Differenti livelli di α hanno differenti vantaggi e svantaggi. α-livelli più bassi danno maggiore confidenza nella determinazione della significatività, ma corrono maggiori rischi di errore di non rigettare una falsa ipotesi nulla (un errore di tipo II, o falsa determinazione negativa), e così hanno maggiore potenza statistica. La selezione di un α-livello inevitabilmente implica un compromesso fra significatività e potenza, e di conseguenza, fra errore tipo I ed errore tipo II.
In alcuni campi, per esempio nella fisica nucleare ed in quella delle particelle, si usa esprimere la significatività statistica in unità di "σ" (sigma), la deviazione standard di una distribuzione gaussiana. Una significatività statistica di "" può essere convertita in un valore di α usando la funzione errore:
L'uso di σ è motivato dalla onnipresenza della distribuzione gaussiana nella misura delle incertezze. Per esempio se una teoria prevede che un parametro abbia un valore, ad esempio 100, e ad una misurazione indica che il parametro è 91 ± 3, allora bisogna riportare la misura come una deviazione 3σ dalla previsione teorica. in termini di α, questa situazione è equivalente al dire che supponendo vera la teoria, la possibilità di ottenere che il risultato sperimentale coincida è dello 0,27% (poiché 1 − erf(3/√2) = 0.0027). Fissati i livelli di significatività come quelli menzionati in seguito possono essere considerati come utili nelle analisi di dati esploratorie. Comunque, la moderna statistica è dell'avviso che, dove il risultato di un test è essenzialmente il risultato finale di un esperimento o di altro studio, il p-valore deve essere considerato esplicitamente. Inoltre, ed è importante, bisogna considerare se e come il p-valore è significativo o meno. Questo consente di accedere al massimo delle informazioni che devono essere trasferiti da un riassunto degli studi nelle meta-analisi.
Trappole
[modifica | modifica wikitesto]Un errore comune è ritenere che un risultato statisticamente significativo sia sempre di significatività pratica, o dimostri un largo effetto nella popolazione. Sfortunatamente, questo problema si incontra diffusamente negli scritti scientifici. Dato un campione sufficientemente grande, per esempio, si può scoprire che differenze estremamente piccole e non visibili sono statisticamente significative, ma la significatività statistica non dice niente di una significatività pratica di una differenza.
Uno dei problemi più comuni nel testare la significatività è la tendenza delle comparazioni multiple a tendere a significative differenze spurie anche dove l'ipotesi nulla è vera. Per esempio, in uno studio di venti comparazioni, usando un α-livello del 5%, una comparazione può effettivamente riportare un risultato significativo nonostante sia vera l'ipotesi di nullità. in questi casi i p-valori sono corretti al fine di controllare o il valore falso o l'errore familiare.
Un problema addizionale è che si ritiene che le analisi frequentiste dei p-valori esagerino la "significatività statistica".[1][2] Si veda il fattore di Bayes per i dettagli.
J. Scott Armstrong, negli articoli "Significance Tests Harm Progress in Forecasting,"[3] e "Statistical Significance Tests are Unnecessary Even When Properly Done,"[4] espone la sua posizione secondo cui in alcuni casi, seppure eseguiti correttamente, i test di significatività statistica non sarebbero utili. A suo parere, un certo numero di tentativi ha fallito nel trovare prove empiriche che sostenessero l'uso di test di significatività, ed i test di significatività statistica usati da soli potrebbero essere nocivi allo sviluppo della conoscenza scientifica perché distrarrebbero i ricercatori dall'uso di metodi statistici in alcuni casi più adatti. Armstrong suggerisce quindi che secondo lui i ricercatori dovrebbero evitare i test di significatività statistica, e dovrebbero piuttosto fare uso di strumenti di area di effetto, intervalli di fiducia, ripetizioni/estensioni, e meta-analisi.
Concettualizzazione della significatività nell'ambito del rumore e del segnale
[modifica | modifica wikitesto]La significatività statistica può essere considerata come la fiducia che si ha in un dato risultato. In uno studio di comparazione, essa dipende dalla differenza relativa tra i gruppi confrontati, la quantità delle misurazioni e il rumore associato alle misurazioni. In altre parole, la fiducia che si ha che un dato risultato sia non casuale (cioè non una conseguenza di un caso) dipende dal rapporto segnale/rumore (SNR) e misura campione. Esprimendosi matematicamente, la fiducia che un risultato non sia casuale è dato dalla seguente formula di Sackett:[5]
Per chiarezza, la succitata formula è rappresentata tabularmente qui di seguito.
Dipendenza della fiducia con rumore, segnale e misura campione (forma tabulare)
Parametro | Parametro crescente | Parametro decrescente |
---|---|---|
Rumore | Fiducia decrescente | Fiducia crescente |
Segnale | Fiducia crescente | Fiducia decrescente |
Misura campione | Fiducia crescente | Fiducia decrescente |
In parole la dipendenza di una fiducia è maggiore se il rumore è basso o la misura campione è estesa o l'ampiezza effettiva (del segnale) è larga. La fiducia di un risultato (e l'associato intervallo di fiducia) non dipende dagli effetti della sola ampiezza effettiva del segnale. Se la misura campione è grande e il rumore è piccolo, un'ampiezza effettiva di segnale può essere misurata con grande fiducia. Sebbene un'ampiezza effettiva viene considerata importante essa dipende nel contesto degli eventi comparati.
In medicina, piccole ampiezze effettive (riflesse da piccoli aumenti di rischio) sono spesso considerate clinicamente rilevanti e sono frequentemente usati per guidare decisioni di trattamento (se c'è una grande fiducia in essi). Sebbene un dato trattamento è considerato un giusto tentativo esso dipende dai rischi, dai benefici e dai costi.
Note
[modifica | modifica wikitesto]- ^ Goodman S, Toward evidence-based medical statistics. 1: The P value fallacy., in Ann Intern Med, vol. 130, n. 12, 1999, pp. 995–1004, PMID 10383371.
- ^ Goodman S, Toward evidence-based medical statistics. 2: The Bayes factor., in Ann Intern Med, vol. 130, n. 12, 1999, pp. 1005–13, PMID 10383350.
- ^ Armstrong, J. Scott, Significance tests harm progress in forecasting, in International Journal of Forecasting, vol. 23, 2007, pp. 321–327, DOI:10.1016/j.ijforecast.2007.03.004. Full Text
- ^ Armstrong, J. Scott, Statistical Significance Tests are Unnecessary Even When Properly Done, in International Journal of Forecasting, vol. 23, 2007, pp. 335–336, DOI:10.1016/j.ijforecast.2007.01.010. Full Text
- ^ Sackett DL. Why randomized controlled trials fail but needn't: 2. Failure to employ physiological statistics, or the only formula a clinician-trialist is ever likely to need (or understand!). CMAJ. 2001 Oct 30;165(9):1226-37. PMID 11706914. Free Full Text.
Voci correlate
[modifica | modifica wikitesto]- Test A/B
- Test ABX
- metodo di Fisher per combinare Indipendenza statistica
- Test di ipotesi statistica della significatività
- Dubbio ragionevole
Altri progetti
[modifica | modifica wikitesto]- Wikizionario contiene il lemma di dizionario «significatività»
Collegamenti esterni
[modifica | modifica wikitesto]- (EN) Eric W. Weisstein, Significatività, su MathWorld, Wolfram Research.
- Raymond Hubbard, M.J. Bayarri, P Values are not Error Probabilities. A working paper that explains the difference between Fisher's evidential p-value and the Neyman-Pearson Type I error rate .
- The Concept of Statistical Significance Testing Archiviato il 2 ottobre 2010 in Internet Archive. - Article by Bruce Thompon of the ERIC Clearinghouse on Assessment and Evaluation, Washington, D.C.