Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
teknopedia

teknopedia

teknopedia

teknopedia

teknopedia

teknopedia
teknopedia
teknopedia
teknopedia
teknopedia
teknopedia
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Analisi della varianza - Teknopedia
Analisi della varianza - Teknopedia
Nessuna nota a piè di pagina
Questa voce o sezione sull'argomento matematica è priva o carente di note e riferimenti bibliografici puntuali.

Sebbene vi siano una bibliografia e/o dei collegamenti esterni, manca la contestualizzazione delle fonti con note a piè di pagina o altri riferimenti precisi che indichino puntualmente la provenienza delle informazioni. Puoi migliorare questa voce citando le fonti più precisamente. Segui i suggerimenti del progetto di riferimento.

L'analisi della varianza (ANOVA, dall'inglese Analysis of Variance) è un insieme di tecniche statistiche facenti parte della statistica inferenziale che permettono di confrontare due o più gruppi di dati calcolando e confrontando la variabilità interna a questi gruppi con la variabilità tra i gruppi.

L'analisi della varianza prevede una verifica di validità dell'ipotesi nulla, che prescrive che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione stocastica, e le differenze osservate tra i gruppi siano dovute solo al caso.

Si tratta di tecniche usate soprattutto quando le variabili esplicative sono di tipo nominale (discreto); nulla impedisce di usarle anche in presenza di variabili esplicative di tipo ordinale o continuo, ma in questo caso si ha un'efficienza minore rispetto a tecniche alternative (ad esempio la regressione lineare).

Indice

  • 1 Ipotesi di base
  • 2 Discussione analitica
  • 3 Esempio di analisi della varianza semplice
  • 4 Software statistico R
    • 4.1 Modello tra casi
    • 4.2 Modello entro casi
  • 5 Bibliografia
  • 6 Voci correlate
  • 7 Altri progetti

Ipotesi di base

[modifica | modifica wikitesto]

L'ipotesi alla base dell'analisi della varianza è che dati G {\displaystyle G} {\displaystyle G} gruppi, sia possibile scomporre la varianza in due componenti: Varianza interna ai gruppi (anche detta Varianza Within) e Varianza tra i gruppi (Varianza Between). La ragione che spinge a compiere tale distinzione è la convinzione, da parte del ricercatore, che determinati fenomeni trovino spiegazione in caratteristiche proprie del gruppo di appartenenza. Un esempio tipico, ripreso dalle analisi sociologiche, si trova nello studio dei gruppi di tossicodipendenti. In questo caso l'analisi della varianza si usa per determinare se più gruppi possono essere in qualche modo significativamente diversi tra loro (è la varianza between a contribuire più significativamente alla varianza totale - il fenomeno è legato a caratteristiche proprie di ciascun gruppo, come la zona di residenza) o, viceversa, risultano omogenei (è la varianza within a contribuire più significativamente alla varianza totale - il fenomeno è legato a caratteristiche proprie di tutti i gruppi). In altre parole, il confronto si basa sull'idea che se la variabilità interna ai gruppi è relativamente elevata rispetto alla variabilità tra i gruppi, allora probabilmente la differenza tra questi gruppi è soltanto il risultato della variabilità interna.

Il più noto insieme di tecniche si basa sul confronto della varianza e usa variabili di test distribuite come la variabile casuale F di Fisher-Snedecor.

Le diverse tecniche vengono suddivise a seconda del fatto che il modello preveda:

  • una sola causa: ad esempio, il gradimento di un cibo dipende dal colore del medesimo;
  • più di una causa: ad esempio il successo scolastico dipende sia dal grado di interesse individuale nei confronti dello studio e dell'ottenimento di buoni voti, sia dal grado di istruzione dei genitori;
  • interazione tra più cause: ad esempio, la velocità di effetto di una cura medica dipende dall'azione di due farmaci, i quali però si annullano (o rinforzano) a vicenda.

Discussione analitica

[modifica | modifica wikitesto]

La relazione tra varianza totale σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}} riferita alle n {\displaystyle n} {\displaystyle n} unità e varianze calcolate sui singoli gruppi σ g 2 {\displaystyle \sigma _{g}^{2}} {\displaystyle \sigma _{g}^{2}} (con g = 1 , 2 , … , G {\displaystyle g=1,2,\ldots ,G} {\displaystyle g=1,2,\ldots ,G}) risulta essere:

σ 2 = ∑ g = 1 G σ g 2 n g − 1 n − 1 + ∑ g = 1 G ( m g − m ) 2 n g n − 1 {\displaystyle \sigma ^{2}=\sum _{g=1}^{G}\sigma _{g}^{2}{{n_{g}-1} \over {n-1}}+\sum _{g=1}^{G}(m_{g}-m)^{2}{n_{g} \over {n-1}}} {\displaystyle \sigma ^{2}=\sum _{g=1}^{G}\sigma _{g}^{2}{{n_{g}-1} \over {n-1}}+\sum _{g=1}^{G}(m_{g}-m)^{2}{n_{g} \over {n-1}}}

dove m {\displaystyle m} {\displaystyle m} è la media totale delle n {\displaystyle n} {\displaystyle n} unità, uguale alle medie parziali di ciascun gruppo m g {\displaystyle m_{g}} {\displaystyle m_{g}} con pesi uguali alle rispettive frequenze relative di gruppo n g n {\displaystyle {n_{g} \over n}} {\displaystyle {n_{g} \over n}}. La prima sommatoria è la varianza within mentre la seconda è la varianza between; equivalentemente si può scrivere:

σ 2 = σ W 2 + σ B 2 . {\displaystyle \sigma ^{2}=\sigma _{W}^{2}+\sigma _{B}^{2}.} {\displaystyle \sigma ^{2}=\sigma _{W}^{2}+\sigma _{B}^{2}.}

A loro volta, le medie parziali m g {\displaystyle m_{g}} {\displaystyle m_{g}} dei valori x g j {\displaystyle x_{gj}} {\displaystyle x_{gj}} del g {\displaystyle g} {\displaystyle g}-esimo gruppo sono date da:

m g = ∑ j = 1 n g x g j n g . {\displaystyle m_{g}=\sum _{j=1}^{n_{g}}{x_{gj} \over n_{g}}.} {\displaystyle m_{g}=\sum _{j=1}^{n_{g}}{x_{gj} \over n_{g}}.}

Inoltre si ha che:

σ g 2 = ∑ j = 1 n g [ x g j − m g ] 2 n g − 1 . {\displaystyle \sigma _{g}^{2}={\sum _{j=1}^{n_{g}}[x_{gj}-m_{g}]^{2} \over {n_{g}-1}}.} {\displaystyle \sigma _{g}^{2}={\sum _{j=1}^{n_{g}}[x_{gj}-m_{g}]^{2} \over {n_{g}-1}}.}

La varianza within è uguale alla media ponderata delle varianze parziali, calcolate in ogni gruppo. I pesi sono uguali alle loro frequenze relative.

La varianza between è uguale alla varianza ponderata delle medie parziali. I pesi sono uguali alle frequenze relative di gruppo.

Esempio di analisi della varianza semplice

[modifica | modifica wikitesto]

In questo esempio abbiamo G = 4 {\displaystyle G=4} {\displaystyle G=4} gruppi di uguale numerosità n g = 5 {\displaystyle n_{g}=5} {\displaystyle n_{g}=5} (per semplificare l'esempio), con g = 1 , 2 , 3 , 4 {\displaystyle g=1,2,3,4} {\displaystyle g=1,2,3,4}, indicati con A , B , C , D {\displaystyle A,B,C,D} {\displaystyle A,B,C,D} e n = 20 {\displaystyle n=20} {\displaystyle n=20} unità statistiche (cioè il numero di osservazioni sperimentali totali).

Il modello prevede che

x g j = μ + α g + ε g j , {\displaystyle x_{gj}=\mu +\alpha _{g}+\varepsilon _{gj},} {\displaystyle x_{gj}=\mu +\alpha _{g}+\varepsilon _{gj},}

con g = 1 , 2 , 3 , 4 {\displaystyle g=1,2,3,4} {\displaystyle g=1,2,3,4} che indica il gruppo e j = 1 , 2 , 3 , 4 , 5 {\displaystyle j=1,2,3,4,5} {\displaystyle j=1,2,3,4,5}.

L'ipotesi nulla prevede che:

  • i valori osservati derivino da una distribuzione gaussiana;
  • con stessa media μ {\displaystyle \mu } {\displaystyle \mu } e stessa varianza σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}};
  • α g {\displaystyle \alpha _{g}} {\displaystyle \alpha _{g}} sia uguale per tutti i gruppi (e pertanto nullo).

I dati osservati nei quattro gruppi sono:

j A B C D
1 0,72 0,75 0,68 0,78
2 0,69 0,85 0,70 0,86
3 0,71 0,82 0,67 0,87
4 0,70 0,80 0,65 0,84
5 0,68 0,88 0,70 0,85

Siano adesso:

  • S S Q a {\displaystyle SSQ_{a}} {\displaystyle SSQ_{a}}: la somma degli scarti quadratici delle medie dei singoli gruppi ( m g {\displaystyle m_{g}} {\displaystyle m_{g}}) dalla media generale m {\displaystyle m} {\displaystyle m};
  • S S Q e {\displaystyle SSQ_{e}} {\displaystyle SSQ_{e}}: la somma degli scarti quadratici dei singoli valori x g j {\displaystyle x_{gj}} {\displaystyle x_{gj}} rispetto alla media m g {\displaystyle m_{g}} {\displaystyle m_{g}} del gruppo a cui appartengono;
  • S S Q t o t {\displaystyle SSQ_{tot}} {\displaystyle SSQ_{tot}}: la somma degli scarti quadratici di tutti singoli valori rispetto alla media generale m {\displaystyle m} {\displaystyle m}.

Ovvero:

m = 1 n ∑ g = 1 G ∑ j = 1 n g x g j {\displaystyle m={\frac {1}{n}}\sum _{g=1}^{G}\sum _{j=1}^{n_{g}}x_{gj}} {\displaystyle m={\frac {1}{n}}\sum _{g=1}^{G}\sum _{j=1}^{n_{g}}x_{gj}}
m g = 1 n g ∑ j = 1 n g x g j {\displaystyle m_{g}={\frac {1}{n_{g}}}\sum _{j=1}^{n_{g}}x_{gj}} {\displaystyle m_{g}={\frac {1}{n_{g}}}\sum _{j=1}^{n_{g}}x_{gj}}
S S Q a = ∑ g = 1 G n g ( m g − m ) 2 {\displaystyle SSQ_{a}=\sum _{g=1}^{G}n_{g}(m_{g}-m)^{2}} {\displaystyle SSQ_{a}=\sum _{g=1}^{G}n_{g}(m_{g}-m)^{2}}
S S Q e = ∑ g = 1 G ∑ j = 1 n g ( x g j − m g ) 2 {\displaystyle SSQ_{e}=\sum _{g=1}^{G}\sum _{j=1}^{n_{g}}(x_{gj}-m_{g})^{2}} {\displaystyle SSQ_{e}=\sum _{g=1}^{G}\sum _{j=1}^{n_{g}}(x_{gj}-m_{g})^{2}}
S S Q t o t = ∑ g = 1 G ∑ j = 1 n g ( x g j − m ) 2 = S S Q e + S S Q a {\displaystyle SSQ_{tot}=\sum _{g=1}^{G}\sum _{j=1}^{n_{g}}(x_{gj}-m)^{2}=SSQ_{e}+SSQ_{a}} {\displaystyle SSQ_{tot}=\sum _{g=1}^{G}\sum _{j=1}^{n_{g}}(x_{gj}-m)^{2}=SSQ_{e}+SSQ_{a}}

La variabile test diventa:

T = S S Q a / ( G − 1 ) S S Q e / ( n − G ) {\displaystyle T={\frac {SSQ_{a}/(G-1)}{SSQ_{e}/(n-G)}}} {\displaystyle T={\frac {SSQ_{a}/(G-1)}{SSQ_{e}/(n-G)}}}

dove:

G {\displaystyle G} {\displaystyle G} è il numero di gruppi (nel nostro esempio: G = 4 {\displaystyle G=4} {\displaystyle G=4});
n g {\displaystyle n_{g}} {\displaystyle n_{g}} la numerosità dei singoli gruppi (nel nostro caso n g = 5 {\displaystyle n_{g}=5} {\displaystyle n_{g}=5} per ogni gruppo);
n = ∑ g = 1 G n g {\displaystyle n=\sum _{g=1}^{G}n_{g}} {\displaystyle n=\sum _{g=1}^{G}n_{g}}, ovvero il numero complessivo di casi osservati (nel nostro caso n = 20 {\displaystyle n=20} {\displaystyle n=20}).

Nell'esempio si ottiene che:

S S Q t o t = 0 , 1176 {\displaystyle SSQ_{tot}=0,1176} {\displaystyle SSQ_{tot}=0,1176}
S S Q a = 0 , 1000 {\displaystyle SSQ_{a}=0,1000} {\displaystyle SSQ_{a}=0,1000}
S S Q e = 0 , 0176 {\displaystyle SSQ_{e}=0,0176} {\displaystyle SSQ_{e}=0,0176}

e pertanto

T = 0 , 1000 / ( 4 − 1 ) 0.0176 / ( 20 − 4 ) = 0 , 1000 ⋅ 16 0 , 0176 ⋅ 3 = 30 , 30. {\displaystyle T={\frac {0,1000/(4-1)}{0.0176/(20-4)}}={\frac {0,1000\cdot 16}{0,0176\cdot 3}}=30,30.} {\displaystyle T={\frac {0,1000/(4-1)}{0.0176/(20-4)}}={\frac {0,1000\cdot 16}{0,0176\cdot 3}}=30,30.}

Tale valore viene confrontato con i valori di una variabile casuale F di Snedecor con G − 1 = 3 {\displaystyle G-1=3} {\displaystyle G-1=3} e n − G = 16 {\displaystyle n-G=16} {\displaystyle n-G=16} gradi di libertà. Se si accetta una percentuale di falsi positivi del 5 % = ( 100 − 95 ) % {\displaystyle 5\%=(100-95)\%} {\displaystyle 5\%=(100-95)\%} tale valore è:

F ( 0 , 95 ; 3 ; 16 ) = 3 , 24. {\displaystyle F(0,95;3;16)=3,24.} {\displaystyle F(0,95;3;16)=3,24.}

Pertanto, essendo 30 , 3 ≫ 3 , 24 {\displaystyle 30,3\gg 3,24} {\displaystyle 30,3\gg 3,24} si rigetta l'ipotesi nulla che prevedeva l'assenza di effetti e si afferma che molto probabilmente almeno uno dei quattro gruppi è diverso dagli altri. Forse tutti i gruppi sono diversi uno dall'altro, forse solo uno di loro.

Un test (proposto per la prima volta da Ronald Fisher) permette di determinare la più piccola differenza significativa tra la media di due gruppi, confrontandoli uno a uno.

Tale differenza è:

t ( 0 , 05 2 ; n − G ) ⋅ ( S S Q e ( 1 n p + 1 n q ) ) . {\displaystyle t\left({\frac {0,05}{2}};n-G\right)\cdot {\sqrt {\left(SSQ_{e}\left({\frac {1}{n_{p}}}+{\frac {1}{n_{q}}}\right)\right)}}.} {\displaystyle t\left({\frac {0,05}{2}};n-G\right)\cdot {\sqrt {\left(SSQ_{e}\left({\frac {1}{n_{p}}}+{\frac {1}{n_{q}}}\right)\right)}}.}

Software statistico R

[modifica | modifica wikitesto]

Il calcolo dell'ANOVA con il software R si esegue in diversi modi: a seconda dei dati da analizzare. Prima di procedere nel calcolo vero e proprio è necessario verificare i seguenti assunti:

  1. Indipendenza dei punteggi osservati (se i soggetti sono tra loro indipendenti ci troviamo nell'opzione 'TRA CASI'; se l'assunto non è rispettato (ovvero si fanno più misurazioni agli stessi soggetti) siamo nell'opzione 'ENTRO CASI' che segue modalità di calcolo proprie);
  2. normalità della distribuzione;
  3. omoschedasticità (o omogeneità delle varianze);

Il secondo assunto può essere valutato in due modi:

  • test di normalità di Kolmogorov-Smirnov:
 >ks.test(x, pnorm, mean(x), sd(x))

dove:

  • x è la variabile di cui si vuole valutare la normalità;
  • mean(x) calcola la media di tale distribuzione;
  • sd(x) calcola la deviazione standard di tale distribuzione;
  • pnorm esegue il confronto tra la distribuzione e una distribuzione normale teorica con media=mean(x) e deviazione standard=sd(x).

Dell'output restituito si legge solo il p-value: deve essere maggiore o uguale a 0.05 (o ad un alpha prefissato). L'ipotesi nulla sostiene infatti che la distribuzione è normale;

  • test di normalità di Shapiro-Wilk:
 >shapiro.test(x)

questo comando richiede solo la variabile da analizzare. Stesso discorso di prima per l'output e le ipotesi del test.

Il terzo assunto, omogeneità delle varianze (ossia delle diverse varianze considerate suddivise in funzione dei livelli del fattore), viene così calcolato:

 >bartlett.test (y~A)

dove:

  • y è la variabile dipendente;
  • A è il fattore;

per quanto riguarda l'output è sufficiente leggere il p-value e assicurarsi che sia maggiore o uguale ad un livello alpha prefissato (di default è 0.05). L'ipotesi nulla sostiene infatti che tutte le varianze sono tra loro omogenee. Nel caso questo assunto non sia rispettato è necessario eseguire il calcolo dell'ANOVA con la correzione di Welch.

Verificati gli assunti si può procedere con l'ANOVA vera e propria.

Modello tra casi

[modifica | modifica wikitesto]

In questo caso è sufficiente utilizzare il seguente comando:

 >anova(lm(y~A))

la cui ipotesi nulla è che le diverse medie dei gruppi del fattore sono uguali.

Si noti che l'ipotesi alternativa sostiene che almeno una è diversa dalle altre, non necessariamente tutte diverse tra loro.

nel caso avessimo più fattori possiamo scrivere:

>anova(lm(y~A*B)) se vogliamo tenere conto delle interazioni tra diversi fattori 
>anova(lm(y~A+B)) se non vogliamo considerare l'interazione;

Modello entro casi

[modifica | modifica wikitesto]

In questo caso dobbiamo verificare i 3 assunti di prima più un quarto: l'assunto di sfericità (che sostiene che le covarianze siano omogenee). Per tale verifica:

 >mauchly.test(lm(y~x)~1, X=~1)

e si valuta il p-value: deve essere maggiore o uguale al livello di significatività imposto: l'ipotesi nulla è quella che sostiene la sfericità. nel caso non sia verificato si esegue il calcolo con la correzione di Greenhouse-Geisser

nel caso in cui tale assunto è verificato basta inserire il comando:

 >summary(aov(y~A))

e si osserva il p-value: anche qui l'ipotesi nulla depone a favore dell'uguaglianza tra le medie.

Bibliografia

[modifica | modifica wikitesto]
  • Zani S.; Analisi dei dati statistici, vol. I; 1994; Giuffrè editore; Milano
  • Gili A., Frosini B.V., Zanardi G. e Zenga M.; Variability and concentration, in: Italian contribution to the metodology of statistic; 1987; Cleup; Padova
  • Brasini S., Tassinari F., Tassinari G.; Marketing e pubblicità; 1993; Il Mulino; Bologna
  • Rao C.R.; Diversity: its measurement, decomposition, apportionment and analysis; 1982; Sankhya vol. 44 serie A pagg 1-12

Voci correlate

[modifica | modifica wikitesto]
  • Analisi della correlazione canonica, della quale l'analisi della varianza può essere vista come un caso particolare
  • George W. Snedecor
  • Regressione lineare
  • Ronald Fisher
  • Statistica
  • Test di verifica d'ipotesi
  • Variabile di comodo

Altri progetti

[modifica | modifica wikitesto]

Altri progetti

  • Wikiversità
  • Wikimedia Commons
  • Collabora a Wikiversità Wikiversità contiene risorse sull'analisi della varianza
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file sull'analisi della varianza
V · D · M
Statistica
Teoria statistica
Statistica descrittivaMedia (aritmetica · geometrica · armonica · di potenza · aritmetico-geometrica · integrale) · Mediana · Moda · Intervallo di variazione · Varianza · Deviazione standard · Scarto medio assoluto · Simmetria · Differenza media (assoluta · logaritmica) · Curtosi
Inferenza statisticaTest di verifica d'ipotesi · Significatività · Ipotesi nulla/alternativa · Errore del I e del II tipo · Test Q · Test U · Test t · Test Z · Massima verosimiglianza · Standardizzazione · Valore p · Analisi della varianza
Analisi di sopravvivenzaTasso di guasto · Stimatore di Kaplan-Meier · Test dei ranghi logaritmici
Analisi della regressioneRegressione lineare · Regressione nonlineare · Variabili strumentali · Metodo generalizzato dei momenti · Regressione logistica · Modello probit · Modello logit
Statistica economica
Istituti statisticiISTAT · EuroSTAT · Royal Statistical Society · U.S. Census Bureau · ISI · INSEE
Siti web statisticiOur World in Data · Statista · Bloomberg Terminal · Google Public Data Explorer · World Inequality Database · TradingEconomics · ACLED
Software econometricigretl · EViews
V · D · M
Progettazione di esperimenti
Metodo scientificoEsperimento scientifico · Progettazione statistica · Controllo · validità Interna ed external · Unità sperimentale · Doppio cieco · Progettazione ottimale: Bayesiana · Assegnamento casuale · Aleatorizzazione · Aleatorizzazione ristretta · Replicazione · Grandezza del campione
Trattamento
e blocco
Trattamento · Dimensioni dell'effetto · Contrasto · Interazione · Confondente · Ortogonalità · Blocco · Covariata · Variabile fastidiosa
Modelli
e inferenza
Regressione lineare · Ordinary least squares · Bayesiana · modello dei componenti di varianza · Modello misto · Modello gerarchico: Bayesiano · Analisi della varianza(Anova) · Teorema di Cochran · Manova (multivariata) · Ancova (covarianza) · Test di localizzazione · Confronti multipli
Progettazione

Completamente
randomizzata
Fattoriale · fattoriale frazionario · Plackett-Burman · Taguchi · Metodologia della superficie di risposta · Modellazione polinomiale e razionale delle funzioni · Box-Behnken · Central composite · Blocco · Progettazione a blocchi randomizzata generalizzata (GRBD) · Quadrato latino · Quadrato greco-latino · Vettore ortogonale · Ipercubo latino
Progettazione di misure ripetute · Studio crossover · Studio controllato randomizzato · Analisi sequenziale · Test del rapporto di probabilità sequenziale
Controllo di autoritàJ9U (EN, HE) 987007294737605171
  Portale Statistica: accedi alle voci di Teknopedia che trattano di statistica
Estratto da "https://it.wikipedia.org/w/index.php?title=Analisi_della_varianza&oldid=141348937"

  • Indonesia
  • English
  • Français
  • 日本語
  • Deutsch
  • Italiano
  • Español
  • Русский
  • فارسی
  • Polski
  • 中文
  • Nederlands
  • Português
  • العربية
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022