
L’ANOVA si utilizza per verificare la diversità tra le medie di gruppi, e quanto la suddivisione in questi gruppi possa spiegare la variabilità di un carattere.
ANOVA – DEFINIZIONE
L’ANOVA è l’analisi della varianza, in inglese Analisis Of Variance.
Questa analisi ha principalmente due obiettivi.
Il primo è quello di capire se le medie di gruppi distinti possono essere considerate uguali (o diverse).
Il secondo è individuare quanta parte della variabilità di un certo carattere possa essere spiegata attraverso la suddivisione delle unità statistiche in questi gruppi.
ESEMPIO
Intervistiamo 12 soggetti chiedendogli quante ore passano ogni settimana davanti ai social.
Abbiamo suddiviso questo campione in tre gruppi sulla base dell’età.
I giovani sono quelli che hanno un’età compresa tra i 15 e i 30 anni.
Gli adulti che hanno un’età compresa tra i 31 e i 50 anni.
Infine troviamo gli anziani con un’età compresa tra i 51 e i 65 anni.
Riportiamo le risposte rappresentate nella seguente tabella, dove nella prima colonna ci sono 4 giovani, nella seconda 5 adulti e nella terza 3 anziani.

Quanta parte della variabilità del numero di ore può essere spiegata con la suddivisione in questi tre gruppi?
Le medie dei tre gruppi possono essere considerate uguali?
Andiamo a scoprirlo utilizzando l’ANOVA.
DEVIANZE DEI GRUPPI
Il primo passo consiste nel calcolare le devianze del numero ore all’interno di ogni gruppo.
Per devianza intendiamo la somma dei quadrati degli scarti dalla media.
Il primo passo consiste dunque nel calcolare di ogni gruppo la numerosità e la media.
NUMEROSITA’
La numerosità dei gruppi indica il numero di unità statistiche presenti in ogni gruppo è facilmente verificabile:





NUMEROSITA’ CON EXCEL
Per calcolare la numerosità usando Excel utilizziamo la funzione:


MEDIA DEI GRUPPI
Ora calcoliamo di ogni gruppo la media, intesa come media aritmetica semplice, ottenuta sommando i dati e dividendoli per la numerosità.




MEDIA CON EXCEL
Per ottenere la media con Excel usiamo la funzione:


DEVIANZA ALL’INTERNO DI OGNI GRUPPO
Per calcolare la devianza di ogni gruppo possiamo sommiamo i quadrati degli scarti dalla media del gruppo.
Possiamo usare la seguente formula:







Un secondo modo per calcolare la devianza è sommare i quadrati delle unità e sottrarre n volte il quadrato della media:


Analogamente possiamo calcolare le devianze per gli adulti e gli anziani:



DEVIANZA NEI GRUPPI (WITHIN)
La devianza NEI gruppi o WITHIN è data dalla somma delle devianze interne ad ogni gruppo:



Nel nostro caso avremo che:
Nel nostro caso avremo che:



Con Excel basterà semplicemente fare:


DEVIANZA TOTALE
Il prossimo passo consiste nel calcolare la devianza totale.
Dopo aver visto le varianze di ogni singolo gruppo adesso consideriamo l’unione dei tre gruppi ovvero il nostro campione di riferimento.

La formula per calcolare la devianza è sempre quella, ovvero:

Calcoliamo prima la media di tutto il campione:

Per calcolare questa media possiamo anche fare la media ponderata delle medie dei gruppi:

Ora possiamo calcolare la devianza totale:


In alternativa possiamo sempre usare la formula sintetica:




VARIANZA TOTALE CON EXCEL
Con Excel scriviamo:


DEVIANZA TRA I GRUPPI (BETWEEN)
Adesso che abbiamo la devianza TOTALE e quella NEI gruppi (WITHIN) possiamo calcolarci per differenza quella TRA i gruppi.
Possiamo infatti vedere la devianza totale come la somma di due componenti.
Quella che esiste internamente NEI gruppi e quella che esiste TRA i gruppi.

Per dare un’idea grafica possiamo paragonare il nostro campione, rappresentativo della popolazione, a tre bacchette colorate
La bacchetta rappresenta il singolo gruppo del campione, formato a sua volta da quadratiniche sono gli elementi (unità statistiche) del gruppo.
La devianza totale è calcolata su tutta la popolazione e la devianza NEI è calcolata all’interno di ogni bastoncino e quindi sulle unità del gruppo.
Mentre la devianza TRA è quella che esiste tra i gruppi, come se questi fossero delle singole unità.
Ovviamente di ogni gruppo deve essere considerata la numerosità del gruppo come fattore ponderante.

Dalla formula:

Possiamo facilmente ricavare la devianza TRA:

Nel nostro esempio:


Con Excel basta fare la semplice differenza delle devianze

PER APPROFONDIRE
Se vuoi approfondire questo ed altri argomenti della statistica accedi ai corsi.
Troverai spiegazioni chiare ed esaustive.
Un altro affascinante modo per ricavare la devianza TRA è fare la sommatoria dei quadrati delle medie dei gruppi ponderati per la numerosità dei gruppi meno n volte il quadrato della media totale.
Possiamo quindi riassumere questo calcolo con la seguente formula
Un altro affascinante modo per ricavare la devianza TRA è fare la sommatoria dei quadrati delle medie dei gruppi ponderati per la numerosità dei gruppi meno n volte il quadrato della media totale.
Possiamo quindi riassumere questo calcolo con la seguente formula





Riporto ancora i dati per evitare di perderci:

Nel nostro caso faremo:


Con Excel possiamo usare le seguente formula:

Vedi la figura sotto per capire meglio:

TABELLA DEVIANZE, GRADI DI LIBERTA, VARIANZE
Adesso che abbiamo i dati sulle varianze andiamo a costruire una seconda tabella in cui andiamo a mettere:
- Devianze
- Gradi di libertà
- Varianze
Che ci servo per il calcolo dei due seguenti indici:
- Coefficiente di determinazione R^2
- Statistica F di Snedecor
DEVIANZE – SS
Sulla prima colonna rappresentiamo le devianze.
In molti testi e programmi questa colonna è intitolata SS, poiché in inglese è l’acronimo di Sum of Squares ovvero Somma di Quadrati.
Se ci pensiamo bene infatti le devianze sono calcolate come somma dei quadrati degli scarti dalla media.
La prima che scriviamo è la devianza TRA.
Questa devianza è indicata anche con il termine inglese BETWEEN ad indicare la relazione che esiste tra i gruppi del campione.
Può essere anche definita come la devianza associata al MODELLO.
Uno importante del modello ANOVA è infatti quello di determinare l’incidenza che ha la suddivisione di una popolazione in gruppi sulla popolazione stessa
Quando la devianza TRA si avvicina a quella totale il modello riesce a spiegare la devianza del campione attraverso la devianza esistente tra i gruppi.
In questo caso si ritiene significativa la differenza tra i gruppi e quindi delle loro medie.
La seconda è la devianza è quella NEI o WITHIN ed è la devianza interna ai gruppi.
È ottenuta facendo la somma delle devianze interne ai gruppi.
Nell’ambito del modello ANOVA è considerata la devianza associata all’errore.
Con errore intendiamo l’errore nel prevedere la devianza del campione.
Quando la devianza NEI si avvicina a quella totale il modello non è in grado di riconoscere una significativa differenza tra i gruppi.
In questo caso è sempre più alta la probabilità che le medie dei gruppi siano uguali.
La terza ed ultima devianza è quella TOTALE, ottenuta dalla somma delle altre due.
Essa è calcolata tenendo conto di tutti gli elementi del campione.

INDICE DI DETERMINAZIONE R^2
Grazie ai valori delle devianze è possibile calcolare l’indice di determinazione R2.
Per ottenere questo indice facciamo il rapporto tra la devianza del MODELLO (TRA) e la devianza TOTALE.

Possiamo ottenerla anche sottraendo da 1 (100%) il rapporto tra la devianza associata all’ERRORE e la devianza TOTALE.

Il suo valore indica la percentuale di variabilità del carattere spiegata dalla suddivisione del campione (rappresentativo della popolazione) nei gruppi.
Per quanto riguarda il nostro esempio:


Questo significa che con il modello ANOVA riusciamo a spiegare il 69,98% della variabilità del numero di ore dedicate ai social attraverso la suddivisione del campione in gruppi legati all’età.
Potremmo dire che è una percentuale consistente.
Esiste comunque un opportuno test di significatività del valore R2.
GRADI DI LIBERTA’ – GDL
Per il test F che riguarda prettamente la differenza delle medie tra i gruppi dobbiamo calcolare le varianze associate al MODELLO e all’ERRORE.
Per trovare queste servono i gradi di liberta GDL associati al MODELLO e all’ERRORE.
Supponendo di avere un campione di n elementi suddiviso in k gruppi:



Nel nostro caso:






VARIANZA DEL MODELLO E VARIANZA DELL’ERRORE
Per ottenere la varianza del MODELLO dividiamo la devianza del modello per il numero di GDL del MODELLO.

Mentre per ottenere la varianza dell’ERRORE dividiamo la devianza del modello per il numero di GDL dell’ERRORE.

Nel nostro esempio:



STATISTICA F DI FISHER-SNEDECOR
Alla fine del nostro lungo viaggio siamo finalmente giunti al valore che ci dirà definitivamente se possiamo considerare le medie dei gruppi uguali o diverse tra di loro.
Questa è la Statistica-Test F di Fisher-Snedecor.
Per ottenere questo valore dividiamo la varianza del MODELLO per la varianza dell’ERRORE.

Maggiore è questo rapporto e maggiore sarà la probabilità che riteniamo le medie diverse tra di loro.
Potremo anche dire maggiore è la Statistica-F minore è la probabilità di considerare le medie dei gruppi uguali tra di loro.
Nel caso analizzato avremo che:


INTERPRETAZIONE DELLA STATISTICA F
Per interpretare questo valore utilizziamo una TAVOLA della Statistica-F.
Solitamente utilizziamo quella associata ad un alfa pari al 5%

Sulle colonne troviamo i gradi di liberta (g1) associati al numeratore della statistica ovvero quelli del MODELLO.
Sulle righe troviamo i gradi di liberta associati (g2) associati al denominatore del modello.
A noi interessano 2 GDL per il numeratore e 9 GDL per il denominatore

In questo caso rileviamo il valore di F pari a 4,27.
Poiché il nostro valore di F 10,4884 calcolato nell’esempio supera ampliamente questa soglia al 5%, riteniamo significativa la differenza nelle medie dei tre gruppi.
HAI QUALCHE DOMANDA?
Se hai qualche domanda scrivila sotto nei commenti.
Altri utenti potrebbero avere domande simili alle tue e in questo modo potrai aiutarli a risolvere i loro dubbi.
Se vuoi approfondire l’argomento, dai un’occhiata ai corsi di statistica.