Scomposizione della Varianza con Dati in Classi

L’analisi della Scomposizione della Varianza è un metodo statistico essenziale quando i dati sono raggruppati in classi. Permette di suddividere la variabilità totale di un fenomeno ($\sigma_{TOT}^{2}$) in due componenti: la variabilità dovuta alle differenze tra i gruppi e quella dovuta alle differenze all’interno dei gruppi.

La relazione fondamentale è:

$$\mathbf{\sigma_{TOT}^{2} = \sigma_{NEI}^{2} + \sigma_{FRA}^{2}}$$

(l’immagine è esemplificativa e non contiene le formule corrette)


Formule Teoriche

Sia $N$ il numero totale di osservazioni, $K$ il numero di classi, $n_i$ la frequenza assoluta della classe $i$, $M_i$ la media della classe $i$, e $M_{TOT}$ la media generale.

Varianza Nei Gruppi ($\sigma_{NEI}^{2}$)

Misura la variabilità interna alle classi. Si calcola come la media ponderata delle varianze di classe ($\sigma_i^2$):

$$\sigma_{NEI}^{2} = \frac{\sum_{i=1}^{K} \sigma_{i}^{2} n_{i}}{N}$$

Varianza Tra i Gruppi ($\sigma_{FRA}^{2}$)

Misura la variabilità tra le medie dei gruppi. Si calcola come la varianza delle medie di classe ($M_i$) rispetto alla media generale ($M_{TOT}$), ponderata per le frequenze assolute:

$$\sigma_{FRA}^{2} = \frac{\sum_{i=1}^{K} (M_{i} – M_{TOT})^{2} \cdot n_{i}}{N}$$


Applicazione all’Esempio: Spesa per Vacanze

Applichiamo la scomposizione ai dati dell’indagine sui consumi di $N=500$ famiglie milanesi, relativi alla Spesa per vacanze (in migliaia di euro).

Dati Iniziali

Classe ($i$)Spesa (migliaia di euro)$n_i$ (Frequenza)$M_i$ (Media)$\sigma_i^2$ (Varianza)
1$0 \rightarrow 0,5$1000,30,04
2$0,5 \rightarrow 1,5$1501,20,20
3$1,5 \rightarrow 3$2002,10,10
4$3 \rightarrow 5$504,50,14
Totale$\mathbf{N=500}$

Passo 1: Calcolo della Media Generale ($M_{TOT}$)

$$M_{TOT} = \frac{(0.3 \cdot 100) + (1.2 \cdot 150) + (2.1 \cdot 200) + (4.5 \cdot 50)}{500} = \frac{855}{500} = \mathbf{1.71}$$
La media complessiva è 1.71 migliaia di euro.

Passo 2: Calcolo della Varianza Nei Gruppi ($\sigma_{NEI}^{2}$)

$i$$\sigma_i^2$$n_i$$\sigma_i^2 \cdot n_i$
10,041004
20,2015030
30,1020020
40,14507
Somma$\mathbf{61}$

$$\sigma_{NEI}^{2} = \frac{61}{500} = \mathbf{0.122}$$

Passo 3: Calcolo della Varianza Tra i Gruppi ($\sigma_{FRA}^{2}$)

Si calcola la somma ponderata degli scarti al quadrato rispetto alla media generale ($M_{TOT} = 1.71$).

$i$$M_i$$n_i$$M_i – 1.71$$(M_i – 1.71)^2$$(M_i – 1.71)^2 \cdot n_i$
10,3100$-1.41$$1.9881$$198.810$
21,2150$-0.51$$0.2601$$39.015$
32,1200$0.39$$0.1521$$30.420$
44,550$2.79$$7.7841$$389.205$
Somma$\mathbf{657.450}$

$$\sigma_{FRA}^{2} = \frac{657.45}{500} = \mathbf{1.3149}$$

Passo 4: Calcolo e Verifica della Varianza Totale ($\sigma_{TOT}^{2}$)

$$\sigma_{TOT}^{2} = \sigma_{NEI}^{2} + \sigma_{FRA}^{2}$$
$$\sigma_{TOT}^{2} = 0.122 + 1.3149 = \mathbf{1.4369}$$


Commento e Interpretazione

La scomposizione indica che la varianza tra i gruppi è nettamente superiore alla varianza interna:

$$\frac{\sigma_{FRA}^{2}}{\sigma_{TOT}^{2}} = \frac{1.3149}{1.4369} \approx 0.915$$

Il 91.5% della variabilità totale nella Spesa per vacanze è attribuibile alle differenze tra i livelli medi di spesa delle quattro classi. Solo l’8.5% della variabilità è dovuta alla dispersione all’interno di ciascuna categoria di spesa. Questo conferma che il raggruppamento in classi basato sulla spesa è estremamente efficace e che il fattore “livello di spesa” è il principale discriminante della variabilità.

IMPARA LA STATISTICA

Comincia un fantastico viaggio alla scoperta di questa affascinante materia partendo da zero.

Si comincia dalla statistica descrittiva, passando per le probabilità si arriva all’inferenza.

Comincia subito il tuo percorso e migliora le tue abilità.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *