La Matrice di Covarianza ($\mathbf{\Sigma}$) e la Matrice di Correlazione ($\mathbf{R}$) sono strumenti essenziali dell’algebra lineare applicata alla statistica multivariata. Entrambe quantificano la natura e la forza delle relazioni lineari tra coppie di variabili in un set di dati.
INDICE
La Matrice di Covarianza ($\mathbf{\Sigma}$)
La Matrice di Covarianza riassume le variazioni congiunte tra tutte le possibili coppie di variabili ($X_1, X_2, \dots, X_p$). È una matrice quadrata e simmetrica $p \times p$.
Struttura e Formula
- Diagonale Principale: Contiene le varianze ($\mathbf{Var(X_i)}$) di ogni variabile.
- Fuori Diagonale: Contiene le covarianze ($\mathbf{Cov(X_i, X_j)}$).
Formula Matriciale (Campionaria):
$$\mathbf{\Sigma} = \frac{1}{n-1} \mathbf{X}{c}^T \mathbf{X}{c}$$
Dove $\mathbf{X}_{c}$ è la Matrice di Disegno con i predittori centrati (sottratta la media).
Interpretazione
La Covarianza indica la direzione della relazione (positiva, negativa o zero) ma il suo valore non standardizzato non ne indica la forza in modo comparabile.
La Matrice di Correlazione ($\mathbf{R}$)
La Matrice di Correlazione standardizza le relazioni della Covarianza, fornendo un valore che indica sia la direzione che la forza del legame lineare.
Struttura e Relazione con $\mathbf{\Sigma}$
La Matrice $\mathbf{R}$ è anch’essa quadrata e simmetrica.
- Diagonale Principale: Contiene sempre il valore 1.
- Fuori Diagonale: Contiene i coefficienti di correlazione di Pearson ($\mathbf{r_{ij}}$), che variano tra $\mathbf{-1}$ e $\mathbf{+1}$.
La Correlazione è adimensionale, rendendo le relazioni confrontabili direttamente.
Applicazione Esempio Pratico
Consideriamo due variabili centrate ($X_1$ e $X_2$) con $n=3$ osservazioni, rappresentate dalla matrice dei dati centrati:
$$\mathbf{X}_{c} = \begin{pmatrix} -1 & -2 \\ 0 & 1 \\ 1 & 1 \end{pmatrix}$$
Calcolo di $\mathbf{\Sigma}$ (Matrice di Covarianza)
1. Prodotto $\mathbf{X}{c}^T \mathbf{X}{c}$:
$$\mathbf{X}{c}^T \mathbf{X}{c} = \begin{pmatrix} 2 & 3 \\ 3 & 6 \end{pmatrix}$$
2. Divisione per $n-1=2$:
$$\mathbf{\Sigma} = \frac{1}{2} \begin{pmatrix} 2 & 3 \\ 3 & 6 \end{pmatrix} = \begin{pmatrix} 1,0 & 1,5 \\ 1,5 & 3,0 \end{pmatrix}$$
- $\mathbf{Var(X_1)} = 1,0$
- $\mathbf{Cov(X_1, X_2)} = 1,5$
Calcolo di $\mathbf{R}$ (Matrice di Correlazione)
Usando $\mathbf{DS}(X_1) = 1,0$ e $\mathbf{DS}(X_2) \approx 1,732$:
$$\mathbf{r_{12}} = \frac{1,5}{1,0 \cdot 1,732} \approx 0,866$$
$$\mathbf{R} = \begin{pmatrix} 1,0 & 0,866 \\ 0,866 & 1,0 \end{pmatrix}$$
Interpretazione: La correlazione $0,866$ indica una relazione lineare molto forte e positiva.
Ruolo Statistico
La Matrice di Covarianza (o Correlazione) è il punto di partenza dell’Analisi delle Componenti Principali (PCA). La PCA scompone questa matrice per trovare le direzioni di massima varianza nei dati (autovettori), permettendo la riduzione della dimensionalità.
IMPARA LA STATISTICA
Comincia un fantastico viaggio alla scoperta di questa affascinante materia partendo da zero.
Si comincia dalla statistica descrittiva, passando per le probabilità si arriva all’inferenza.
Comincia subito il tuo percorso e migliora le tue abilità.