Matrici di Covarianza e Correlazione

La Matrice di Covarianza ($\mathbf{\Sigma}$) e la Matrice di Correlazione ($\mathbf{R}$) sono strumenti essenziali dell’algebra lineare applicata alla statistica multivariata. Entrambe quantificano la natura e la forza delle relazioni lineari tra coppie di variabili in un set di dati.


La Matrice di Covarianza ($\mathbf{\Sigma}$)

La Matrice di Covarianza riassume le variazioni congiunte tra tutte le possibili coppie di variabili ($X_1, X_2, \dots, X_p$). È una matrice quadrata e simmetrica $p \times p$.

Struttura e Formula

  • Diagonale Principale: Contiene le varianze ($\mathbf{Var(X_i)}$) di ogni variabile.
  • Fuori Diagonale: Contiene le covarianze ($\mathbf{Cov(X_i, X_j)}$).

Formula Matriciale (Campionaria):
$$\mathbf{\Sigma} = \frac{1}{n-1} \mathbf{X}{c}^T \mathbf{X}{c}$$
Dove $\mathbf{X}_{c}$ è la Matrice di Disegno con i predittori centrati (sottratta la media).

Interpretazione

La Covarianza indica la direzione della relazione (positiva, negativa o zero) ma il suo valore non standardizzato non ne indica la forza in modo comparabile.


La Matrice di Correlazione ($\mathbf{R}$)

La Matrice di Correlazione standardizza le relazioni della Covarianza, fornendo un valore che indica sia la direzione che la forza del legame lineare.

Struttura e Relazione con $\mathbf{\Sigma}$

La Matrice $\mathbf{R}$ è anch’essa quadrata e simmetrica.

  • Diagonale Principale: Contiene sempre il valore 1.
  • Fuori Diagonale: Contiene i coefficienti di correlazione di Pearson ($\mathbf{r_{ij}}$), che variano tra $\mathbf{-1}$ e $\mathbf{+1}$.

La Correlazione è adimensionale, rendendo le relazioni confrontabili direttamente.


Applicazione Esempio Pratico

Consideriamo due variabili centrate ($X_1$ e $X_2$) con $n=3$ osservazioni, rappresentate dalla matrice dei dati centrati:
$$\mathbf{X}_{c} = \begin{pmatrix} -1 & -2 \\ 0 & 1 \\ 1 & 1 \end{pmatrix}$$

Calcolo di $\mathbf{\Sigma}$ (Matrice di Covarianza)

1. Prodotto $\mathbf{X}{c}^T \mathbf{X}{c}$:
$$\mathbf{X}{c}^T \mathbf{X}{c} = \begin{pmatrix} 2 & 3 \\ 3 & 6 \end{pmatrix}$$

2. Divisione per $n-1=2$:
$$\mathbf{\Sigma} = \frac{1}{2} \begin{pmatrix} 2 & 3 \\ 3 & 6 \end{pmatrix} = \begin{pmatrix} 1,0 & 1,5 \\ 1,5 & 3,0 \end{pmatrix}$$

  • $\mathbf{Var(X_1)} = 1,0$
  • $\mathbf{Cov(X_1, X_2)} = 1,5$

Calcolo di $\mathbf{R}$ (Matrice di Correlazione)

Usando $\mathbf{DS}(X_1) = 1,0$ e $\mathbf{DS}(X_2) \approx 1,732$:

$$\mathbf{r_{12}} = \frac{1,5}{1,0 \cdot 1,732} \approx 0,866$$

$$\mathbf{R} = \begin{pmatrix} 1,0 & 0,866 \\ 0,866 & 1,0 \end{pmatrix}$$

Interpretazione: La correlazione $0,866$ indica una relazione lineare molto forte e positiva.


Ruolo Statistico

La Matrice di Covarianza (o Correlazione) è il punto di partenza dell’Analisi delle Componenti Principali (PCA). La PCA scompone questa matrice per trovare le direzioni di massima varianza nei dati (autovettori), permettendo la riduzione della dimensionalità.

IMPARA LA STATISTICA

Comincia un fantastico viaggio alla scoperta di questa affascinante materia partendo da zero.

Si comincia dalla statistica descrittiva, passando per le probabilità si arriva all’inferenza.

Comincia subito il tuo percorso e migliora le tue abilità.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *