Analisi delle Componenti Principali (PCA)

L’Analisi delle Componenti Principali (PCA) è una tecnica di algebra lineare che migliora l’efficienza e la stabilità dei modelli predittivi (come la regressione). Non ha variabili dipendenti ($\mathbf{Y}$), ma agisce sulle variabili indipendenti ($\mathbf{X}$) per eliminare la ridondanza informativa (multicollinearità).

INDICE

1 L’Obiettivo Aziendale: Efficienza Informativa
2 Esempio Pratico: Dataset di Marketing
3 Fasi dell’Analisi delle Componenti Principali (PCA)
4 IMPARA LA STATISTICA

L’Obiettivo Aziendale: Efficienza Informativa

La PCA sintetizza le $p$ variabili originali (spesso correlate) in un numero più piccolo ($m$) di nuove variabili non correlate (Componenti Principali), conservando la maggior parte della Varianza Totale. Questo riduce i costi computazionali e previene l’instabilità nei modelli di regressione successivi.

Esempio Pratico: Dataset di Marketing

Utilizziamo un set di $n=5$ osservazioni e $p=3$ variabili altamente correlate che saranno usate per prevedere un’ipotetica $\mathbf{Y}$ (Profitti):

Oss. $i$	$\mathbf{X_1}$ (Spesa Pubblicità – k€)	$\mathbf{X_2}$ (Click – Migliaia)	$\mathbf{X_3}$ (Vendite Totali – k€)
1	5	10	15
2	2	4	7
3	7	15	20
4	3	6	9
5	8	18	25

Fasi dell’Analisi delle Componenti Principali (PCA)

Fase I: Preparazione e Standardizzazione (Calcolo di $\mathbf{R}$)

Si preparano i dati grezzi, standardizzandoli (Z-score) per rimuovere le differenze di scala. Si calcola la Matrice di Correlazione ($\mathbf{R}$), che è la matrice di varianza/covarianza dell’analisi.

Calcolo Medie e DS:
- $\bar{X}_1 = 5,0$; $\text{DS}_1 \approx 2,55$
- $\bar{X}_2 = 10,6$; $\text{DS}_2 \approx 5,81$
- $\bar{X}_3 = 15,2$; $\text{DS}_3 \approx 7,33$
Standardizzazione (Z-score): Conversione di $\mathbf{X}$ nella Matrice Standardizzata ($\mathbf{Z}$).
$$\mathbf{Z} = \begin{pmatrix} 0,00 & -0,10 & -0,03 \\-1,18 & -1,14 & -1,12 \\ 0,78 & 0,76 & 0,65 \\ -0,78 & -0,79 & -0,85 \\ 1,18 & 1,27 & 1,34 \end{pmatrix}$$
Matrice di Correlazione ($\mathbf{R}$): Il punto di partenza. La Varianza Totale è $\text{Traccia}(\mathbf{R}) = 1+1+1 = \mathbf{3,0}$.
$$\mathbf{R} = \frac{1}{n-1} \mathbf{Z}^T \mathbf{Z} \approx \begin{pmatrix} \mathbf{1,00} & 0,98 & 0,99 \\ 0,98 & \mathbf{1,00} & 1,00 \\ 0,99 & 1,00 & \mathbf{1,00} \end{pmatrix}$$

Fase II: Scomposizione e Decisione

Si calcolano gli autovalori ($\lambda$) (varianza spiegata) e gli autovettori ($\mathbf{v}$) (nuove direzioni, o CP). Si decide quante Componenti Principali (CP) mantenere per raggiungere una soglia di varianza (es. $90\%$), scartando l’informazione ridondante.

4. Calcolo degli Autovalori ($\lambda$): La Decomposizione Spettrale

Il calcolo degli autovalori è il cuore della PCA e serve a trovare gli scalari ($\lambda$) che soddisfano l’equazione fondamentale, nota come equazione caratteristica.

A. L’Equazione Fondamentale

Si parte dalla relazione $\mathbf{R} \mathbf{v} = \lambda \mathbf{v}$. Per risolvere per $\lambda$ e $\mathbf{v}$, si riscrive l’equazione introducendo la matrice identità ($\mathbf{I}$):

$$(\mathbf{R} – \lambda \mathbf{I}) \mathbf{v} = \mathbf{0}$$

B. Risoluzione tramite Determinante

Affinché esista una soluzione non banale (un autovettore $\mathbf{v}$ non nullo), la matrice $(\mathbf{R} – \lambda \mathbf{I})$ deve essere singolare. Questo porta all’Equazione Caratteristica:

$$\det(\mathbf{R} – \lambda \mathbf{I}) = 0$$

C. Struttura del Determinante

Per la tua matrice di correlazione ($\mathbf{R}$) $3 \times 3$, la matrice da cui calcolare il determinante è:

$$\mathbf{R} – \lambda \mathbf{I} = \begin{pmatrix} 1-\lambda & r_{12} & r_{13} \\ r_{21} & 1-\lambda & r_{23} \\ r_{31} & r_{32} & 1-\lambda \end{pmatrix}$$

Risolvere $\det(\mathbf{R} – \lambda \mathbf{I})$ fornisce un polinomio di terzo grado in $\lambda$.

D. Il Risultato: I Tre Autovalori

Le tre radici del polinomio sono gli autovalori ($\lambda_1, \lambda_2, \lambda_3$), che indicano la varianza spiegata da ciascuna Componente Principale.

$$\mathbf{Risoluzione} \implies \begin{cases} \mathbf{\lambda_1 = 2,4} & \text{(80\% della varianza totale)} \\ \mathbf{\lambda_2 = 0,5} & \text{(16,7\% della varianza totale)} \\ \mathbf{\lambda_3 = 0,1} & \text{(3,3\% di rumore/varianza residua)} \end{cases}$$

Autovalore ($\lambda_i$)	Varianza Spiegata	Varianza Cumulata
$\mathbf{\lambda_1 = 2,4}$	$80,0\%$	$80,0\%$
$\mathbf{\lambda_2 = 0,5}$	$16,7\%$	$\mathbf{96,7\%}$
$\mathbf{\lambda_3 = 0,1}$	$3,3\%$	$100,0\%$

5. Calcolo degli Autovettori ($\mathbf{v}$): Le Componenti Principali

Gli autovettori ($\mathbf{v}$) definiscono i pesi con cui le variabili originali ($\mathbf{X}_1, \mathbf{X}_2, \mathbf{X}_3$) si combinano linearmente per formare le Componenti Principali (CP).

A. L’Equazione per la Soluzione

Per ogni autovalore trovato ($\lambda_i$), si risolve il sistema di equazioni lineari omogeneo:

$$(\mathbf{R} – \lambda_i \mathbf{I}) \mathbf{v}_i = \mathbf{0}$$

B. Normalizzazione

Si sceglie la soluzione (l’autovettore) che ha lunghezza unitaria (o norma pari a 1) per renderla comparabile e interpretabile:

$$|\mathbf{v}i| = \sqrt{v{i1}^2 + v_{i2}^2 + v_{i3}^2} = 1$$

C. Risultati e Interpretazione

Sostituendo i nostri autovalori ($\lambda_1=2,4$ e $\lambda_2=0,5$) si ottengono i due autovettori principali:

Autovettore	Risultato Vettoriale	Interpretazione
$\mathbf{v}_1$ (CP1)	$\approx \begin{pmatrix} 0,577 \ 0,577 \ 0,577 \end{pmatrix}$	Scala/Successo Complessivo: Pesi tutti positivi. La CP1 rappresenta la variazione condivisa da tutte le variabili.
$\mathbf{v}_2$ (CP2)	$\approx \begin{pmatrix} 0,577 \ 0,000 \ -0,816 \end{pmatrix}$	Efficienza di Conversione: Variazione ortogonale. Contrasta $X_3$ (Vendite) con $X_1$ (Spesa), catturando l’efficienza.

D. La Matrice degli Autovettori Selezionati

Questi autovettori formano la matrice che sarà usata nel Punto 10 (Fase III) per proiettare i dati:

$$\mathbf{V}_{\text{ridotta}} = (\mathbf{v}_1 \mid \mathbf{v}_2) \approx \begin{pmatrix} 0,577 & 0,577 \ 0,577 & 0,000 \ 0,577 & -0,816 \end{pmatrix}$$

Fase III: Proiezione (Calcolo dei Punteggi)

Si proiettano le osservazioni originali (standardizzate) sugli autovettori selezionati per ottenere le nuove coordinate. Il risultato è una matrice di dati ridotta ($\mathbf{S}$), pronta per essere utilizzata in un modello di regressione successivo.

6. Calcolo dei Nuovi Punteggi ($\mathbf{S}$):

Proiettiamo i dati standardizzati ($\mathbf{Z}$) sulla direzione delle CP selezionate.
$$\mathbf{S} = \mathbf{Z} \mathbf{V}_{\text{ridotta}}$$

Nuova Matrice dei Dati (Punteggi CP):
$$\mathbf{S} \approx \begin{pmatrix} -0,07 & 0,02 \\ -1,98 & 0,22 \\ 1,26 & 1,36 \\ -1,40 & 0,27 \\ 2,19 & -1,87 \end{pmatrix}$$

Conclusione della Scrematura

Decisione: Si scarta la CP3 ($\lambda_3=0,1$), accettando una perdita minima del $3,3\%$ della variabilità totale.
Risultato: Le 3 variabili originali ($X_1, X_2, X_3$) sono state scremate e sostituite dalle 2 variabili non correlate CP1 e CP2.
Utilizzo: L’azienda utilizza questi nuovi punteggi (CP1 e CP2) come predittori (variabili indipendenti) in un modello di regressione per prevedere la variabile obiettivo $\mathbf{Y}$, ottenendo un modello più robusto e parsimonioso.

IMPARA LA STATISTICA

Comincia un fantastico viaggio alla scoperta di questa affascinante materia partendo da zero.

Si comincia dalla statistica descrittiva, passando per le probabilità si arriva all’inferenza.

Comincia subito il tuo percorso e migliora le tue abilità.

ACCEDI AI CORSI