Analisi degli Errori (Residui): Validazionedel Modello

Nel contesto di qualsiasi modello di regressione lineare, un errore o residuo ($\epsilon_i$) rappresenta la deviazione tra il valore osservato della variabile dipendente ($Y_i$) e il valore stimato dal modello ($\hat{Y}_i$). Questa differenza fondamentale è espressa come:

$$\epsilon_i = Y_i – \hat{Y}_i$$

L’analisi dei residui è un passaggio di diagnostica fondamentale. Essa ci permette di verificare se le assunzioni statistiche alla base del metodo dei Minimi Quadrati Ordinari (OLS) sono state rispettate. Se queste assunzioni sono violate, l’inferenza statistica (i nostri Test $t$ e $F$) e la validità delle stime dei coefficienti ($\hat{\beta}$) possono risultare gravemente compromesse.


Modello Lineare Semplice e Proprietà dei Residui

Nella regressione semplice, l’analisi dei residui ha il compito primario di confermare che il modello si adatti al meglio ai dati. Per come è costruito il metodo OLS, che minimizza gli scarti, esso garantisce automaticamente due proprietà essenziali:

  1. La retta di regressione stimata passa sempre per il punto medio dei dati $(\bar{X}, \bar{Y})$.
  2. Di conseguenza, la somma dei residui è sempre pari a zero ($\sum \epsilon_i = 0$), assicurando che la media degli errori sia nulla.

Esempio Concreto: Verifica della Media Zero

Consideriamo un esempio con $n=5$ osservazioni in cui stimiamo il Voto Finale ($Y$) in funzione delle Ore di Studio ($X$).

Modello Stimato: $\hat{Y} = 3.5556 + 0.8889 \cdot X$

La tabella seguente mostra il calcolo dei residui $\epsilon_i = Y_i – \hat{Y}_i$:

$i$$X_i$ (Ore)$Y_i$ (Osservato)$\hat{Y}_i$ (Previsto)$\mathbf{\epsilon_i}$ (Residuo)
126$5.3333$$+0.6667$
246$7.1111$$-1.1111$
358$8.0000$$0.0000$
4710$9.7778$$+0.2222$
5710$9.7778$$+0.2222$
Somma$\sum \epsilon_i \approx \mathbf{0.0000}$

La somma dei residui è pari a zero, dimostrando la proprietà fondamentale degli errori OLS.


Analisi degli Errori nel Modello Multiplo

Nel modello di regressione multipla, che include più predittori:

$$Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \ldots + \beta_k X_{ik} + \epsilon_i$$

l’analisi dei residui diventa cruciale. Ricordiamo che il metodo OLS è interamente focalizzato sulla minimizzazione della Somma dei Quadrati degli Errori ($\mathbf{SQE}$), che è il cuore della varianza non spiegata, come abbiamo visto negli articoli precedenti.

$$\mathbf{SQE} = \sum_{i=1}^n (Y_i – \hat{Y}i)^2 = \sum{i=1}^n \epsilon_i^2$$

L’analisi dei residui è l’ispezione visiva e statistica di questa $\mathbf{SQE}$ per confermare che l’errore sia casuale e ben distribuito.

Verifica delle Assunzioni Essenziali

Per capire se possiamo fidarci dei nostri risultati, ispezioniamo il pattern dei residui, di solito rappresentandoli graficamente contro i valori previsti ($\hat{Y}$) o i predittori. L’obiettivo è vedere una nuvola di punti perfettamente casuale e uniforme, centrata sulla linea dello zero.

Se l’uniformità viene meno, si parla di eteroschedasticità. Immaginate i punti che si aprono a formare un “imbuto” o un “cono” sul grafico. Questo significa che la capacità di previsione del nostro modello è variabile: per alcuni livelli dei predittori, l’errore è piccolo, mentre per altri, l’incertezza (la varianza dell’errore) esplode. L’eteroschedasticità è un problema serio perché, pur non invalidando le stime dei coefficienti $\hat{\beta}$, rende gli errori standard ($\mathbf{SE}$) inaffidabili, distorcendo di conseguenza la validità statistica dei nostri Test $t$ e $F$.

Un altro segnale di allarme si presenta quando i residui non sono casuali, ma formano un pattern riconoscibile, come una curva a “U”. Questo indica che la vera relazione tra le variabili non è lineare e che, per esempio, avremmo dovuto utilizzare un modello quadratico o includere una variabile omessa che spiega quel pattern residuo.

Infine, un’assunzione chiave, specialmente con i dati ordinati nel tempo (serie temporali), è l’indipendenza degli errori. Non vogliamo che l’errore di oggi sia correlato all’errore di ieri. Se ciò accade (fenomeno noto come autocorrelazione), significa che una parte dell’errore (la nostra $\mathbf{SQE}$) è prevedibile e non puramente casuale. Per verificarlo formalmente, si ricorre al Test di Durbin-Watson.

In sintesi, l’analisi degli errori è il meccanismo che ci permette di stabilire se i nostri coefficienti $\hat{\beta}$ e i nostri test di ipotesi sono realmente solidi, o se abbiamo bisogno di rivedere completamente il nostro modello.

IMPARA LA STATISTICA

Comincia un fantastico viaggio alla scoperta di questa affascinante materia partendo da zero.

Si comincia dalla statistica descrittiva, passando per le probabilità si arriva all’inferenza.

Comincia subito il tuo percorso e migliora le tue abilità.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *