Dalla Regressione Semplice a quella Multipla

Il modello di Regressione Lineare è il fondamento dell’analisi statistica, utilizzato per modellare la relazione tra una variabile dipendente ($Y$, risposta) e una o più variabili indipendenti ($X$, esplicative). L’obiettivo è stimare i coefficienti che minimizzano l’errore tra i valori osservati e quelli previsti, utilizzando il metodo dei Minimi Quadrati Ordinari (OLS).


La Regressione Lineare Semplice

Nel modello semplice, la variabile risposta $Y$ dipende linearmente da una sola variabile esplicativa $X$.

Il modello teorico è:
$$Y_i = \beta_0 + \beta_1 X_i + \epsilon_i$$

Stima dei Coefficienti (${\beta}$)

I coefficienti $\hat{\beta}_0$ e $\hat{\beta}_1$ sono stimati minimizzando la Somma dei Quadrati degli Errori (SQE).

  1. Coefficiente Angolare ($\hat{\beta}1$): Rapporto tra Codevianza e Devianza.
    $$\hat{\beta}_1 = \frac{\sum{i=1}^n (X_i – \bar{X})(Y_i – \bar{Y})}{\sum_{i=1}^n (X_i – \bar{X})^2} = \frac{\text{Codevianza}(X, Y)}{\text{Devianza}(X)}$$
  2. Intercetta ($\hat{\beta}_0$):
    $$\hat{\beta}_0 = \bar{Y} – \hat{\beta}_1 \bar{X}$$

Decomposizione della Varianza e $R^2$

La bontà di adattamento si valuta decomponendo la varianza totale ($SQT$) in varianza spiegata ($SQR$) e varianza non spiegata ($SQE$):

$$\underbrace{\sum_{i=1}^n (Y_i – \bar{Y})^2} = \underbrace{\sum_{i=1}^n (\hat{Y}i – \bar{Y})^2} + \underbrace{\sum_{i=1}^n (Y_i – \hat{Y}i)^2}$$

$$\underbrace{SQT} = \underbrace{SQR} + \underbrace{SQE}$$

Il Coefficiente di Determinazione ($R^2$) è la proporzione di variabilità spiegata dal modello.
$$R^2 = \frac{SQR}{SQT} = 1 – \frac{SQE}{SQT}$$

Test F (Significatività Globale)

Il Test F verifica l’ipotesi nulla $H_0: \beta_1 = 0$ (assenza di relazione).

$$F = \frac{SQR/1}{SQE/(n-2)} = \frac{MQR}{MQE}$$

Il test F è strettamente collegato all’analisi sugli errori (residui) della regressione.


La Regressione Lineare Multipla

La regressione multipla include $k > 1$ variabili esplicative ($X_1, X_2, \ldots, X_k$) per prevedere $Y$.

Il modello teorico è:
$$Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \ldots + \beta_k X_{ik} + \epsilon_i$$

Principio di Minimizzazione dei Quadrati degli Errori

Si applica il metodo OLS per minimizzare la somma dei quadrati degli errori $\sum \epsilon_i^2$:

$$\min \sum_{i=1}^n \epsilon_i^2 = \min \sum_{i=1}^n \left(Y_i – (\hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \ldots + \hat{\beta}_k X_{ik})\right)^2$$

Calcolo dei Coefficienti con le Matrici

Il modello è rappresentato in forma matriciale come: $\mathbf{Y} = \mathbf{X} \mathbf{\beta} + \mathbf{\epsilon}$.

Matrici Esplicitate (dati $n$ osservazioni e $k$ variabili esplicative):

Vettore $\mathbf{Y}$ (Risposta): Vettore colonna $n \times 1$.
$$\mathbf{Y} = \begin{pmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{pmatrix}$$

Matrice $\mathbf{X}$ (Disegno): Matrice $n \times (k+1)$ con la colonna iniziale di “uno” per l’intercetta $\beta_0$.
$$\mathbf{X} = \begin{pmatrix} 1 & X_{11} & X_{12} & \cdots & X_{1k} \\ 1 & X_{21} & X_{22} & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & X_{n1} & X_{n2} & \cdots & X_{nk} \end{pmatrix}$$

Vettore $\mathbf{\beta}$ (Coefficienti): Vettore colonna $(k+1) \times 1$ dei parametri da stimare.
$$\mathbf{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{pmatrix}$$

Vettore $\mathbf{\epsilon}$ (Errori/Residui): Vettore colonna $n \times 1$ dei termini di errore.
$$\mathbf{\epsilon} = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix}$$

La Soluzione OLS (Stimatori $\mathbf{\hat{\beta}}$):

Gli stimatori OLS $\mathbf{\hat{\beta}}$ sono calcolati utilizzando la trasposta ($\mathbf{X}^T$) e l’inversa ($\cdot^{-1}$) della matrice $\mathbf{X}^T \mathbf{X}$:

$$\mathbf{\hat{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}$$

Per capire meglio la formula vai a questo articolo.

Sui coefficienti della regressione possiamo inoltre svolgere uno specifico test di ipotesi, per verificare se risultano significativamente diversi da zero.

Test F nella Regressione Multipla

Il Test F verifica l’ipotesi nulla $H_0: \beta_1 = \beta_2 = \ldots = \beta_k = 0$ (il modello non è complessivamente significativo).

La statistica $F$ è:
$$F = \frac{SQR/k}{SQE/(n-k-1)}$$

IMPARA LA STATISTICA

Comincia un fantastico viaggio alla scoperta di questa affascinante materia partendo da zero.

Si comincia dalla statistica descrittiva, passando per le probabilità si arriva all’inferenza.

Comincia subito il tuo percorso e migliora le tue abilità.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *