Il Test F nella Regressione Lineare Multipla

Il Test F (o ANOVA della Regressione) è il primo test di ipotesi da eseguire nel modello di regressione lineare multipla. Il suo scopo è valutare la significatività globale del modello, determinando se l’intero set di variabili esplicative ($X_1, X_2, \ldots, X_k$) fornisce un potere predittivo significativo sulla variabile dipendente ($Y$).


Il Test di Ipotesi $F$

Il Test $F$ verifica se l’introduzione dei predittori fornisce un miglioramento statisticamente significativo rispetto a un modello “nullo” (che stima $Y$ solo con la sua media $\bar{Y}$).

Ipotesi del Test

Il test verifica se tutti i coefficienti angolari (beta) del modello sono contemporaneamente pari a zero.

  • Ipotesi Nulla ($H_0$): Nessuna delle variabili esplicative ha un effetto significativo su $Y$.
    $$H_0: \beta_1 = \beta_2 = \ldots = \beta_k = 0$$
  • Ipotesi Alternativa ($H_1$): Almeno un coefficiente è diverso da zero.
    $$H_1: \text{Almeno un } \beta_j \neq 0$$

La Funzione $F$ e la Varianza

La statistica $F$ si basa sulla decomposizione della varianza totale ($SQT = SQR + SQE$). La statistica $F$ è il rapporto tra la varianza media spiegata ($MQR$) e la varianza media residua ($MQE$).

$$\mathbf{F} = \frac{\text{Varianza Spiegata}}{\text{Varianza Non Spiegata}} = \frac{MQR}{MQE}$$

La Formula Completa

Assumendo $n$ osservazioni e $k$ variabili esplicative, la formula è:

$$\mathbf{F} = \frac{SQR / k}{SQE / (n – k – 1)}$$

  • Gradi di Libertà: $k$ (numeratore) e $n – k – 1$ (denominatore).

Un valore elevato di $F$ (molto maggiore di 1) indica che la varianza spiegata è significativamente superiore a quella residua.


Criteri di Decisione e Esempio Concreto

La statistica $F$ calcolata viene confrontata con la distribuzione $F$ di Snedecor.

Esempio Concreto (Spesa per Consumi)

Facciamo riferimento al modello di regressione analizzato nell’articolo precedente sulla stima e inferenza sui beta, che prevede la Spesa annuale per consumi ($Y$) usando Popolazione ($X_1$) e Tasso di Disoccupazione ($X_2$).

Dati Chiave di Riferimento:

  • Osservazioni ($n$): $\mathbf{41}$
  • Variabili esplicative ($k$): $\mathbf{2}$
  • Statistica test $F$ calcolata: $\mathbf{37.5}$
  • $p$-value associato: $\mathbf{0.000}$

Analisi del Test F ($\alpha = 0.05$):

  1. Ipotesi Nullà: $H_0: \beta_{\text{Popolazione}} = \beta_{\text{Disoccupazione}} = 0$.
  2. Criterio del $p$-value: Poiché il $p$-value ($0.000$) è molto inferiore a $\alpha=0.05$, si rifiuta l’ipotesi nulla $H_0$.

Conclusione

La conclusione statistica è che il modello di regressione è globalmente significativo. Le variabili Popolazione e Tasso di Disoccupazione, prese congiuntamente, hanno un’influenza significativa sulla variabile risposta $Y$.

IMPARA LA STATISTICA

Comincia un fantastico viaggio alla scoperta di questa affascinante materia partendo da zero.

Si comincia dalla statistica descrittiva, passando per le probabilità si arriva all’inferenza.

Comincia subito il tuo percorso e migliora le tue abilità.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *