Skip to main content

CONFRONTO TRA MEDIE

Il confronto tra medie è una procedura che serve a verificare l’uguaglianza della media di un campione rispetto alla media di un altro campione o della popolazione

SCHEMA LOGICO:

Per chi si è appena approcciato al mondo della statistica l’analisi della teoria delle medie ha una teoria molto complessa.

Quindi vi consiglio di tenere a portata di mano una bella camomilla onde evitare di cadere nello stato di disperazione se non avete ben capito dopo una sola lettura questo articolo.

Armatevi di pazienza e cercate di affrontare questo argomento a sangue freddo e con i piedi di piombo.

Per prima cosa cominciamo a distinguere quattro casistiche principali:

  • Campione VS popolazione
  • 2 campioni indipendenti
  • 2 campioni dipendenti (appaiati)
  • K campioni indipendenti

È molto importante capire bene da quale di questi quattro casi voi state partendopoiché in base a ognuno di questi affronterete la questione con strumenti diversi.

CAMPIONE VS POPOLAZIONE

Questo è il primo e più elementare caso che viene trattato nell’ambito inferenziale quando si comincia a parlare del test sulla media.

In parole molto semplici vogliamo capire se la media di un certo gruppo è uguale alla media della popolazione.

In questo caso partiamo dalla conoscenza certa della media di una certa popolazione pari a µ e vogliamo testare se un certo suo gruppo presenta una media analoga.

Per fare questo test andiamo a selezionare un campione che rappresenti in modo appropriato questo gruppo e ne rileviamo la numerosità n, il valore medio ed eventualmente la deviazione standard campionaria.

Arrivati a questo punto quando dovremo procedere all’impostazione del test si aprirà un bivio.

Dovremo infatti capire se la varianza della popolazione è nota oppure non è nota.

VARIANZA POP NOTA

Con la varianza nota risolveremo il test utilizzando la classica distribuzione normale standardizzata.

L’errore standard (SE) e la statistica-test saranno rispettivamente:

VARIANZA POP IGNOTA

Mentre quando non è nota la varianza utilizziamo una distribuzione t-student con n-1 gradi di libertà.

Questa distribuzione infatti è più volatile rispetto alla normale z.

In questo caso l’errore standard (SE) e la statistica-test sono:

Riporto qui sotto uno schema grafico che rappresenta questa tipologia:

Se ti interessa affrontare questo caso ti consiglio andare al seguente link per capire come impostare il test sulla media del campione con la popolazione.

DUE CAMPIONI INDIPENDENTI

Il secondo caso generale è quello in ci troviamo di fronte a due campioni indipendenti.

In particolare vogliamo scoprire se la media di due gruppi di una stessa popolazione (o di due popolazioni) può essere considerata la stessa oppure no.

Quindi andiamo a selezionare all’interno della popolazione due campioni indipendentiche rappresentino al meglio i due gruppi.

Fatto ciò andiamo a rilevare su questi campioni le numerosità, le medie e le deviazioni standard.

Una volta che siamo sicuri di essere approdati in questo caso dobbiamo preoccuparci di comprendere se le varianze dei gruppi possono essere considerate uguali tra di loro oppure no.

Per fare questa verifica esiste un test chiamato test F di Fisher-Snedecor.

VARIANZE UGUALI – VAR POP NOTA

Nel caso in cui le varianze possono essere considerate uguali significa che anche la popolazione di riferimento per questi due gruppi ha quella varianza.

Allora bisognerà capire se questa varianza della popolazione è nota oppure ignota.

Se la varianza della popolazione è nota risolviamo il test utilizzando una distribuzione normale standardizzata.

L’errore standard (SE) e la statistica test sono rispettivamente:

VARIANZE UGUALI – VAR POP IGNOTA

Quando invece la varianza della popolazione non è nota allora utilizziamo una t-student con n1+n2–2 gradi di liberà (g.d.l.)

In questa seconda situazione dovremo anche calcolare la varianza media, che verrà poi utilizzata per calcolare l’errore standard.

In particolare la varianza media è data dalla radice quadrata della somma delle devianze fratto i gradi di libertà:

L’errore standard risulta essere:

Mentre la statistica-test

VARIANZE DIVERSE

Quando le varianze sono considerate diverse allora non avremo bisogno della varianza media.

L’errore standard risulterà pari a:

La statistica test è sempre:

In questo caso risulta difficile però il calcolo dei gradi di liberà.

Ci sono dei modi per calcolarlo che però non ho ben capito.

Un mio personale consiglio è in questo caso quello di utilizzare:

Di modo che la volatilità della distribuzione risulti più ampia.

Se qualcosa va storto date pure la colpa ad Andrea il Matematico.

In ogni caso vi garantisco che se anche usate 

Ignorando quindi il numero di g.d.l. rispetto al numero precedente il risultato non cambierà di molto.

Se avete capito poco di questa parte non preoccupatevi.

Guardate la figura sotto, rileggete il testo e poi passate ad analizzare un caso alla volta con il link sotto la figura.

Accedi al link per vedere come si imposta il test di ipotesi nel caso di due campioni indipendenti.

PER APPROFONDIRE

Se vuoi approfondire la statistica e i suoi misteri dai un’occhiata ai corsi e scopri quello che fa per te.

DUE CAMPIONI DIPENDENTI (APPAIATI)

Il terzo caso in cui possiamo capitare quando facciamo un confronto tra medie è quello dei campioni dipendenti.

Il caso tipico che viene analizzato è quello relativo ai campioni appaiati.

Questo caso di verifica in genere quando vogliamo misurare l’evoluzione di una certa situazione.

Immaginate ad esempio che uno stesso gruppo di studenti ripeta un test di matematica per due volte.

Vogliamo ad esempio capire se c’è stato un cambiamento nei due risultati (in meglio o in peggio).

Contrapporremo due ipotesi.

L’ipotesi nulla H0  che sostiene che tra i due risultati non risulta esserci un cambiamento e l’ipotesi alternativa H1 che sostiene l’evidenza di un cambiamento.

Nell’ipotesi nulla sosteniamo che la differenza delle medie è pari a zero, mentre in quella alternativa sosteniamo che la media è diversa da zero.

Diversamente dai seguenti approcci in questo caso la numerosità del campione n deve per forza rimanere inalterata.

In questo caso costruiamo una nuova variabile d pari alla differenza tra il valore finale e quello iniziale.

Di questa nuova variabile andiamo a calcolarci il valore medio e la varianza campionaria.

Ora dobbiamo tenere bene in mente il solito bivio di ragionamento in cui incorriamo, derivante dalla domanda:

La varianza della popolazione delle differenze è nota?

VARIANZA POP. NOTA

Se la varianza delle differenze è nota usiamo la solita normale standardizzata z.

L’errore standard (SE) e la statistica test saranno in questo caso:

VARIANZA POP. IGNOTA

Quando invece la varianza delle differenze non è nota usiamo la t-student con n-1 g.d.l. e avremo che:

Accedi al link per vedere un esempio con campioni dipendenti (appaiati)

K CAMPIONI INDIPENDENTI

Il quarto e ultimo caso relativo al confronto tra medie è quello in cui verifichiamo se le medie relative a k gruppi indipendenti di una popolazione possono essere considerate uguali.

In questo caso dobbiamo servirci di uno strumento più potente rispetto alla t-student.

In particolare usiamo il metodo ANOVA.

DUBBI O CURIOSITA’ ?

Per qualsiasi dubbio o curiosità scrivi nei commenti la tua richiesta.

Sarò felice di poterti rispondere e nel caso intraprendere il percorso più adatto alla tua situazione.

Grazie ai tuoi commenti puoi aiutare centinaia di altri utenti a risolvere i loro dubbi.

Visita anche i corsi di statistica per scoprire quello che fa per te.

One Comment

  • Angela ha detto:

    Buongiorno, ho difficoltà a capire il concetto di clustering nei tipi di campionamento… potrebbe per favore spiegarmelo e farmi un esempio? Grazie davvero!!!!
    angela

Leave a Reply