Skip to main content

Oggi vediamo la procedura per confrontare due medie campionarie.

Il test sul confronto tra due medie campionarie viene effettuato per verificare se le medie di due campioni indipendenti possono essere considerate uguali

ESEMPIO

Vogliamo testare se in due pizzerie diverse la quantità di mozzarella (misurata in grammi) è la stessa.

Nella prima pizzeria testiamo un campione di 15 pizze, mentre nella seconda un campione di 20 pizze.

I riportiamo i seguenti dati campionari:

PIZZERIA 1

PIZZERIA 2

Si verifichi l’ipotesi al livello del 10% che la quantità media sia uguale per entrambe le pizzerie sotto le seguenti ipotesi:

  1. È nota la deviazione standard della popolazione pari a 14
  2. Non è nota la varianza della popolazione ma consideriamo uguali le varianze dei campioni
  3. Consideriamo diverse le varianze dei campioni.

VARIANZA DELLA POPOLAZIONE NOTA

Partiamo dal caso in cui la varianza della popolazione è nota.

Cominciamo ad impostare il test di ipotesi.

L’ipotesi nulla H0 afferma che le medie dei campioni sono uguali e quindi la lorodifferenza è pari a zero.

Mentre l’ipotesi alternativa H1 afferma il contrario, ovvero che le medie sono diverse, e quindi la differenza è diversa da zero

Siccome la varianza della popolazione è nota useremo la normale standardizzata.

Come valore della deviazione standard usiamo 20.

Ora passiamo alle caratteristiche della distribuzione normale.

La media è pari alla differenza delle medie ipotizzate dall’ipotesi nulla ovvero zero:

L’errore standard (SE) è calcolato come:

Ovvero inserendo i numeri:

RAPPRESENTAZIONE GRAFICA E VALORE DI Z

Andiamo ora a visualizzare graficamente la situazione.

Rappresentiamo la campana gaussiana con media pari a zero e deviazione standard 4,782.

Sotto la gaussiana rappresentiamo due linee orizzontali.

Sulla prima è rappresentata la differenza tra le medie campionarie.

Mentre sulla seconda i valori standardizzati z.

Sappiamo ora che vogliamo testare questa differenza con un livello di confidenza alfa pari al 10% cioè 0,10.

Sapendo che il test è a due code dobbiamo “smezzare” questo livello di alfa in due parti eguali, metà sulla destra e metà sulla sinistra,

Pertanto ci interessa il valore di z in corrispondenza del quale l’area a destra compresa tra la campana e l’asse orizzontale è pari a 0,05.

Analogamente possiamo dire che l’area a sinistra è pari a:

Il valore di z che dobbiamo ricercare è il 95-esimo percentile di z, ovvero:

Per trovare questo valore possiamo andare sulle tavole della normale standardizzata con aree a sinistra.

Ricerchiamo il valore più vicino a 0,95 e troviamo il numero 1,96.

Con Excel la formula da usare è:

Per approfondire questo argomento leggi l’articolo dedicato alla ricerca dei valori.

Oppure accedi al corso dedicato alle probabilità.

Lo troverai nella sezione della normale standardizzata.

A questo punto dobbiamo tenere presente che l’altro valore di z è quello opposto, ovvero –1,64

CALCOLO DEGLI ESTREMI E ZONA DI ACCETTAZIONE

Adesso è nostro compito calcolare i valori degli estremi entro i quali risulta verificata l’ipotesi nulla.

Per calcolarci questi valori usiamo la formula:

Nel nostro caso:

Questo significa che se la differenza tra la media del campione e la media della popolazione è compresa tra questi due estremi accettiamo l’ipotesi nulla.

Altrimenti rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa H1.

ESITO DEL TEST

Calcoliamo ora la differenza tra le medie campionarie

Siccome 8 non  appartiene alla zona di accettazione di H0:

Rifiutiamo l’ipotesi nulla al livello di significatività del 5%.

Ovvero riconosciamo il fatto che le medie dei due campioni sono diverse.

STATISTICA-TEST E P-VALUE

Quando si chiude il test di ipotesi sarebbe sempre bene calcolare il p-value.

Il p-value indica la probabilità che l’ipotesi nulla sia errata rispetto al dato campionario.

Possiamo considerarlo come il massimo valore di alfa ammissibile affinché la nostra ipotesi nulla possa considerarsi falsa.

Geometricamente parlando intendiamo l’area estrema sottesa tra la funzione considerata e l’asse delle x in corrispondenza del dato campionario.

Ovviamente se il test è bilaterale dobbiamo raddoppiare questo valore.

Mentre se il test è monolaterale destro o sinistro lo calcoliamo a destra o a sinistra.

Per poter calcolare il p-value serve calcolare la statistica-test.

Questa non è altro che il nostro dato campionario (differenza) standardizzato.

Per calcolare la statistica-test usiamo la seguente formula:

Inseriamo i dati a nostra disposizione:

Il p-value è il doppio dell’area (verde) che si trova a destra di questo valore sotto la normale standardizzata (vedi figura sotto).

Come si capisce dal grafico il p-value (doppio area verde) deve essere inferiore ad alfa (area blu)

Per calcolarlo faremo:

Dove il valore dentro l’integrale è tutta l’area che si trova a sinistra della statistica-test.

Per trovare questo valore andiamo sulle tavole della z in corrispondenza del valore 1,67

Oppure usando Excel possiamo applicare la formula:

Come valore otteniamo 0,9528

Il nostro p-value sarà dunque:

Come predetto  più piccolo, anche se molto vicino, al valore di alfa del 10%.

Per qualsiasi domanda scrivila nei commenti.

Accedi ai corsi per approfondire i test di ipotesi.

VARIANZA DELLA POPOLAZIONE IGNOTA

Se la varianza è ignota allora la distribuzione di riferimento diventa la t-student.

A questo punto bisogna comprendere se consideriamo la varianza dei due gruppi può essere considerata la stessa oppure no.

Per fare questa operazione esiste un test apposito, chiamato il test F sulla varianza di Fisher-Snedecor.

L’esito del test dipende dal livello di significativa che prendiamo in considerazione che solitamente è il 5%.

In questo caso non ci interessa verificarlo e quindi passiamo ad analizzare come ci comportiamo nei due casi.

VARIANZA DEI CAMPIONI UGUALE

Se consideriamo uguale la varianza die due campioni abbiamo bisogno di un valore da attribuire a questa varianza, dal momento che non conosciamo la vera varianza della popolazione.

VARIANZA MEDIA, T-STUDENT ASSOCIATO AD ALFA

Utilizziamo perciò la varianza media tra i due campioni.

Per calcolarlo facciamo una media delle varianze campionarie ponderata per i gradi di libertà.

La radice quadrata di questa varianza ci da la deviazione standard la cui formula è:

Riportiamo i dati relativi ai campioni:

PIZZERIA 1

PIZZERIA 2

Inseriamoli nella formula della varianza media:

Ora troviamo l’errore standard associato al test di ipotesi

Analogamente a come abbiamo fatto nel caso della normale calcoliamo il percentile 0,95 della t-student con n1+n2-2 g.d.l.

Cerchiamo il valore di t nella tavola leggendo sulla riga relativa ai 33 g.d.l. e se l’area è a destra sulla colonna relativa a 0,05.

Se non troviamo il 33 andiamo sul più vicino ad esempio 30 oppure facciamo un’interpolazione tra il valore che leggiamo sul 30 e quello che leggiamo sul 40.

Se guardiamo questa tavola il t-student che stiamo cercando risulta compreso tra i valori:

Essendo più vicini  i g.d.l. al 30 potremmo decidere di approssimarlo con il valore più basso.

Oppure se vogliamo aumentare leggermente la volatilità possiamo lasciare il più alto.

Potremmo fare una media semplice.

La strategia forse più corretta è l’interpolazione, facendo pesare al 70% il più basso e al 30% il più alto.

Se volessimo calcolarlo con Excel usiamo la funzione:

Che ci restituisce il valore preciso pari a 1,692.

Usiamo pure 1,69 per svolgere i conti a mano e se i risultati che vi scrivono non vi tornano con un’approssimazione pari a 0,01 non vi preoccupate perché ho svolto i calcoli con Excel.

Grazie al valore di t-student siamo in grado di calcolare gli estremi entro i quali l’ipotesi nella è accettata.

IPOTESI, ESTREMI, RISULTATO E P-VALUE.

Le ipotesi del nostro test di ipotesi sono dunque:

Gli estremi entro cui accettiamo l’ipotesi nulla sono:

Nel nostro caso:

Ora  se il valore della media campionaria è interno all’intervallo delimitato dagli estremi accetteremo l’ipotesi nulla.

In caso contrario la rifiuteremo.

La differenza tra i valori medi risulta:

Siccome 8 risulta al di fuori dell’intervallo rifiutiamo H0.

STATISTICA-TEST E P-VALUE

La statistica test associata al test di ipotesi risulta pari a:

Il valore del p-value risulta inferiore certamente al valore di alfa.

Se vogliamo cercarlo sulle tavole della t-student andiamo nelle righe con 30 e 40 g.d.l. e cerchiamo il valore che più si avvicina a 1,75.

Come potete osservare dalla tavola il valore risulta compreso tra 1,679 (il più piccolo) e 2,021.

Quindi la metà del p-value (area a destra) è compreso tra 0,05 e 0,10.

Per avere un’idea più precisa possiamo fare il seguente ragionamento.

Prima interpoliamo il valori della t minima (in corrispondenza dell’area 0,10) e quelli della t massima (in corrispondenza dell’area 0,05) con il modo visto prima.

Ora cerchiamo di capire quanta quota percentuale c’è nella statistica test di questi due valori impostando la seguente equazione:

Risolvendo abbiamo:

Quindi attribuiamo questa percentuale al 5% e all’altra al 2,5%.

Raddoppiando questo valore otteniamo circa 0,0915 che potrebbe essere l’approssimazionelineare del p-value.

Per andare sul sicuro possiamo comunque usare Excel impostando la funzione:

Il valore preciso del p-value è 0,0896.

Quindi non ci siamo sbagliati di molto.

VARIANZA DEI CAMPIONI DIVERSA

Il terzo e ultimo caso che andiamo a trattare in questo articolo è quello in cui la varianza della popolazione non è nota e consideriamo diverse le varianze dei campioni.

La procedura seguita nell’ultimo caso è pressoché identica.

L’unica cosa che cambia è la determinazione dell’errore standard (SE) e il numero di gradi di libertà del test da cui ovviamente potrebbero dipendere le conclusioni.

Riportiamo ancora i dati per comodità:

PIZZERIA 1

PIZZERIA 2

Partiamo dall’errore standard (SE) che si calcola come:

Attenzione anche se sembra identico a quello precedente in realtà non lo è.

Ho scelto per pigrizia di arrotondare tutti i dati alla seconda cifra decimale.

Ora viene la spinosa questione dei gradi di libertà.

Devo essere molto sincero con voi.

Ho ricercato in molti articoli e materiale universitario prima di scrivere questo articolo e tra quelli che sembravano più credibili non ho ben capito l’origine del calcolo.

Quindi decido in piena autonomia di utilizzare come punto di riferimento :

Nel nostro caso sono 32 g.d.l.

Quando i gradi di libertà diminuiscono aumenta anche la volatilità e siccome in questo caso consideriamo diverse le varianze dei campioni questo potrebbe causare proprio questo effetto.

Vi dico subito che comunque i risultati non cambiano di molto.

Ancora per comodità riporto i risultati calcolarti con Excel:

Gli estremi escono:

Poiché il valore della differenza tra le medie campionarie:

 risulta interna all’intervallo accettiamo l’ipotesi nulla.

La statistica test risulta essere:

Il valore del p-value:

Ovviamente quest’ultimo maggiore del valore di alfa avendo accettato l’ipotesi nulla. 

DUBBI O DOMANDE?

Per qualsiasi dubbio scrivilo pure nei commenti.

In questo modo potrai aiutare molti utenti con le tue stesse difficoltà.

Per approfondire tutti gli argomenti accedi ai video-corsi di statistica.

Il rapporto qualità-prezzo è assolutamente il più conveniente sul mercato.

Acquista e sostieni questo progetto.

2 Comments

  • Elena ha detto:

    Ciao Andrea.
    Ho un quesito che riguarda i campioni appaiati.
    Abbiamo due serie:
    5,7,4,8 e 6,7,5,9
    Indicano rispettivamente i voti di 4 studenti nel primo e nel secondo quadrimetre.
    Il quesito chiede se al livello del 5% si può ritenere che ci sia un miglioramento.
    Cosa devo fare?

    • Andrea ha detto:

      Ciao Elena.

      Tu stai facendo un test di ipotesi in cui contrapponi l’ipotesi nulla H0 che sostiene che non vi sia evidenza di miglioramento.
      In tale situazione la media delle differenze sarebbe pari a zero.
      H0: media diff = 0

      Contro l’ipotesi alternativa H1 che sostiene l’evidenza di una miglioramento.
      In tale situazione la media delle differenza (tra il valore finale e quello iniziale) sarebbe maggiore di zero (positiva).

      H1: media diff>0

      Per risolvere il test che viene fatto con un livello di confidenza del 5% andrai a confrontare due valori del t-student.

      Il valore associato al test che ha 3 gradi di liberta (gdl) in quanto si tratta di un test con dati dipendenti, quindi devi usare n-1 gdl e con area a destra pari a 0,05.
      Questo significa che l’area a sinistra è 0,95.

      Il secondo valore è la statistica test (t-test in questo caso), calcolato come il rapporto tra le media delle differenze e lo Standard Error associato alle differenze.

      PROCEDIMENTO:

      In primo luogo calcoli la serie delle differenze:
      6-5=1, 7-7=0, 5-4=1, 9-8=1

      A questo punto puoi calcolare la media delle differenze:

      (1+0+1+1)/4=0,75

      La varianza corretta dElle differenze risulta perciò:
      (1^2+0^2+1^2+1^2)/3–0,75^2*4/3=0,25

      Lo Standard Error delle differenze è pari a:
      SE=radq(0,25/4)=0,25

      La statistica test associata al dato campionario delle differenze è:

      T-test=(media diff)/(SE diff)=0,75/0,25=3

      Dobbiamo confrontare questo valore della statistica test con il t-student associato al test ovvero quello al livello 0,975 con 3 gradi di libertà:

      t_(0,95; 3)=2,353

      Essendo che il valore campionari è inferiore

Leave a Reply