Skip to main content

Questo test viene fatto per confrontare se la media di un certo campione può essere considerata uguale alla media di una certa popolazione.

Ci stiamo chiedendo quindi se gli elementi di un campione che sono rappresentativi di un certo gruppo possono essere ricondotti ad una certa popolazione di cui si conosce la media.

ESEMPIO

È noto che la popolazione dei giapponesi consuma mediamente 2720 calorie giornaliere.

Viene selezionato un campione di 10 individui giapponesi rilevando le seguenti calorie giornaliere.

Vogliamo scoprire se è possibile affermare ad un livello di confidenza del 5% se è possibile affermare che la media del campione preso in considerazione è uguale alla media della popolazione.

Fate il test nel caso in cui la deviazione standard della popolazione è nota ed è pari a 460 calore e nel caso in cui non lo sia.

IMPOSTAZIONE DEL TEST

La prima cosa che facciamo è impostare il test di ipotesi che in questo caso è bilaterale.

L’ipotesi nulla consiste nell’affermare che la media del campione è uguale alla media della popolazione.

L’ipotesi alternativa è che la media del gruppo sia diversa dalla media della popolazione

Questo test può essere impostato in termini di differenza di medie.

L’ipotesi nulla infatti può essere riscritta anche nel seguente modo:

La stessa cosa vale anche per l’ipotesi alternativa:

Inserendo i dati a nostra disposizione abbiamo che:

DATI CAMPIONARI

Prima di impostare il test di ipotesi andiamo a riportare quali sono i dati campionari a nostra disposizione.

Dalla tabella dei dati:

Possiamo evincere che la numerosità campionaria n:

La media del campione è pari a:

La deviazione standard del campione è:

Per una questione di pura comodità di calcolo ho approssimato la media all’unità.

Sarebbe stato più corretto scrivere 2795,30

Siccome questo non cambierà l’esito del test teniamolo così.

MEDIA E DEVIAZIONE STANDARD CON EXCEL

Se utilizziamo Excel per fare i conti la cosa diventa molto semplice.

Per la media usiamo:

VARIANZA DELLA POPOLAZIONE NOTA

Nel caso in cui la varianza della popolazione è nota usiamo una distribuzione normalestandardizzata.

In questo caso la media è pari a 0.

Mentre l’errore standard (SE) è pari a:

Il numeratore rappresenta la deviazione standard della popolazione.

In questo caso sappiamo che è nota quindi:

Pertanto:

La normale di riferimento sarà dunque:

Graficamente possiamo vedere quanto segue:

Come potete notare sotto la campana gaussiana ho rappresentato due linee orizzontale.

Sulla prima è rappresentata la differenza tra le medie campionarie e la media della popolazione.

Mentre sulla seconda i valori standardizzati z.

Sappiamo ora che vogliamo testare questa differenza con un livello di confidenza alfa pari al 5% cioè 0,05.

Sapendo che il test è a due code dobbiamo “smezzare” questo livello di alfa in due parti eguali, metà sulla destra e metà sulla sinistra,

Pertanto ci interessa il valore di z in corrispondenza del quale l’area a destra compresa tra la campana e l’asse orizzontale è pari a 0,025.

Analogamente possiamo dire che l’area a sinistra è pari a:

Il valore di z che dobbiamo ricercare è il 97,5 percentile di z, ovvero:

Per trovare questo valore possiamo andare sulle tavole della normale standardizzata con aree a sinistra.

Ricerchiamo il valore più vicino a 0,975 e troviamo il numero 1,96.

Con Excel la formula da usare è:

Per approfondire questo argomento leggi l’articolo dedicato alla ricerca dei valori.

Oppure accedi al corso dedicato alle probabilità.

Lo troverai nella sezione della normale standardizzata.

A questo punto dobbiamo tenere presente che l’altro valore di z è quello opposto, ovvero –1,96.

ZONA DI ACCETTAZIONE

Adesso dobbiamo andare a trovare i valori che delimitano la zona di accettazione o di rifiuto del test, ovvero quelli che sul grafico sono chiamati x1 e x2

Per calcolarci questi valori usiamo la formula:

Nel nostro caso:

Questo significa che se la differenza tra la media del campione e la media della popolazione è compresa tra questi due estremi accettiamo l’ipotesi nulla.

Altrimenti rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa H1.

Andiamo ora a calcolare la differenza tra la media campionaria e quella della popolazione:

(se avessimo avuto come media 2795,30 avremmo ottenuto 75,30, ma cambia poco)

Siccome 75 appartiene alla zona di accettazione di H0:

Accettiamo l’ipotesi nulla al livello di significatività del 5%.

Ovvero riconosciamo il fatto che la media del campione è uguale alla media della popolazione, con tutto ciò che ne comporta.

STATISTICA TEST

La statistica test è il valore standardizzato del dato campionario.

Nel nostro caso è la standardizzazione del valore della differenza tra la media del campione è quella della popolazione.

Vi faccio notare che siccome il dato della differenza delle medie è compreso nella zona di accettazione anche la statistica test sarà compresa tra i valori -1,96 e +1,96.

Inserendo i valori numerici otteniamo:

Che in effetti è compreso tra -1,96 e +1,96.

Il test poteva essere deciso anche sulla base della statistica test

Siccome a statistica-test è compresa tra -1,96 e +1,96 accettiamo l’ipotesi nulla.

In questo caso avremmo deciso sui dati standardizzati anziché sui dati reali.

P-VALUE

Quando si chiude il test di ipotesi sarebbe sempre bene calcolare il p-value.

Il p-value indica la probabilità che l’ipotesi nulla sia errata.

Possiamo considerarlo come il massimo valore di alfa ammissibile affinché la nostra ipotesi nulla possa considerarsi falsa.

Geometricamente parlando intendiamo l’area sottesa tra la funzione considerata e l’asse delle x in corrispondenza del dato campionario.

Ovviamente se il test è bilaterale dobbiamo raddoppiare questo valore.

Mentre se il test è monolaterale destro o sinistro lo calcoliamo a destra o a sinistra.

Tornando alla nostra situazione una volta calcolata la statistica-test andiamo a calcolare l’area a destra in corrispondenza di tale valore.

Come si capisce dal grafico il p-value è il doppio dell’area verde e risulta essere maggiore di alfa ovvero di 0,05.
 
Per calcolarla dobbiamo sottrarre da 1 l’area che si trova a sinistra della statistica test.
 
Per calcolare l’area verde possiamo fare:
 

Per calcolare:

Usiamo le tavole oppure Excel ottenendo:

Ora il p-value è pari a:

È indubbio che il valore in questione è veramente molto alto.

Ciò porta quasi senza ombra di dubbio ad accettare l’ipotesi nulla.

VARIANZA DELLA POPOLAZIONE IGNOTA

Passiamo ora al caso in cui la varianza della popolazione è ignota.

La procedura in pratica è la stessa.

Le uniche due cose che cambiano sono il valore della deviazione standard e la distribuzione di riferimento.

Non conoscendo la varianza della popolazione useremo la varianza campionaria.

Mentre la distribuzione di riferimento è la t-student al posto della normale.

DATI CAMPIONARI

Partiamo dai dati campionari:

La numerosità, media e deviazione st. del campione sono sempre:

Siccome non conosciamo la varianza (e quindi la deviazione standard) della popolazione usiamo quella del campione:

Quando impostiamo il test la media delle differenze è sempre pari a zero.

Mentre l’errore standard (SE) è pari a:

Ovvero:

La t-student di riferimento sarà dunque:

I gradi di liberta g.d.l sono:

Graficamente possiamo vedere quanto segue:

INTERPRETAZIONE GRAFICA

Sotto la campana della t-student ci sono sempre  due linee orizzontale.

Sulla prima è rappresentata la differenza tra le medie campionarie e la media della popolazione.

Mentre sulla seconda i valori standardizzati t-student con 9 g.d.l..

Sappiamo ora che vogliamo testare questa differenza con un livello di confidenza alfa pari al 5% cioè 0,05.

Sapendo che il test è a due code dobbiamo “smezzare” questo livello di alfa in due parti eguali, metà sulla destra e metà sulla sinistra,

Pertanto ci interessa il valore di z in corrispondenza del quale l’area a destra compresa tra la campana e l’asse orizzontale è pari a 0,025.

Analogamente possiamo dire che l’area a sinistra è pari a:

Il valore di z che dobbiamo ricercare è il 97,5 percentile di z, ovvero:

Per trovare questo valore possiamo andare sulle tavole della t-student con aree a sinistra.

Andiamo sulla riga con 9 g.d.l. e sulla colonna 0,975 ottenendo come valore 2,262.

Ovviamente se le tavole presentano valori delle aree a destra cerchiamo 0,025, come nella figura sotto

Con Excel la formula da usare è:

Per approfondire questo argomento leggi l’articolo dedicato alla ricerca dei valori.

Oppure accedi al corso dedicato ai test di ipotesi e inferenza.

ZONA DI ACCETTAZIONE

Calcoliamo gli estremi x1 e x2

Per calcolarci questi valori usiamo la formula:

Nel nostro caso:

Questo significa che se la differenza tra la media del campione e la media della popolazione è compresa tra questi due estremi accettiamo l’ipotesi nulla.

Altrimenti rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa H1.

ESITO DEL TEST

(se avessimo avuto come media 2795,30 avremmo ottenuto 75,30, ma cambia poco)

Siccome 75 appartiene alla zona di accettazione di H0:

Accettiamo l’ipotesi nulla al livello di significatività del 5%.

Ovvero riconosciamo il fatto che la media del campione è uguale alla media della popolazione, con tutto ciò che ne comporta.

STATISTICA TEST

La statistica test è il valore standardizzato del dato campionario.

Come prima andiamo a calcolarla ricordando che ci troviamo sull’asse t, e che dobbiamo usare la varianza campionaria

Vi faccio notare che siccome il dato della differenza delle medie è compreso nella zona di accettazione anche la statistica test sarà compresa tra i valori -2,262 e +2,262.

Inserendo i valori numerici otteniamo:

Che in effetti è compreso tra -2,262 e +2,262.

Il test poteva essere deciso anche sulla base della statistica test

Siccome a statistica-test è compresa tra -2,262 e +2,262 accettiamo l’ipotesi nulla.

In questo caso avremmo deciso sui dati standardizzati anziché sui dati reali.

P-VALUE

Se dobbiamo cercare sulle tavole della t-student con area a destra il p-value dobbiamo cercare sulla riga di 9 g.d.l. il valore più vicino al valore 0,4647 che indica il p/2.

In questo caso il valore più piccolo su questa riga è 1,383, in corrispondenza dell’area 0,10.

Siccome 0,4647 è molto più piccolo l’area del p/2 è molto maggiore del 10%.

E quindi il p-value è molto maggiore del 20%.

Per stimare un possibile p-value possiamo fare il ragionamento dell’esercizio precedente che ci portava ad un valore pari a più del 60% e poi lo aumenteremo di qualcosa.

Quindi il probabile p-value potrebbe essere tra il 60 e il 70%.

Per un calcolo più preciso possiamo andare su Excel e scrivere la funzione:

Ottenendo come risultato:

La probabilità che l’ipotesi nulla sia falsa è del 46,47%

HAI QUALCHE DOMANDA?

Se hai qualche domanda scrivila sotto nei commenti.

Altri utenti potrebbero avere domande simili alle tue e in questo modo potrai aiutarli a risolvere i loro dubbi.

Se vuoi approfondire l’argomento, dai un’occhiata ai corsi di statistica.

2 Comments

  • Salvatore Panucci ha detto:

    Ciao Andrea, sto facendo questo esercizio:
    mi trovo di fronte a 500 individui che costituiscono un campione di studenti, di cui 268 maschi e 232 femmine, di cui conosco gli esiti dell’esame di statistica.
    l’esercizio è svolto con excel quindi sono in grado di determinare sia la media che la varianza campionaria in maniera veloce.
    l’esercizio mi dice poi che è nota la media dei voti delle femmine che è pari a 68,5 (i dati sono espressi in centesimi) e mi chiede se possiamo ritenere che la media dei voti dei maschi sia superiore alla media dei voti delle femmine (nota).
    ho calcolato inoltre che la media dei voti dei maschi è pari a 71,28, possiamo ritenere vera l’ipotesi alternativa? non riesco a capire cosa devo fare, grazie infinite!!

    • Andrea ha detto:

      Ciao Salvatore, grazie per l’interessante domanda.
      In questo caso si tratta di un test di ipotesi per vedere se la media di un campione coincide con la media di una popolazione.
      In particolare tu sei di fronte ad un campione misto (maschi più femmine) che riportano i voti di matematica.
      Ora vuoi testare se la popolazione dei maschi (in termini di voto) medio può essere ritenuta identica o superiore a quella femminile.
      A livello di popolazione conosci però solamente i dati che riguardano le femmine e sai che il valore medio dei voti è pari a 68,5.
      TEST DI IPOTESI
      Il test di ipotesi è impostato dunque in questo modo.
      Da un lato trovi l’ipotesi nulla (H0) secondo la quale i voti dei maschi possano essere ritenuti uguali (non superiori nello specifico a quello delle donne).
      H0: media M = media F
      Siccome conosci per certo la media femminile, hai che:
      H0: media M = 68,5
      In contrapposizione a questa ipotesi nullo hai un’ipotesi alternativa (H1) che ritiene la superioriorità della media dei maschi (rispetto a quella femminile)
      H1: media M > 68,5

      DATI DEL CAMPIONE
      Quello che devi fare è considerare solo il campione di maschi e da questo cercare le informazioni che ti servono a capire se è corretta l’affermazione che i maschi sono migliori.
      I dati che ti interessano del campione:
      n=268
      mediaM (camp)=71,28
      VARM(camp)=???
      L’ultimo dato sarebbe la varianza campionaria corretta dei dati relativi ai voti di matematica dei maschi.
      Da quello che hai scritto non riesco a capire quale sia, ma tu certamente sei in grado di risalire a questo dato.
      Suppongo ad esempio che questa vale 10, poi tu farai i calcoli con il tuo valore.
      VARM(camp)=10
      Dalla varianza campionaria e dalla numerosità ricaviamo l’errore standard (standard error) delle medie:
      SE(medie)=radq(VARM/n)=radq(10/268)=0,1931

      A questo punto potremmo ricavare la statistica associata al test, ovvero il t-test.
      t-test=(media camp – media F)/SE= (71,28-68,5)/0,1931=14,39
      Sai tratta certamente di un valore grandissimo del t
      (ricordiamo che quasi tutti i valori di t sono compresi tra -4 e +4).
      Quindi il po-value è in pratica pari a zero.
      Da qui la decisione di accettare senza ombra di dubbio l’ipotesi H1

Leave a Reply