
Questo test viene fatto per confrontare se la media di un certo campione può essere considerata uguale alla media di una certa popolazione.
Ci stiamo chiedendo quindi se gli elementi di un campione che sono rappresentativi di un certo gruppo possono essere ricondotti ad una certa popolazione di cui si conosce la media.
ESEMPIO
È noto che la popolazione dei giapponesi consuma mediamente 2720 calorie giornaliere.
Viene selezionato un campione di 10 individui giapponesi rilevando le seguenti calorie giornaliere.

Vogliamo scoprire se è possibile affermare ad un livello di confidenza del 5% se è possibile affermare che la media del campione preso in considerazione è uguale alla media della popolazione.
Fate il test nel caso in cui la deviazione standard della popolazione è nota ed è pari a 460 calore e nel caso in cui non lo sia.
IMPOSTAZIONE DEL TEST
La prima cosa che facciamo è impostare il test di ipotesi che in questo caso è bilaterale.
L’ipotesi nulla consiste nell’affermare che la media del campione è uguale alla media della popolazione.

L’ipotesi alternativa è che la media del gruppo sia diversa dalla media della popolazione

Questo test può essere impostato in termini di differenza di medie.
L’ipotesi nulla infatti può essere riscritta anche nel seguente modo:

La stessa cosa vale anche per l’ipotesi alternativa:

Inserendo i dati a nostra disposizione abbiamo che:


DATI CAMPIONARI
Prima di impostare il test di ipotesi andiamo a riportare quali sono i dati campionari a nostra disposizione.
Dalla tabella dei dati:

Possiamo evincere che la numerosità campionaria n:

La media del campione è pari a:

La deviazione standard del campione è:

Per una questione di pura comodità di calcolo ho approssimato la media all’unità.
Sarebbe stato più corretto scrivere 2795,30
Siccome questo non cambierà l’esito del test teniamolo così.
MEDIA E DEVIAZIONE STANDARD CON EXCEL
Se utilizziamo Excel per fare i conti la cosa diventa molto semplice.
Per la media usiamo:


VARIANZA DELLA POPOLAZIONE NOTA
Nel caso in cui la varianza della popolazione è nota usiamo una distribuzione normalestandardizzata.
In questo caso la media è pari a 0.
Mentre l’errore standard (SE) è pari a:

Il numeratore rappresenta la deviazione standard della popolazione.
In questo caso sappiamo che è nota quindi:

Pertanto:

La normale di riferimento sarà dunque:

Graficamente possiamo vedere quanto segue:

Come potete notare sotto la campana gaussiana ho rappresentato due linee orizzontale.
Sulla prima è rappresentata la differenza tra le medie campionarie e la media della popolazione.
Mentre sulla seconda i valori standardizzati z.
Sappiamo ora che vogliamo testare questa differenza con un livello di confidenza alfa pari al 5% cioè 0,05.
Sapendo che il test è a due code dobbiamo “smezzare” questo livello di alfa in due parti eguali, metà sulla destra e metà sulla sinistra,
Pertanto ci interessa il valore di z in corrispondenza del quale l’area a destra compresa tra la campana e l’asse orizzontale è pari a 0,025.
Analogamente possiamo dire che l’area a sinistra è pari a:


Il valore di z che dobbiamo ricercare è il 97,5 percentile di z, ovvero:

Per trovare questo valore possiamo andare sulle tavole della normale standardizzata con aree a sinistra.
Ricerchiamo il valore più vicino a 0,975 e troviamo il numero 1,96.

Con Excel la formula da usare è:


Per approfondire questo argomento leggi l’articolo dedicato alla ricerca dei valori.
Oppure accedi al corso dedicato alle probabilità.
Lo troverai nella sezione della normale standardizzata.
A questo punto dobbiamo tenere presente che l’altro valore di z è quello opposto, ovvero –1,96.

ZONA DI ACCETTAZIONE
Adesso dobbiamo andare a trovare i valori che delimitano la zona di accettazione o di rifiuto del test, ovvero quelli che sul grafico sono chiamati x1 e x2
Per calcolarci questi valori usiamo la formula:

Nel nostro caso:

Questo significa che se la differenza tra la media del campione e la media della popolazione è compresa tra questi due estremi accettiamo l’ipotesi nulla.

Altrimenti rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa H1.

Andiamo ora a calcolare la differenza tra la media campionaria e quella della popolazione:

(se avessimo avuto come media 2795,30 avremmo ottenuto 75,30, ma cambia poco)
Siccome 75 appartiene alla zona di accettazione di H0:

Accettiamo l’ipotesi nulla al livello di significatività del 5%.
Ovvero riconosciamo il fatto che la media del campione è uguale alla media della popolazione, con tutto ciò che ne comporta.

STATISTICA TEST
La statistica test è il valore standardizzato del dato campionario.
Nel nostro caso è la standardizzazione del valore della differenza tra la media del campione è quella della popolazione.

Vi faccio notare che siccome il dato della differenza delle medie è compreso nella zona di accettazione anche la statistica test sarà compresa tra i valori -1,96 e +1,96.
Inserendo i valori numerici otteniamo:

Che in effetti è compreso tra -1,96 e +1,96.
Il test poteva essere deciso anche sulla base della statistica test
Siccome a statistica-test è compresa tra -1,96 e +1,96 accettiamo l’ipotesi nulla.
In questo caso avremmo deciso sui dati standardizzati anziché sui dati reali.

P-VALUE
Quando si chiude il test di ipotesi sarebbe sempre bene calcolare il p-value.
Il p-value indica la probabilità che l’ipotesi nulla sia errata.
Possiamo considerarlo come il massimo valore di alfa ammissibile affinché la nostra ipotesi nulla possa considerarsi falsa.
Geometricamente parlando intendiamo l’area sottesa tra la funzione considerata e l’asse delle x in corrispondenza del dato campionario.
Ovviamente se il test è bilaterale dobbiamo raddoppiare questo valore.
Mentre se il test è monolaterale destro o sinistro lo calcoliamo a destra o a sinistra.
Tornando alla nostra situazione una volta calcolata la statistica-test andiamo a calcolare l’area a destra in corrispondenza di tale valore.

Per calcolarla dobbiamo sottrarre da 1 l’area che si trova a sinistra della statistica test.
Per calcolare l’area verde possiamo fare:
Per calcolare:

Usiamo le tavole oppure Excel ottenendo:

Ora il p-value è pari a:

È indubbio che il valore in questione è veramente molto alto.
Ciò porta quasi senza ombra di dubbio ad accettare l’ipotesi nulla.
VARIANZA DELLA POPOLAZIONE IGNOTA
Passiamo ora al caso in cui la varianza della popolazione è ignota.
La procedura in pratica è la stessa.
Le uniche due cose che cambiano sono il valore della deviazione standard e la distribuzione di riferimento.
Non conoscendo la varianza della popolazione useremo la varianza campionaria.
Mentre la distribuzione di riferimento è la t-student al posto della normale.
DATI CAMPIONARI
Partiamo dai dati campionari:

La numerosità, media e deviazione st. del campione sono sempre:



Siccome non conosciamo la varianza (e quindi la deviazione standard) della popolazione usiamo quella del campione:

Quando impostiamo il test la media delle differenze è sempre pari a zero.
Mentre l’errore standard (SE) è pari a:

Ovvero:

La t-student di riferimento sarà dunque:

I gradi di liberta g.d.l sono:

Graficamente possiamo vedere quanto segue:

INTERPRETAZIONE GRAFICA
Sotto la campana della t-student ci sono sempre due linee orizzontale.
Sulla prima è rappresentata la differenza tra le medie campionarie e la media della popolazione.
Mentre sulla seconda i valori standardizzati t-student con 9 g.d.l..
Sappiamo ora che vogliamo testare questa differenza con un livello di confidenza alfa pari al 5% cioè 0,05.
Sapendo che il test è a due code dobbiamo “smezzare” questo livello di alfa in due parti eguali, metà sulla destra e metà sulla sinistra,
Pertanto ci interessa il valore di z in corrispondenza del quale l’area a destra compresa tra la campana e l’asse orizzontale è pari a 0,025.
Analogamente possiamo dire che l’area a sinistra è pari a:


Il valore di z che dobbiamo ricercare è il 97,5 percentile di z, ovvero:

Per trovare questo valore possiamo andare sulle tavole della t-student con aree a sinistra.
Andiamo sulla riga con 9 g.d.l. e sulla colonna 0,975 ottenendo come valore 2,262.
Ovviamente se le tavole presentano valori delle aree a destra cerchiamo 0,025, come nella figura sotto


Con Excel la formula da usare è:


Per approfondire questo argomento leggi l’articolo dedicato alla ricerca dei valori.
Oppure accedi al corso dedicato ai test di ipotesi e inferenza.

ZONA DI ACCETTAZIONE
Calcoliamo gli estremi x1 e x2
Per calcolarci questi valori usiamo la formula:

Nel nostro caso:

Questo significa che se la differenza tra la media del campione e la media della popolazione è compresa tra questi due estremi accettiamo l’ipotesi nulla.

Altrimenti rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa H1.

ESITO DEL TEST

(se avessimo avuto come media 2795,30 avremmo ottenuto 75,30, ma cambia poco)
Siccome 75 appartiene alla zona di accettazione di H0:

Accettiamo l’ipotesi nulla al livello di significatività del 5%.
Ovvero riconosciamo il fatto che la media del campione è uguale alla media della popolazione, con tutto ciò che ne comporta.

STATISTICA TEST
La statistica test è il valore standardizzato del dato campionario.
Come prima andiamo a calcolarla ricordando che ci troviamo sull’asse t, e che dobbiamo usare la varianza campionaria

Vi faccio notare che siccome il dato della differenza delle medie è compreso nella zona di accettazione anche la statistica test sarà compresa tra i valori -2,262 e +2,262.
Inserendo i valori numerici otteniamo:

Che in effetti è compreso tra -2,262 e +2,262.
Il test poteva essere deciso anche sulla base della statistica test
Siccome a statistica-test è compresa tra -2,262 e +2,262 accettiamo l’ipotesi nulla.
In questo caso avremmo deciso sui dati standardizzati anziché sui dati reali.

P-VALUE
Se dobbiamo cercare sulle tavole della t-student con area a destra il p-value dobbiamo cercare sulla riga di 9 g.d.l. il valore più vicino al valore 0,4647 che indica il p/2.

In questo caso il valore più piccolo su questa riga è 1,383, in corrispondenza dell’area 0,10.
Siccome 0,4647 è molto più piccolo l’area del p/2 è molto maggiore del 10%.
E quindi il p-value è molto maggiore del 20%.
Per stimare un possibile p-value possiamo fare il ragionamento dell’esercizio precedente che ci portava ad un valore pari a più del 60% e poi lo aumenteremo di qualcosa.
Quindi il probabile p-value potrebbe essere tra il 60 e il 70%.

Per un calcolo più preciso possiamo andare su Excel e scrivere la funzione:

Ottenendo come risultato:

La probabilità che l’ipotesi nulla sia falsa è del 46,47%
HAI QUALCHE DOMANDA?
Se hai qualche domanda scrivila sotto nei commenti.
Altri utenti potrebbero avere domande simili alle tue e in questo modo potrai aiutarli a risolvere i loro dubbi.
Se vuoi approfondire l’argomento, dai un’occhiata ai corsi di statistica.
Ciao Andrea, sto facendo questo esercizio:
mi trovo di fronte a 500 individui che costituiscono un campione di studenti, di cui 268 maschi e 232 femmine, di cui conosco gli esiti dell’esame di statistica.
l’esercizio è svolto con excel quindi sono in grado di determinare sia la media che la varianza campionaria in maniera veloce.
l’esercizio mi dice poi che è nota la media dei voti delle femmine che è pari a 68,5 (i dati sono espressi in centesimi) e mi chiede se possiamo ritenere che la media dei voti dei maschi sia superiore alla media dei voti delle femmine (nota).
ho calcolato inoltre che la media dei voti dei maschi è pari a 71,28, possiamo ritenere vera l’ipotesi alternativa? non riesco a capire cosa devo fare, grazie infinite!!
Ciao Salvatore, grazie per l’interessante domanda.
In questo caso si tratta di un test di ipotesi per vedere se la media di un campione coincide con la media di una popolazione.
In particolare tu sei di fronte ad un campione misto (maschi più femmine) che riportano i voti di matematica.
Ora vuoi testare se la popolazione dei maschi (in termini di voto) medio può essere ritenuta identica o superiore a quella femminile.
A livello di popolazione conosci però solamente i dati che riguardano le femmine e sai che il valore medio dei voti è pari a 68,5.
TEST DI IPOTESI
Il test di ipotesi è impostato dunque in questo modo.
Da un lato trovi l’ipotesi nulla (H0) secondo la quale i voti dei maschi possano essere ritenuti uguali (non superiori nello specifico a quello delle donne).
H0: media M = media F
Siccome conosci per certo la media femminile, hai che:
H0: media M = 68,5
In contrapposizione a questa ipotesi nullo hai un’ipotesi alternativa (H1) che ritiene la superioriorità della media dei maschi (rispetto a quella femminile)
H1: media M > 68,5
DATI DEL CAMPIONE
Quello che devi fare è considerare solo il campione di maschi e da questo cercare le informazioni che ti servono a capire se è corretta l’affermazione che i maschi sono migliori.
I dati che ti interessano del campione:
n=268
mediaM (camp)=71,28
VARM(camp)=???
L’ultimo dato sarebbe la varianza campionaria corretta dei dati relativi ai voti di matematica dei maschi.
Da quello che hai scritto non riesco a capire quale sia, ma tu certamente sei in grado di risalire a questo dato.
Suppongo ad esempio che questa vale 10, poi tu farai i calcoli con il tuo valore.
VARM(camp)=10
Dalla varianza campionaria e dalla numerosità ricaviamo l’errore standard (standard error) delle medie:
SE(medie)=radq(VARM/n)=radq(10/268)=0,1931
A questo punto potremmo ricavare la statistica associata al test, ovvero il t-test.
t-test=(media camp – media F)/SE= (71,28-68,5)/0,1931=14,39
Sai tratta certamente di un valore grandissimo del t
(ricordiamo che quasi tutti i valori di t sono compresi tra -4 e +4).
Quindi il po-value è in pratica pari a zero.
Da qui la decisione di accettare senza ombra di dubbio l’ipotesi H1
Buonasera,
Ho provato a svolgere questi due esercizi, ma ad esempio il secondo mi riporta 0,0694 e non 0,694. Il primo non saprei come svolgerlo.
a) si sa che la percentuale dei promossi all’esame di stato e del 98%. Dei 64 candidati di una scuola sono stati respinti 2.
Calcolare il valore della variabile statistica normalizzata z sulla quale é possibile verificare l’ipotesi che non c’é differenza significativa tra i particolari e quelli generali”. Mi ha detto che non c’entra nulla z. (soluzione 0,64)
2)”un dispositivo di sicurezza deve entrare in funzione entro 20 secondi dall’allarme, per evitare danni irreparabili. Una ditta produce dispositivi che, da una serie di prove effettuate, entrano in funzione dopo 10 secondi in media con un valore dello scarto quadratico medio di 6,74 secondi.
Calcolare la probabilità che un dispositivo di quel tipo produca danni irreparabili all’impianto oggetto di sorveglianza se la distribuzione dei tempi può essere gaussiana. (soluzione: 0,694)
Per favore, mi può aiutare a svolgerli?
Grazie!
Tania
Ciao Tania, grazie per la domanda.
Partiamo dalla prima domanda.
In questo caso si tratta di una test sulla differenza di proporzioni.
la statistica z-test si calcola nel seguente modo:
z-test = (pc – p0) /SE
Dove:
pc é la proporzione che deriva dal tuo campione.
Nel tuo caso pc = 2/64 = 0,03125
p0 è la proporzione ipotizzata quindi 1-098 = 0,02
Nota bene che se poniamo l’attenzione sui respinti non utilizziamo il 98%
SE è l’errore standard, e lo calcoliamo nel seguente modo:
SE = radq(p0*(1-p0)/n) = radq(0,02*0,08/64) = 0,0175
Dunque la statistica test risulta:
z-test = (0,03125 – 0,02) / 0,0175 = 0,64285
SECONDO QUESITO:
In questo caso bisogna calcolare la probabilità che il dispositivo entri in funzione dopo i 20 secondi.
se X è il tempo espresso in secondi dobbiamo calcolare:
P(X>20)
Ora dobbiamo standardizzare quel 20.
Usando la formula della standardizzazione abbiamo che:
z* = (20-10)/6,74 = 1,48
La probabilità di fare danni è dunque la probabilità che z sia maggiore di 1,48
Cercando sulle tavole abbiamo che:
P(z>1,48) =1 – 0,9306 = 0,0694
Buongiorno ho provato a svolgere questo esercizio ma non ho capito come devo impostarlo.
Si riportano le misurazioni della pressione diastolica minima (mm/Hg) su un campione di pazienti diabetici trattati con anti-ipertensivi. Si supponga di voler verificare se il livello medio di glucosio di questo campione sia significativamente diverso dal livello medio della popolazione di pazienti diabetici non sottoposti ad alcun trattamento che è di 90 con deviazione standard 21.03° ed é noto che la popolazione é distribuita
secondo la curva normale.
[1] 94 87 84 88 89 85 85 94 80 82 86
SD popolazione
[1] 21.03
si può affermare che il campione di studenti deriva dalla popolazione generale?
Ciao Agnese!
Per prima cosa calcoli il valore medio
media = (98+..+86)/11 = ..
Non ti serve calcolare la deviazione standard poiché conosci già quello della popolazione.
a questo punto calcoli lo standard error (SE) che è il rapporto tra la deviazione standard della popolazione e la radice quadrata della numerosità dei dati.
sd = 21,03 / radq(11) = …
Ora vai a calcolare con questi dati il valore dello z-test, ovvero quel valore che calcoliamo come segue:
z-test = (media Hp – media c.)/ SE
dove:
Media Hp è la media ipotizzata ovvero quella della popolazione
Media c. è la media campionaria
SE è l’errore standard.
Ora non c’è che da calcolare il p-value, inquesto caso è il doppio dell’area che si trova a destra rispetto a questo valore.
Se il doppio di quest’area è superiore al 5% ovvero 0,05 (in assenza di altri dati prenderei proprio questo valore di riferimento) allora direi che si può accettare l’ipotesi nulla, ovvero che quel campione è riconducibile alla popolazione.
In caso contrario scartiamo l’ipotesi nulla
Buonasera Andrea, ho un quesito che mi sta facendo impazzire:
Consideriamo una variabile causale con media
Mu=5 e varianza della popolazione=4
Estraiamo a caso 5 campioni di 10 osservazioni da tale variabile.
Per ciascuno dei cinque campioni calcoliamo la media e deviazione standard
Campioni Media Varianza
C1 – – – – – – 4,72___3,26
C2————4,83___7,01
C3———– 4,37___2,41
C4————4, 90___2,98
C5————5,40____4,01
Allora riguardo la media delle medie campionarie esce
24,25 / 5 = 4,85. Quindi la media delle medie campionarie coincide con la media della popolazione (mu=5). Più o meno stiamo lì.
La varianza delle medie delle 5 osservazioni che, secondo il testo dovrebbe essere 0,14, non esce proprio.
Anche perché facendo la formula della varianza delle medie campionarie é 0,8
(varianza della popolazione 4 diviso con il n, appunto, delle osservazioni delle varianze 5)
Buonasera Andrea ,{ho riscritto meglio} ho un quesito che mi sta facendo impazzire:
Consideriamo una variabile causale con media
Mu=5 e varianza della popolazione=4
Estraiamo a caso 5 campioni di 10 osservazioni da tale variabile.
Per ciascuno dei cinque campioni calcoliamo la media e deviazione standard
—- Media e la Varianza
C1 – 4,72_______3,26
C2 _4,83________7,01
C3_ 4,37________2,41
C4_4, 90________2,98
C5_5, 40________4,01
Allora riguardo la media delle medie campionarie esce
24,25 / 5 = 4,85. Quindi la media delle medie campionarie coincide con la media della popolazione (mu=5). Più o meno stiamo lì.
La varianza delle medie delle 5 osservazioni che, secondo il testo dovrebbe essere 0,14, non esce proprio.
Anche perché facendo la formula della varianza delle medie campionarie é 0,8
(varianza della popolazione 4 diviso con il n, appunto, delle osservazioni delle varianze 5)
Ciao Patrizia
Attenzione che la varianza totale è la somma di due componenti
La prima è la media delle varianza
Mentre la seconda è la varianza delle medie
Quindi da un lato per calcolare la media dia delle varianza fai la somma (ponderata delle medie e dividi per il totale
Dall’altro devi calcolare la varianza dei valori medi
La somma di queste due componenti dovrebbe risultare la varianza totale
Ciao Andrea, purtroppo non esce proprio… Non capisco come la varianza delle medie dei cinque campioni sia 0,14..
La varianza delle medie campionarie é:
3,26+7,01+2,41+2,98+4,01=
19,67/5=3,9 sarebbe la varianza campionaria
Var(Xbar) = sigma al quad. / n
Forse sono io che sbaglio qualcosa.. Grazie se mi risponderai
Attenzione Patrizia che intende la varianza delle medie, non la media delle varianze
Una volta calcolato il valore della media delle medie pari a 4,844 devi fare il seguente calcolo
[(4,72-4,844)^2+(4,83-4,844)^2+(4,37-4,844)^2+(4,9-4,844)^2+(5,4-4,844)^2]/(5-1)
Questo risultato è pari a 0,138
In pratica applichi la formula generale per la varianza campionaria corretta che è
VAR(x) = [somma(xi – media)^2]/(n-1)
Dove nel tuo caso specifico:
xi sono le varie medie campionarie
Media è la media delle medie
n è il numero dei campioni (5 nel tuo caso)