Skip to main content

Il test che stiamo per vedere serve a confrontare le medie di due campioni dipendenti.

Il caso tipico è quello dei campioni appaiati.

Per campioni appaiati intendiamo due campioni composti dalle stesse unità statistiche per le quali si verifica l’evoluzione di un qualche fenomeno.

Un esempio di questo tipo di test potrebbe essere la rilevazione su n soggetti i risultati conseguiti in un due compiti di matematica.

Oppure i tempi in una gara di 100 m rilevati in due settimane consecutive.

In pratica ci stiamo chiedendo se i risultati ottenuti nella prima prova sono diversimaggiori o minori rispetto a quelli ottenuti nella prima prova.

Per darvi un orientamento sugli elementi che rendono diverso questo tipo di test dagli altri possiamo elencare le seguenti caratteristiche.

In primo luogo il numero dei soggetti e i soggetti stessi devono essere gli stessi.

Questo è elemento rende certamente dipendenti i due campioni.

In secondo luogo vogliamo rilevare su questi soggetti un’evoluzione di un certo fenomeno, magari in conseguenza ad un fatto avvenuto all’interno di questo periodo di tempo.

Nel caso della gara citato prima potrebbe esserci ad esempio un periodo di allenamento.

In questo caso l’obiettivo del test sarebbe quello di verificare o meno l’efficacia del piano di allenamento.


La terza caratteristica importante è come avrete intuito la dimensione temporale che può assumere un ruolo fondamentale.

ESEMPIO

L’azienda DIETAFLEX dichiara di aver brevettato una pastiglia che risolve il problema del peso causato dal grasso corporeo.

Ingerendo due pastiglie al giorno il peso di un individuo cala di peso nel giro di un mese, a parità di calorie ingerite.

Sei pazienti accettano di sottoporsi a questo trattamento per 30 giorni con i dovuti controlli circa le calorie ingerite.

Riportiamo nella tabella sottostante il peso corporeo dei sei soggetti prima e dopo il trattamento.

Possiamo ritenere vera l’affermazione dell’azienda ad un livello di significatività del 5%?

IMPOSTAZIONE DEL TEST DI IPOTESI

Come avrete notato leggendo il testo si contrappongono due visioni.

Da un lato vi è l’ipotesi nulla che sostiene che il peso degli individui rimane inalterato.

Per contro troviamo proprio l’ipotesi alternativa dell’azienda che sostiene che il peso degli individui è calato:

DIFFERENZA, MEDIA, DEV.ST. E ERRORE ST.

La prima cosa che dobbiamo fare per la verifica del test è costruire il campione-differenza.

Questo può essere ottenuto facendo la differenza di peso per ogni unità statistica:

Ora andiamo a calcolare media e varianza campionaria delle differenze, ottenendo che:

 la media delle differenze è:

 mentre la deviazione standard delle differenze è:

Se usiamo Excel per la media usiamo:

Mentre per la deviazione standard:

L’errore standard (SE) associato al test è ottenuto dal rapporto tra la deviazione standard del campione e la radice quadrata della sua numerosità:

REGIONE DI ACCETTAZIONE E DI RIFIUTO 

Per determinare l’estremo che delimitata la zona di accettazione e di rifiuto usiamo una distribuzione t-student dal momento che la varianza delle differenza della popolazione è ignota.

I gradi di libertà sono pari a n–1 dunque 5 nel nostro caso.

In particolare siccome la regione di rifiuto si trova a sinistra ci interessa il quinto percentile della t-student, che può essere considerato come l’opposto del 95-esimo percentile.

Per cercare questo valore andiamo nella tavole della t-student sulla riga relativa a 5 g.d.l. e la colonna con area a sinistra 0,95 oppure a destra 0,05.

Per calcolarlo con Excel usiamo la formula:

Il valore dell’estremo è dunque:

Siccome la media delle differenze risulta superiore a questo valore (destra) accettiamo l’ipotesi nulla.

Pertanto riteniamo che al livello di significatività del 5% l’azienda stia affermando il falso circa l’efficacia della cura dimagrante.

STATISTICA TEST

Calcoliamo ora la statistica test che coincide con il dato campionario standardizzato.

Per ottenerla dividiamo la media della differenze per l’errore standard SE.

Tale valore, come era logica aspettarci, risulta maggiore del t-student associato all’estremo.

Ora calcoliamo il p-value, ovvero l’area a sinistra della statistica test.

Se usiamo le tavole cerchiamo sulla riga corrispondente ai 5 g.d.l. il valore che più si avvicina a questo numero.

Nel caso ne trovassimo due faremo un’interpolazione.

Ovviamente dobbiamo tenere presente che siccome nella maggior parte delle tavole abbiamo a che fare con valori positivi andiamo a calcolare l’area a destra del t-student positivo.

Quindi nel nostro caso cerchiamo l’area a destra di 1,82.

Dalle tavole emerge che il valore che stiamo cercando è compreso tra 1,476 e 2,015, pertanto il p-value è compreso tra 0,10 e 0,05.

Ora cerchiamo di fare un’interpolazione lineare prima tra i valori della t-student e successivamente di trasmetterla alle aree.

Impostiamo l’equazione:

 dove x e 1–x esprimono le quote percentuali da attribuire ai due valori di t-student per ottenere la nostra statistica-test.

Risolvendo l’equazione abbiamo:

Pertanto il p-value vale approssimativamente:

Per avere un risultato più preciso utilizziamo Excel scrivendo la formula:

 oppure

 ottenendo come risultato:

Ovviamente essendo il p-value maggiore del 5% siamo portati a ritenere vera l’ipotesi nulla.

Se avessimo fatto il test ad un livello di significatività del 10% avremmo invece ritenuto vera l’affermazione dell’azienda DIETAFLEX.

HAI DOMANDE?

Se questo articolo ti ha ispirato qualche dubbio scrivi pure la tua domanda nei commenti.

Le tue domande sono molto importanti per tutti gli utenti che hanno i tuoi stessi dubbi.

Per approfondire tutti gli argomenti di statistica consulta i corsi di statistica.

12 Comments

  • Elena ha detto:

    Ciao Andrea.
    Sto creando un istogramma ma mi viene un dubbio.

    L’esercizio mi fornisce 10 questi 10 dati.

    20, 24, 27, 28, 31, 31, 36, 38, 41, 46

    E mi chiede di formare un istogramma con classi di ampiezza 5 che vanno da 20 a 50.
    Le classi sono dunque:
    [20, 25], (25, 30], (30, 35], (35, 40], (40, 45], (45, 50].

    Inoltre mi chiede di calcolare la frequenza di ogni classe e di calcolare le altezze.
    Sapresti aiutarmi?
    Grazie

    • Andrea ha detto:

      Ciao Elena, grazie della domanda.
      Per calcolare la numerosità di ogni classe devi semplicemente contare il numero degli elementi che si trovano in una data classe:
      Nella prima classe: [20, 25] trovi i valori 20 e 24, pertanto la numerosità( o frequenza) della prima classe è pari a 2
      Nella seconda classe: (25, 30] trovi i valori 27 e 28, pertanto la numerosità( o frequenza) della prima classe è pari a 2
      Nella prima classe: (30, 35] trovi i valori 31 e 31, pertanto la numerosità( o frequenza) della prima classe è ancora pari a 2.
      Nella prima classe: (35, 40] trovi i valori 36 e 38, pertanto la numerosità( o frequenza) della prima classe è pari a 2
      Nella prima classe: (40, 45] trovi il valore 41, pertanto la numerosità( o frequenza) della prima classe è pari a 1
      Nell’ultima classe (45, 50] trovi il valore 46, pertanto la numerosità( o frequenza) della prima classe è pari a 1.

      Per calcolare l’altezza (assoluta) ad ogni classe basta che dividi la numerosità della classe per la sua numerosità.
      Tutte le classi hanno un ampiezza pari a 5.
      Siccome le prime 4 classi hanno la stessa numerosità allora l’altezza in termini assoluti di queste risulta pari a 2/5.
      Nelle ultime due classi è presente un solo elemento, pertanto l’altezza risulta pari a 1/5.
      Spero di aver risolto il tuo problema 😉

  • Pasquale ha detto:

    Ciao, le volevo chiedere se tale test può essere fatto con variabili espresse in valori percentuali.

    • Andrea ha detto:

      Ciao Pasquale
      Cosa intendi esattamente?
      Se tutti i punteggi sono espressi in percentuale?
      Riesci a farmi un esempio concreto?

  • Pasquale ha detto:

    Ciao Andrea, l’obiettivo della mia ricerca è analizzare tramite un confronto di indici economico finanziari se vi è stata efficienza nell’utilizzo di particolari tecnologie tra l’anno x(anno in cui tali tecnologie non sono state implementate) e anno x+1(anno di ufficiale implementazione delle tecnologie), pertanto i miei dati sono sostanzialmente costituiti da rapporti tra due grande economico finanziarie.

    • Andrea ha detto:

      di che tipo di indici si tratta?

      • Pasquale ha detto:

        -cost to income
        -ROAA
        -ROE
        -margine di intermediazione/numero dipendenti

        • Andrea ha detto:

          Di certo potresti misurare questi indici per vedere se c’è stato un miglioramento o un peggioramento

          Io problema qui è che se analizzi solamente due anni hai solo due dati per ogni tipologia
          Ti servirebbero in questo caso per fare un test almeno 3/4 anni senza le tecnologie e 3/4 anni con le tecnologie
          In assenza di questi dati hai solo un semplice confronto di due dati.

          Per fare questi confronti potrebbe essere utile un test per campioni appaiati su
          – vendite mensili (o trimestrale)
          – costi mensili (o trimestrali)
          -utili mensili (o trimestrali)
          In questo modo avresti a disposizione più dati per valutare
          E ogni mese / trimestre che passa hai un dato in più a disposizione

  • Pasquale ha detto:

    Ciao Andrea, il problema che la suddetta tecnologia è stata implementata nel 2021, e non ho a disposizione i bilanci dell’anno 2022 visto che per molte società l’anno contabile coincide con l’anno solare.
    Il mio campione è composto da circa 90 aziende, pertanto avrò a disposizione di quel rispettivo indice 90 risultati dell’anno x e x+1 e per tal motivo avevo pensato di applicare il test T per campioni appaiati

  • Pasquale ha detto:

    Grazie mille Andre! sei stato di grande aiuto

Leave a Reply