Skip to main content

https://youtu.be/L7_x-KuE7es

CHI QUADRATO – DEFINIZIONE SINTETICA

Il Chi-quadrato l’indice che fornisce una misura della dipendenza o indipendenza tra due variabili.

Ci dice in altre parole se le modalità di un certo carattere X possono avere un’influenza sulle modalità di un altro carattere Y.

Per calcolarlo sommiamo i quadrato delle contingenze cij divise per le frequenze teoriche di indipendenza tij.

Le frequenze teoriche di indipendenza tij sono le frequenze che dovremmo osservare se i due caratteri fossero perfettamente indipendenti.

Mentre le contingenze cij rappresentano gli scostamenti delle frequenze teoriche tij e le frequenze osservate nij.

Tali contingenze ci danno l’idea di quanto ci stiamo discostando dalla situazione di perfetta indipendenza e forniscono una misura della dipendenza.

Per quanto riguarda gli indici i e j, rappresentano rispettivamente la i-esima modalità del primo carattere (X) e la j-esima modalità del secondo carattere (Y).

L’indice i va da 1 a k, poiché il carattere X presenta k modalità.

Mentre l’indice j va da 1 a h., poiché il carattere Y presenta h modalità.

Chiaramente dare formule in questo modo non è di grande aiuto, specialmente per quelli come voi che faticano a comprendere formule matematiche di questo tipo.

L’ideale è sempre accompagnare ad ogni formula un esempio concreto.

LA REGIONE GEOGRAFICA INFLUENZA LA PROPENSIONE VERSO LA MATEMATICA?

Per questo motivo ho voluto fare una ricerca statistica su una questione che mi sono sempre posto.

La collocazione geografica, cioè la regione di appartenenza, può influenzare la propensione verso la matematica?

Per rispondere a questa domanda sono andato sul sito dell’ISTAT e ho scaricato i dati relativi all’anno 2016 dei laureati in Italia.

Si tratta di una popolazione di 178.000 unità (laureati) che per varie ragioni ho approssimato a 145.000 unità circa.

Sotto ho riportato la tabella a doppia entrata estratta con tutti i dati.

Sulle righe sono presenti le aree geografiche di riferimento, suddivise in regioni e nelle macro zone: nord-ovest; nord-est, centro, sud e isole.

Mentre sulle colonne possiamo trovare le 16 facoltà, dalle scientifiche nella prima colonna alla difesa e sicurezza nell’ultima.

RAGGRUPPAMENTO I DATI PER:ZONA GEOGRAFICA E LEGAME CON LA MATEMATICA

Per semplificare la lettura dei dati ho classificato le aree geografiche in tre zone, anziché cinque: nord, centro e sud e sole.

Ho raggruppato in seguito le facoltà universitarie in tre gruppi sulla base della loro relazione con la matematica.

Quando il legame tra la facoltà è evidente, poiché  la matematica tratta in quel tipo di facoltà raggiunge generalmente alti livelli, allora la classifichiamo come FORTE.

All’interno di questa categoria ho inserito: scienze, chimica, biologia, medicina e ingegneria.

Al secondo posto ho inserito le facoltà che presentano una buona ma non eccellente matematica, denominando questo gruppo MEDIO-FORTE, o semplicemente MEDIO.

Le facoltà in questione sono architettura, agraria ed economia.

Infine troviamo quelle facoltà, generalmente denominate umanistiche, dove presentano una bassa, se non addirittura assente, relazione con la matematica.

Questo ultimo gruppo, denominato DEBOLE, comprende: politica, giurisprudenza, letteratura, lingue, insegnamento, psicologia, educazione fisica e difesa.

I dati sono stati raccolti nella tabella sottostante:

Per descrivere questa tabella in maniera più matematica o statistica possiamo dire che ci troviamo di fronte ad una popolazione di 146.000 laureati circa.

Di questa popolazione stiamo analizzando due variabili qualitative X e Y.

La variabile X è la zona geografica di appartenenza che si manifesta secondo 3 modalità: nord, centro e sud.

Mentre la variabile Y si presenta anch’essa secondo 3 modalità : forte, medio e debole.

Ai margini della tabella troviamo i totali.

Ad esempio il totale della prima riga indica che ci sono circa 74.000 laureati che provengono dalle regioni del nord.

Il totale della prima colonna indica invece che circa 61.000 laureati provengono da università con forte vocazione verso la matematica.

SEMPLIFICHIAMO I DATI    /1.000

Per una lettura più semplificata dei dati ho diviso per 1.000 tutti questi dati, di modo da avere a che fare con numero più alla portata di tutti i giorni.

Queste semplificazioni hanno semplicemente lo scopo di illustrare il concetto trattato in questo articolo.

Solitamente questi dati sono analizzati con programmi informatici (come EXCEL, STATA, MATHLAB, ecc..) che non richiedono per forza queste semplificazioni.

FREQUENZE RELATIVE DEL GRADO DI DIFFICOLTA’ MATEMATICA RISPETTO ALLA ZONA

Prima di inoltrarci con i paraocchi verso il calcolo del chi-quadrato, diamo un’occhiata alle frequenze relative del grado di difficoltà matematica rispetto alla zona di appartenenza.

In altre parole ci stiamo chiedendo quale percentuale dei laureati del nord proviene da facoltà con forte, medio o basso grado di difficoltà della matematica.

In questo modo possiamo già vedere differenze e somiglianze tra le varie zone.

Per ottenere tali frequenze relative è molto semplice.

Basta dividere ogni singola cella di ogni riga per il totale della riga.

Se dividiamo ad esempio nella prima riga il 28,34 per il 74,38 abbiamo la frequenza relativa dei laureati del nord che proviene da università con forte legame con la matematica.

Il risultato 0,38 indica che la percentuale di tali laureati è prossima al 38%.

Osserviamo ora le prime due righe della tabella delle frequenze relative condizionate.

I dati mostrano che le regioni del nord e quelle del centro sono abbastanza simili.

La percentuale relativa alle università del tipo forte è pressoché identica.

Un comportamento un po’ diverso sembra esserci nel sud e nelle isole dove il 53% dei laureati ha scelto una matematica forte  e solo il 14% studia in facoltà con matematica debole.

Sembra proprio che i cittadini del sud propendano di più per la matematica.

PICCOLA NOTA PERSONALE

Dobbiamo considerare comunque altri fattori per una corretta analisi.

In primis la popolazione del sud Italia conta 34,75 migliaia di unità contro quella del nord pari a 74,38 unità.

L’incidenza delle regioni del sud sarà dunque inferiore di quelle del nord.

In secondo luogo non abbiamo considerato la percentuale dei laureati rispetto alla popolazione complessiva della regione.

In terzo luogo non consideriamo il quoziente di difficoltà matematica che nelle regioni del nord è a mio avviso più elevato.

Queste sono considerazioni personali che non hanno supporto in dati concreti, quindi limitiamo a svolgere l’analisi in modo tecnico.

Dopo tutto l’articolo vuole mostrare il concetto di dipendenza attraverso il chi quadro.

Non intendo fare affermazioni del tipo “leghista” che il nord è meglio del sud.

Ogni paese ha una sua identità, ogni singola scuola e ogni singolo professore e studente può fare la differenza.

FREQUENZE TEORICHE DI INDIPENDENZA

Quali frequenze assolute dovremmo osservare teoricamente se la scelta della facoltà unicamente sulla base del fattore matematica fosse indipendente?

Calcoliamo le frequenze teoriche di indipendenza tij.

Queste frequenze rispetto ad ogni frequenza osserva nij moltiplicando il totale della riga i per il totale della colonna j e dividendo per il totale della popolazione.

 ni. rappresenta il totale della riga i, mentre n.j il totale della colonna j.

Ad esempio al posto del 28,34  dovremmo avere il 74,38 (totale della prima riga) moltiplicato per 60,91 (totale della prima colonna), il tutto diviso per 145,83 (totale).

Ovviamente i dati sono stati elaborati con Excel, quindi i più curiosi di voi che si avventurano in questo calcolo potrebbero ottenere risultati lievemente diversi.

L’importante è provare, prendere la calcolatrice e avventurarsi nella grande bolgia della matematica e della statistica.

“Errare umanum est”, dicevano i nostri avi latini.

CONTINGENZE

Le contingenze cij evidenziano lo scostamento tra le frequenze osservate nij e le frequenze teoriche di indipendenza tij.

Latinismi a parte andiamo ora a calcolare le contingenze.

Le calcoliamo proprio sottraendo alle frequenze nij quelle tij. In formule:

Riportiamo dunque sotto le tabelle delle frequenze osservate nij e quella delle frequenze teoriche tij.

A questo punto applichiamo la formula scritta in precedenza.

Ad esempio per l’osservazione che si trova sulla prima riga e sulla prima colonna faremo il seguente calcolo:

Questo dato significa che si sono rilevati 2.730 laureati in meno rispetto alla condizione di perfetta indipendenza tra le variabili FORTE e NORD.

Proseguendo in modo analogo con le altre otteniamo la tabella delle contingenze.

CALCOLO DEL CHI QUADRATO

Una volta che abbiamo le tabelle delle contingenze e quella delle frequenze teoriche di indipendenza passiamo al calcolo del chi-quadrato.

L’indice chi-quadrato si ottiene sommando il quadrato delle contingenze cij divisi per la rispettiva frequenza teorica di indipendenza tij.

MASSIMO VALORE DEL CHI-QUADRATO

Il valore calcolato del chi quadro al punto precedenze ci dice tutto e niente circa l’indipendenza tra le due variabili

Dobbiamo infatti rapportare questo valore al valore potenziale massimo che il chi-quadro può avere.

Tale valore dipende dal numero di unità statistiche considerato e dal numero di modalità delle due variabili.

Tale numero di variabili è identificato con il numero di righe e di colonne della tabella a doppia entrata.

Il chi-quadro massimo si ottiene moltiplicando il numero delle unità della popolazione per il minimo valore tra il numero di righe meno una e il numero di colonne meno una.

Scritto in formula matematica diremo:

Passando ai calcoli otteniamo:

Ovviamente dobbiamo ricordarci che il risultato è in migliaia di unità.

Quindi il vero valore sarebbe 291.630.

CHI-QUADRATO PERCENTUALIZZATO (NORMALIZZATO)

Ora che abbiamo il chi-quadrato effettivo e quello massimo teorico possiamo normalizzare (percentualizzare) l’indice.

Il chi-quadro normalizzato (o percentualizzato si ottiene dividendo il chi-quadro effettivo per il suo valore massimo.

In formule e calcoli scriviamo:

CONCLUSIONI

Il chi-quadrato ottenuto ci sta 0,0184 volte nel chi quadrato. massimo.

La conclusione è che tra i due caratteri esiste una bassissima connessione, pari solamente all’1,84%.

Esiste perciò una bassissima connessione tra la zona di residenza e la propensione verso la matematica.

SCOPRI I VIDEO CORSI DI STATISTICA

Per scoprire di più sull’indice chi-quadrato e sulla statistica bivariata ho preparato questo video-corso per te.

Questo corso di chiama “STATISTICA BASE” ed è il primo dei quattro corsi che costituiscono la saga della Statistica.

Nel corso verranno trattati:

  • Statistica monovariata
  • Statistica bivariata

La statistica monovariata si occupa di analizzare un solo carattere alla volta:

In questa sezione verranno trattati sia a livello teorico, che pratico i caratteri, le loro proprietà, la rappresentazione grafica e il calcolo degli indici

La statistica bivariata si occupa invece di analizzare coppie di caratteri congiuntamente.

Questa sezione è in particolare dedicata all’eterogeneità di una popolazione, alla connessione o dipendenza tra caratteri e alla regressione lineare semplice.

Per ogni argomento troverete sia la parte teorica che la parte pratica.

Approfittane subito perché prezzi così bassi non se ne sono mai visti.

Scopri tutte le caratteristiche di questo corso cliccando sull’immagine della copertina.

Nel link troverete una descrizione completa delle caratteristiche del corso.

Il corso di statistica base è il primo dei 4 corsi dedicati alla statistica, che comprende:

  • Statistica base che tratta della statistica monovariata e bivariata
  • Probabilità in cui troverete i calcoli sulle probabilità, il teorema di Bayes, le variabili casuali discrete Binomiale e Poisson, e le variabili casuali continue con il teorema del limite centrale
  • Inferenza e test di ipotesi, con la stima intervallare e i test di ipotesi sulla media, proporzione e varianza
  • Eserciziario di statistica che comprende tantissimi esercizi su tutti gli argomento trattati.

12 Comments

  • Mike Tyson ha detto:

    Ciao andre, una domanda veloce, l’indice chi quadrato può essere negativo ?
    grazie mille

    • Andrea ha detto:

      Ciao Mike Tyson, ti ringrazio per questa interessante domanda.
      Anche se la risposta può sembrare scontata in realtà è meglio sempre fare un po’ di chiarezza.
      il chi quadrato è certamente sempre una quantità positiva.
      In fatti ricordiamo che per calcolarlo dobbiamo fare la SOMMATORIA DEI QUADRATI DELLE CONTINGENZE DIVISI PER LE FREQUENZE TEORICHE DI INDIPENDENZA.
      Trattandosi quindi della somma di valori positivi otteniamo certamente una quantità positiva.
      Il caso estremo si verifica quando tutte le contingenze sono nulle.
      In tale situazione ci troviamo in una situazione di perfetta indipendenza e l’indice chi quadrato vale zero.
      l’escamotage logico per l’utilizzo dei quadrati nel calcolo del chi quadrato è il seguente:
      Le contingenze indicano la differenza tra i dati effettivamente osservati e i dati previsti.
      quindi le contingenze rappresentano un indicatore di quanto la situazione reale si discosti dalla situazione di perfetta indipendenza.
      Tuttavia la somma delle contingenze fa zero, il che ci porta ad una situazione in cui dbbiamo fare qualcosa perché maggiori siano le differenze e più l’indice che dobbiamo calcolare sia più alto.
      Quindi possiamo ricorrere a delle operazioni che rendano positive anche le quantità negative.
      Allora Opzione A usiamo il valore assoluto.
      Oppure azione B usiamo un quadrato oppure una potenza con esponente pari.
      Ed ecco come nasce la bellissima storia del chi quadrato e di chi lo ha inventato 😉

  • Elena ha detto:

    Ciao Andrea, mi trovo di fronte a due esercizi che riguardano una tabella a doppia entrata e il calcolo del CHI-QUADRATO.
    In apparenza sembrano semplici ma non riesco a capire come risolverlo.

    ESERCIZIO UNO

    Abbiamo 2 variabili X e Y.
    La X presenta due modalità: A e B
    Mentre la Y anche presenta due modalità: GR1 e GR2.

    C’è una tabella a doppia entrata con due righe e due colonne.
    Sulle due righe abbiamo GR1 e GR2 e sulle colonne A e B.

    Le frequenze congiunte della prima riga sono: 20 e 30 (totale 50)
    Sulla seconda riga ci sono 40 e 60 (totale 100)
    Mi chiede quanto vale il chi quadrato.

    • Andrea ha detto:

      Ciao Elena, domanda molto interessante.

      PRIMO ESERCIZIO
      Nella prima tabella ti basta notare che la seconda riga (40, 60) è un multiplo (in particolare il doppio) rispetto alla riga (20, 30).
      Quando si verifica che le righe ( e di conseguenza le colonne) sono tutte multiple tra di loro siamo in una situazione di PERFETTA INDIPENDENZA.
      Pertanto l’indice chi quadrato vale zero, ovvero assume il valore minimo.
      In tale situazione anche l’indice normalizzato e il V di Cramer valgono zero.

  • Elena ha detto:

    ESERCIZIO 2

    La tabella è identica a quella dell’esercizio precedente solo che:

    Sulla prima riga ci sono: 0, X (totale 100)
    Sulla seconda riga: Y, Z (totale 200)

    L’esercizio chiede di compilare la tabella di modo che le variabili siamo tra di loro perfettamente dipendenti.
    Il punto successivo chiede il valore dell’indice di associazione.
    Quello successivo ancora chiede l’indice di associazione normalizzato
    ????
    Tutto ciò per me è arabo!!!!
    Aiuto!!!!

    • Andrea ha detto:

      SECONDO ESERCIZIO
      Nel secondo esercizio hai una tabella 2X2 e vuoi calcolare il valori di X Y e Z (oltre che i totali di colonna immagino) che rendono la relazione di perfetta dipendenza tra le due variabili.
      Siccome il primo totale vale 100 anche il valore X varrà 100.
      SE vuoi che vi sia perfetta dipendenza la Y deve valer 0 e di conseguenza il totale della prima colonna ammonta ancora a 100.
      Da qui capisci immediatamente che il valore di Z è pari al totale della prima riga ovvero 200.
      Questo valore 200 è anche il totale della seconda colonna.
      Il valore Chi quadrato in una tabella che presenta massima dipendenza è pari al chi quadrato massimo, dove:
      CHI Q MAX= N*(min (h-1, k-1))
      Con N che è la numerosità totale.
      Nel tuo caso N è pari a 100+200=300
      H e k sono le modalità dei due caratteri ovvero 2 per entrambi, quindi:
      min (h-1, k-1)=min (2-1, 2-1)=min(1,1)=1.
      Dunque il chi quadrato è 1*300=300
      Il chi- quadrato normalizzato e il V-Cramer valgono 1 quando vi è perfetta dipendenza.

  • FLAVIA CIMINO ha detto:

    cosa vuol dire:
    “ i due gruppi non differiscono significativamente per il genere (chi-quadro =.59, p.=.44) e per l’età (t (104) = -1.81 p=.72)”,

    • Andrea ha detto:

      Ciao Flavia grazie della domanda.
      Quello che mi stai domandando fa parte del test relativo al chi quadrato.
      Nel tuo caso la domanda del test è:
      I due gruppi hanno la stessa composizione in quanto a genere (maschi o femmine)?

      La risposta è:
      “Si possiamo ritenere che i due gruppi siano simili e abbiamo un’alta probabilità che lo siano”
      Questa risposta viene data calcolando l’indice chi quadrato confrontandolo con in valore di riferimento.
      Al valore del chi quadrato calcolato viene poi associata una probabilità
      Se non hai capito quanto detto non ti preoccupare.
      Cerca di seguire il seguente ragionamento.

      Supponiamo di analizzare una dieta di uno sportivo che cerca di ottenere un certo risultato sportivo.

      Il nutrizionista gli consiglia per perseguire tale obiettivo di bilanciare gli
      Alimenti di modo che si abbia :
      – 30% proteine
      – 50% carboidrati
      – 20% grassi

      Questo significa che per 100 grammi di pasto la quota sarebbe
      – 30g di proteine
      – 50g di carbo
      – 20g di grassi

      Per testare se lo
      Sportivo sta rispettando le regole il preparatore atletico controlla un campione di 100g del pasto medio dello sportivo
      E viene rilevato che sono presenti:
      – 29g propteine
      – 52g di carbo
      – 19g di grassi
      Chiunque veda queste cifre capisce subito che sono molto vicine alle dosi indicate
      Se eseguissimo
      Il test chi quadrato andremo a calcolarle come
      CHI QUADRATO = somma( freq oss – freq teoriche)^2/fr teoriche
      Nel nostro caso avremo:
      CHI QUADRATO = (29-30)^2/30+(52-50)^2/2 +(19-20)^2/2. = 0,10

      Questo valore è alto o è basso ???
      Per capire questo dobbiamo ricordare che in un test dobbiamo fare un’ipotesi e prendere in certo livello di significatività.

      Nel nostro caso
      L’ipotesi nulla è : lo sportivo sta seguendo la dieta ideale
      L’ipotesi alternativa è:
      Lo
      Sportivo non sta seguendo la dieta ideale.

      Quale soglia di significatività prendiamo a riferimento? E cosa significa?

      Supponiamo di prendere il 5%
      Questo significa che siamo disposti al massimo a sopportare una probabilità del 5% che l’ipotesi nulla sia falsa.
      Vogliamo rischiare abbastanza poco insomma.

      Devi sapere che esiste una TABELLA DEL CHI QUADRO

      Sulle righe ci sono i gradi di libertà
      Mentre sulle colonne il livello alfa
      Nel nostro caso i GRADI DI LIBERTÀ sono pari al numero di sotto insiemi menò uno

      Nel nostro caso i sotto insiemi sono tre
      – proteine
      – carbo
      – grassi
      Quindi i gradi di libertà (gel) sono 2
      Se incrociamo la
      – riga con 2 Gdl
      – colonna con Alfa =5%
      Lèggiamo il valore 5,99

      Questo significherebbe che:

      Se il chi quadro che abbiamo calcolato sta sotto 5,99 accettiamo il fatto che lo
      Sportivo sta seguendo una dieta corretta
      I’m altre parole stiamo ritenendo ad un livello di significatività del 5% che la dieta dello spostino e quella ideale non siano significativamente diverse

      Se diversamente il chi quadrato calcolato sia al di sopra di 5,99 riteniamo che lo sportivo non stia seguendo la die ta corretta

      Nel nostro caso il valore calcolato è molto al di sotto della soglia di 5,99 quindi riteniamo vera l’ipotesi nulla.

      Se dobbiamo attribuire una percentuale a questo valore dobbiamo
      Leggere sulla riga di 2 gol della tabella il valore che più si avvicina a 0,10.
      Questo lo si trova in corrispondenza di 0,95

      In altre parole c’è il 95% di possibilità che risulti falsa l’ipotesi che lo sportivo non stia seguendo la dieta corretta

  • Luigi ha detto:

    Scusa Andrea una domanda a cui non ho trovato risposta sul web.
    Come ci si comporta se per caso il valore atteso di una variabile dovesse proprio essere zero?
    E’ evidente che in questo caso non potrà essere computata la frazione, ma non ho trovato alcuna spiegazione sul comportamento da tenere.
    Ti ringrazio

    • Andrea ha detto:

      Ciao Luigi
      Direi che questo caso non è possibile che si verifichi
      Il valore atteso infatti è dato dal totale di riga per il totale della colonna diviso per il totale
      Se questo valore atteso valesse zero significa che
      – non c’è nessun elemento nella riga
      – non c’è nessun elemento nella colonna
      Quindi tanto vale togliere quella riga / colonna dalla tabella fino a che almeno ogni riga : colonna abbia almeno un elemento
      In tal caso i valori teorici sono certamente positivi

Leave a Reply