Skip to main content

https://youtu.be/L7_x-KuE7es

CHI QUADRATO – DEFINIZIONE SINTETICA

Il Chi-quadrato l’indice che fornisce una misura della dipendenza o indipendenza tra due variabili.

Ci dice in altre parole se le modalità di un certo carattere X possono avere un’influenza sulle modalità di un altro carattere Y.

Per calcolarlo sommiamo i quadrato delle contingenze cij divise per le frequenze teoriche di indipendenza tij.

Le frequenze teoriche di indipendenza tij sono le frequenze che dovremmo osservare se i due caratteri fossero perfettamente indipendenti.

Mentre le contingenze cij rappresentano gli scostamenti delle frequenze teoriche tij e le frequenze osservate nij.

Tali contingenze ci danno l’idea di quanto ci stiamo discostando dalla situazione di perfetta indipendenza e forniscono una misura della dipendenza.

Per quanto riguarda gli indici i e j, rappresentano rispettivamente la i-esima modalità del primo carattere (X) e la j-esima modalità del secondo carattere (Y).

L’indice i va da 1 a k, poiché il carattere X presenta k modalità.

Mentre l’indice j va da 1 a h., poiché il carattere Y presenta h modalità.

Chiaramente dare formule in questo modo non è di grande aiuto, specialmente per quelli come voi che faticano a comprendere formule matematiche di questo tipo.

L’ideale è sempre accompagnare ad ogni formula un esempio concreto.

LA REGIONE GEOGRAFICA INFLUENZA LA PROPENSIONE VERSO LA MATEMATICA?

Per questo motivo ho voluto fare una ricerca statistica su una questione che mi sono sempre posto.

La collocazione geografica, cioè la regione di appartenenza, può influenzare la propensione verso la matematica?

Per rispondere a questa domanda sono andato sul sito dell’ISTAT e ho scaricato i dati relativi all’anno 2016 dei laureati in Italia.

Si tratta di una popolazione di 178.000 unità (laureati) che per varie ragioni ho approssimato a 145.000 unità circa.

Sotto ho riportato la tabella a doppia entrata estratta con tutti i dati.

Sulle righe sono presenti le aree geografiche di riferimento, suddivise in regioni e nelle macro zone: nord-ovest; nord-est, centro, sud e isole.

Mentre sulle colonne possiamo trovare le 16 facoltà, dalle scientifiche nella prima colonna alla difesa e sicurezza nell’ultima.

RAGGRUPPAMENTO I DATI PER:ZONA GEOGRAFICA E LEGAME CON LA MATEMATICA

Per semplificare la lettura dei dati ho classificato le aree geografiche in tre zone, anziché cinque: nord, centro e sud e sole.

Ho raggruppato in seguito le facoltà universitarie in tre gruppi sulla base della loro relazione con la matematica.

Quando il legame tra la facoltà è evidente, poiché  la matematica tratta in quel tipo di facoltà raggiunge generalmente alti livelli, allora la classifichiamo come FORTE.

All’interno di questa categoria ho inserito: scienze, chimica, biologia, medicina e ingegneria.

Al secondo posto ho inserito le facoltà che presentano una buona ma non eccellente matematica, denominando questo gruppo MEDIO-FORTE, o semplicemente MEDIO.

Le facoltà in questione sono architettura, agraria ed economia.

Infine troviamo quelle facoltà, generalmente denominate umanistiche, dove presentano una bassa, se non addirittura assente, relazione con la matematica.

Questo ultimo gruppo, denominato DEBOLE, comprende: politica, giurisprudenza, letteratura, lingue, insegnamento, psicologia, educazione fisica e difesa.

I dati sono stati raccolti nella tabella sottostante:

Per descrivere questa tabella in maniera più matematica o statistica possiamo dire che ci troviamo di fronte ad una popolazione di 146.000 laureati circa.

Di questa popolazione stiamo analizzando due variabili qualitative X e Y.

La variabile X è la zona geografica di appartenenza che si manifesta secondo 3 modalità: nord, centro e sud.

Mentre la variabile Y si presenta anch’essa secondo 3 modalità : forte, medio e debole.

Ai margini della tabella troviamo i totali.

Ad esempio il totale della prima riga indica che ci sono circa 74.000 laureati che provengono dalle regioni del nord.

Il totale della prima colonna indica invece che circa 61.000 laureati provengono da università con forte vocazione verso la matematica.

SEMPLIFICHIAMO I DATI    /1.000

Per una lettura più semplificata dei dati ho diviso per 1.000 tutti questi dati, di modo da avere a che fare con numero più alla portata di tutti i giorni.

Queste semplificazioni hanno semplicemente lo scopo di illustrare il concetto trattato in questo articolo.

Solitamente questi dati sono analizzati con programmi informatici (come EXCEL, STATA, MATHLAB, ecc..) che non richiedono per forza queste semplificazioni.

FREQUENZE RELATIVE DEL GRADO DI DIFFICOLTA’ MATEMATICA RISPETTO ALLA ZONA

Prima di inoltrarci con i paraocchi verso il calcolo del chi-quadrato, diamo un’occhiata alle frequenze relative del grado di difficoltà matematica rispetto alla zona di appartenenza.

In altre parole ci stiamo chiedendo quale percentuale dei laureati del nord proviene da facoltà con forte, medio o basso grado di difficoltà della matematica.

In questo modo possiamo già vedere differenze e somiglianze tra le varie zone.

Per ottenere tali frequenze relative è molto semplice.

Basta dividere ogni singola cella di ogni riga per il totale della riga.

Se dividiamo ad esempio nella prima riga il 28,34 per il 74,38 abbiamo la frequenza relativa dei laureati del nord che proviene da università con forte legame con la matematica.

Il risultato 0,38 indica che la percentuale di tali laureati è prossima al 38%.

Osserviamo ora le prime due righe della tabella delle frequenze relative condizionate.

I dati mostrano che le regioni del nord e quelle del centro sono abbastanza simili.

La percentuale relativa alle università del tipo forte è pressoché identica.

Un comportamento un po’ diverso sembra esserci nel sud e nelle isole dove il 53% dei laureati ha scelto una matematica forte  e solo il 14% studia in facoltà con matematica debole.

Sembra proprio che i cittadini del sud propendano di più per la matematica.

PICCOLA NOTA PERSONALE

Dobbiamo considerare comunque altri fattori per una corretta analisi.

In primis la popolazione del sud Italia conta 34,75 migliaia di unità contro quella del nord pari a 74,38 unità.

L’incidenza delle regioni del sud sarà dunque inferiore di quelle del nord.

In secondo luogo non abbiamo considerato la percentuale dei laureati rispetto alla popolazione complessiva della regione.

In terzo luogo non consideriamo il quoziente di difficoltà matematica che nelle regioni del nord è a mio avviso più elevato.

Queste sono considerazioni personali che non hanno supporto in dati concreti, quindi limitiamo a svolgere l’analisi in modo tecnico.

Dopo tutto l’articolo vuole mostrare il concetto di dipendenza attraverso il chi quadro.

Non intendo fare affermazioni del tipo “leghista” che il nord è meglio del sud.

Ogni paese ha una sua identità, ogni singola scuola e ogni singolo professore e studente può fare la differenza.

FREQUENZE TEORICHE DI INDIPENDENZA

Quali frequenze assolute dovremmo osservare teoricamente se la scelta della facoltà unicamente sulla base del fattore matematica fosse indipendente?

Calcoliamo le frequenze teoriche di indipendenza tij.

Queste frequenze rispetto ad ogni frequenza osserva nij moltiplicando il totale della riga i per il totale della colonna j e dividendo per il totale della popolazione.

 ni. rappresenta il totale della riga i, mentre n.j il totale della colonna j.

Ad esempio al posto del 28,34  dovremmo avere il 74,38 (totale della prima riga) moltiplicato per 60,91 (totale della prima colonna), il tutto diviso per 145,83 (totale).

Ovviamente i dati sono stati elaborati con Excel, quindi i più curiosi di voi che si avventurano in questo calcolo potrebbero ottenere risultati lievemente diversi.

L’importante è provare, prendere la calcolatrice e avventurarsi nella grande bolgia della matematica e della statistica.

“Errare umanum est”, dicevano i nostri avi latini.

CONTINGENZE

Le contingenze cij evidenziano lo scostamento tra le frequenze osservate nij e le frequenze teoriche di indipendenza tij.

Latinismi a parte andiamo ora a calcolare le contingenze.

Le calcoliamo proprio sottraendo alle frequenze nij quelle tij. In formule:

Riportiamo dunque sotto le tabelle delle frequenze osservate nij e quella delle frequenze teoriche tij.

A questo punto applichiamo la formula scritta in precedenza.

Ad esempio per l’osservazione che si trova sulla prima riga e sulla prima colonna faremo il seguente calcolo:

Questo dato significa che si sono rilevati 2.730 laureati in meno rispetto alla condizione di perfetta indipendenza tra le variabili FORTE e NORD.

Proseguendo in modo analogo con le altre otteniamo la tabella delle contingenze.

CALCOLO DEL CHI QUADRATO

Una volta che abbiamo le tabelle delle contingenze e quella delle frequenze teoriche di indipendenza passiamo al calcolo del chi-quadrato.

L’indice chi-quadrato si ottiene sommando il quadrato delle contingenze cij divisi per la rispettiva frequenza teorica di indipendenza tij.

MASSIMO VALORE DEL CHI-QUADRATO

Il valore calcolato del chi quadro al punto precedenze ci dice tutto e niente circa l’indipendenza tra le due variabili

Dobbiamo infatti rapportare questo valore al valore potenziale massimo che il chi-quadro può avere.

Tale valore dipende dal numero di unità statistiche considerato e dal numero di modalità delle due variabili.

Tale numero di variabili è identificato con il numero di righe e di colonne della tabella a doppia entrata.

Il chi-quadro massimo si ottiene moltiplicando il numero delle unità della popolazione per il minimo valore tra il numero di righe meno una e il numero di colonne meno una.

Scritto in formula matematica diremo:

Passando ai calcoli otteniamo:

Ovviamente dobbiamo ricordarci che il risultato è in migliaia di unità.

Quindi il vero valore sarebbe 291.630.

CHI-QUADRATO PERCENTUALIZZATO (NORMALIZZATO)

Ora che abbiamo il chi-quadrato effettivo e quello massimo teorico possiamo normalizzare (percentualizzare) l’indice.

Il chi-quadro normalizzato (o percentualizzato si ottiene dividendo il chi-quadro effettivo per il suo valore massimo.

In formule e calcoli scriviamo:

CONCLUSIONI

Il chi-quadrato ottenuto ci sta 0,0184 volte nel chi quadrato. massimo.

La conclusione è che tra i due caratteri esiste una bassissima connessione, pari solamente all’1,84%.

Esiste perciò una bassissima connessione tra la zona di residenza e la propensione verso la matematica.

SCOPRI I VIDEO CORSI DI STATISTICA

Per scoprire di più sull’indice chi-quadrato e sulla statistica bivariata ho preparato questo video-corso per te.

Questo corso di chiama “STATISTICA BASE” ed è il primo dei quattro corsi che costituiscono la saga della Statistica.

Nel corso verranno trattati:

  • Statistica monovariata
  • Statistica bivariata

La statistica monovariata si occupa di analizzare un solo carattere alla volta:

In questa sezione verranno trattati sia a livello teorico, che pratico i caratteri, le loro proprietà, la rappresentazione grafica e il calcolo degli indici

La statistica bivariata si occupa invece di analizzare coppie di caratteri congiuntamente.

Questa sezione è in particolare dedicata all’eterogeneità di una popolazione, alla connessione o dipendenza tra caratteri e alla regressione lineare semplice.

Per ogni argomento troverete sia la parte teorica che la parte pratica.

Approfittane subito perché prezzi così bassi non se ne sono mai visti.

Scopri tutte le caratteristiche di questo corso cliccando sull’immagine della copertina.

Nel link troverete una descrizione completa delle caratteristiche del corso.

Il corso di statistica base è il primo dei 4 corsi dedicati alla statistica, che comprende:

  • Statistica base che tratta della statistica monovariata e bivariata
  • Probabilità in cui troverete i calcoli sulle probabilità, il teorema di Bayes, le variabili casuali discrete Binomiale e Poisson, e le variabili casuali continue con il teorema del limite centrale
  • Inferenza e test di ipotesi, con la stima intervallare e i test di ipotesi sulla media, proporzione e varianza
  • Eserciziario di statistica che comprende tantissimi esercizi su tutti gli argomento trattati.

Leave a Reply