
DEFINIZIONE SINTENTICA
L’indice di eterogeneità di Gini fornisce una misura del grado di eterogeneità presente in una data popolazione.
ETEROGENEITA’
Per prima cosa faccio vi ragionare sul concetto di eterogeneità.
Cosa vuol dire questo termine?
La parola eterogeneità deriva dalla parola greca heterogenes, composto dalle parole “heteros” e “genes“.
“heteros“, tradotto come etero, significa diverso.
“genes” ha come radice “gen“, che significa generare.
Noi comunque diremmo di diverso genere.
ETEROGENEITA’ SECONDO LA STATISTICA
Una popolazione è più eterogenea di un’altra popolazione quando all’interno presenta una più ampia varietà di modalità molto simili in quanto a numerosità.
La situazione di massima eterogeneità la abbiamo quando è presente una situazione di equi-distribuzione.
Tale situazione si presenta nel momento in cui tutte le modalità considerate presentano la stessa numerosità.
Avremo la situazione esattamente opposta ovvero minima eterogeneità nel momento in cui delle k modalità che possiede un certo carattere se ne manifesta solamente una.
Quando tutte le unità statistiche di una popolazione presentano la stessa modalità di un carattere si verifica una situazione di minima eterogeneità.
Parliamo qui di popolazione omogenea, in cui è presente un solo genere.
L’ESEMPIO DELLE TRE FATTORIE
Pensate ad esempio a trovarvi di fronte tre fattorie ognuna delle quali ha 8 animali.
Nella fattoria numero uno abbiamo 2 cavalli, 2 maialini e 2 mucche e 2 pecore.
Nella seconda fattoria abbiamo invece 4 cavalli, 2 maialini, una pecora e una mucca.
Infine nell’ultima fattoria troviamo 6 cavalli un maialino e una è una mucca.

Ora, se vi ponesse la domanda: “qual è la fattoria più eterogenea?” basterebbe dare una veloce occhiata Alle Fattorie per rendervi conto di quale sia.

La maggior parte di voi sosterrà che quella più eterogenea è la prima in quanto presenta tutte e quattro le specie nella stessa misura.
In quanto tale è perciò quella che presenta una maggiore equi-distribuzione e quindi anche una più evidente diversità di genere.
Certamente la meno eterogenea è l’ultima fattoria che presenta meno delle quattro specie e una distribuzione più disomogenea.
Nell’ultima fattoria la specie “dominante” sono i cavalli che contano ben 6 esemplari, mentre di mucche e maialini ne troviamo solo uno.
Ma come possiamo fare a quantizzare all’interno della statistica questo fenomeno?
INDICE DI ETEROGEITA’ DI GINI
Per farlo ci serviamo dell’ indice di eterogeneità di Gini che diciamo si usa solo prevalentemente per i caratteri qualitativi.
L’indice di eterogeneità di Gini misura l’eterogeneità di una distribuzione statistica, quindi di una certa popolazione, sulla base delle modalità e della numerosità con cui tali modalità si presentano.
Questo indice è un numero compreso tra zero e uno.

CALCOLO DELL’INDICE DI GINI
La formula per calcolarlo è la seguente:

Quindi per calcolare l’indice di Gini di una certa popolazione dobbiamo sottrarre a 1 la sommatoria dei quadrati delle frequenze relative.
GINI CORRETTO (NORMALIZZATO)
Si suole normalizzare questo indice qui nel indice normalizzato decimi lo si ottiene moltiplicando l’indice di Gini che abbiamo per k (che indica il numero delle modalità) e dividendolo per k-1.
La formula per calcolare l’indice di Gini corretto è la seguente:

In questo modo otteniamo l’indice normalizzato di Gini.
Un indice normalizzato ha come valore minimo 0 e come valore massimo 1.
Interpretare questo valore è molto semplice.
Quando l’indice normalizzato assume valore zero diciamo che nella popolazione che minima eterogeneità, il che significa massima omogeneità.
Detto in altre parole questo si verificherebbe quando abbiamo una fattoria che ha solo cavalli.
Quando l’l’indice di Gini normalizzato assume valore massimo, ovvero uno, la popolazione presenta la massima eterogeneità.
In questo caso avremo che tutte le modalità presentano la stessa frequenza, cioè sono presenti tutte in egual misura.
È proprio il caso della prima fattoria.

TABELLA DELLE FREQUENZE ASSOLUTE
Torniamo ora alle nostre fattorie.
Possiamo costruire una tabella di frequenza appunto della frequenza circa i cavalli, i maiali, le mucche e le pecore all’interno delle varie fattoria.
Sulle righe della tabella mettiamo proprio le quattro modalità, mentre le colonne indicano le fattorie.
Otteniamo una tabella di frequenza fatta in questo modo:

Se leggiamo la prima colonna, relativa alla prima fattoria vedremo che ci sono 2 cavalli, 2 maialini e 2 mucche e 2 pecore.
Mentre se leggiamo la prima riga, quella dei cavalli, vediamo che nella prima fattoria ci sono 2 cavalli, nella seconda 4 cavalli e nella terza 6 cavalli.
Ovviamente per quello che ci interessa a noi leggiamo questa tabella per colonne.
Ci interessa evidenziare la diversità in termini di termini di eterogeneità
TABELLA DELLE FREQUENZE RELATIVE
A questo punto andiamo a calcolare le frequenze relative che ci servono per applicare la formula di Gini.
Per ottenerle ci basta dividere la frequenza assoluta di ogni colonna per il totale.
Ad esempio per calcolare la frequenza relativa dei cavalli nella prima fattoria dividiamo 2, il numero dei cavalli, per 8, il numero totale degli animali, ottenendo 2/8, cioè 1/4 ovvero 0,25.
Facciamo la stessa cosa per tutti gli altri dati presenti e otteniamo la seguente tabella.

INDICE DI GINI
Adesso calcoliamo l’indice di eterogeneità di Gini applicando la seguente formula per ognuna delle tre fattorie.

Nella prima fattoria otteniamo:

Passiamo alla seconda fattoria.
Infine la terza.

Come possiamo osservare la prima fattoria presenta un indice di eterogeneità maggiore, mentre la terza fattoria rileva l’indice minore.
Per questo possiamo concludere che la prima fattoria è la più eterogenea, mentre l’ultima è la meno eterogenea.

INDICE DI GINI CORRETTO
In realtà questo risultato ci può andare bene fin tanto che le popolazioni presentano lo stesso numero di unità statistiche e lo stesso numero di modalità.
In tutte e tre le fattorie c’erano 8 animali e li abbiamo suddivisi in quattro specie.
Per un risultato migliore e più attendibile abbiamo bisogno di normalizzare questo indice.
Applichiamo pertanto la seguente formula:
Dove k è il numero delle modalità
Dunque dobbiamo moltiplicare per 4/3 ognuno degli indici trovati per calcolare l’indice normalizzato.
Facciamo i conti

Come era lecito attendersi nella prima fattoria abbiamo trovato la massima eterogeneità possibile, con l’indice normalizzato pari al suo valore massimo 1.
SCOPRI DI PIU’
Per scoprire di più sull’indice chi-quadrato e sulla statistica bivariata ho preparato questo corso per te.
Questo corso di chiama “STATISTICA BASE” ed è il primo dei quattro corsi che costituiscono la saga della Statistica.
Nel corso verranno trattati:
- Statistica monovariata
- Statistica bivariata
La statistica monovariata si occupa di analizzare un solo carattere alla volta:
In questa sezione verranno trattati sia a livello teorico, che pratico i caratteri, le loro proprietà, la rappresentazione grafica e il calcolo degli indici
La statistica bivariata si occupa invece di analizzare coppie di caratteri congiuntamente.
Questa sezione è in particolare dedicata all’eterogeneità di una popolazione, alla connessione o dipendenza tra caratteri e alla regressione lineare semplice.
Per ogni argomento troverete sia la parte teorica che la parte pratica.
Nella parte pratica vi aiuterò a capire come si utilizza Excel per fare i calcoli.
Approfittane subito perché prezzi così bassi non se ne sono mai visti.
Scopri tutte le caratteristiche di questo corso cliccando sull’immagine della copertina.

Nel link troverete una descrizione completa delle caratteristiche del corso.
Il corso di statistica base è il primo dei 4 corso dedicati alla statistica, che comprende:
- Statistica base che tratta della statistica monovariata e bivariata
- Probabilità in cui troverete i calcoli sulle probabilità, il teorema di Bayes, le variabili casuali discrete Binomiale e Poisson, e le variabili casuali continue con il teorema del limite centrale
- Inferenza e test di ipotesi, con la stima intervallare e i test di ipotesi sulla media, proporzione e varianza
- Eserciziario di statistica che comprende tantissimi esercizi su tutti gli argomento trattati.

Quando si usa l’indice di eterogeneità di Gini e quando invece la varianza? Perchè ad esempio quando ho una distribuzione in classi mi parrebbero andar bene entrambi i metodi, ma la consegna a volte dice non specificando “utilizzare l’indice di diversità più opportuno”.
Ciao Alessia
La varianza è un indice di volatilità o dispersione attorno alla media
Si utilizza perciò per vedere quanto una serie di dati è dispersa rispetto al valore centrale
(Ovviamente si applica solo ai dati numerici e sarebbe sempre meglio calcolare dev standard e Cv)
Mentre l’indice di Gini è un indice di ETEROGENEITÀ
Può essere applicato anche ai dati qualitativi
E misura quando è normalizzato su una scala da 0 a 1 quando le componenti della popolazione siano diverse tra di loro
Quando viene applicato a dati quantitativi come ad esempio il reddito funge più da indicatore di disparità economica
Sicuramente in questo caso possiamo dire che:
Più la popolazione è omogenea minore varianza ci sarà
Mentre se avviene il contrario ovvero la popolazione è eterogenea succede il contrario