In questo articolo vediamo come si costruisce un box-plot detto anche scatola a baffi.
INDICE
BOX PLOT – DEFINIZIONE
Il Box-Plot, detto anche scatola a baffi, è un grafico utilizzato per rappresentare di caratteri quantitativi.
Per costruirlo serve calcolare:
- Minimo e massimo (non outlier)
- Mediana
- Quartili
- Range outlier
- Outlier eventuali
Tipicamente è rappresentato in orizzontale o verticale.
BOX-PLOT ORIZZONTALE

BOX-PLOT VERTICALE

ESEMPIO – CREARE IL BOX-PLOT
Vengono intervistati 10 individui circa la loro spesa annua per il sushi.
Le risposte ai quesiti sono riassunti nella seguente tabella

RIORDINIAMO I DATI
Per prima cosa riordiniamo i dati in ordine crescente:

MINIMO, MASSIMO E RANGE
Dai dati riordinati capiamo che il più piccolo che chiameremo x_min è 70 e il più grande x_max è 1.545.
$$ x_\text{min}= 70 \quad x_\text{max}= 1.542 $$
Ci tengo subito a precisare che non è detto che il minimo e il massimo valore dei dati coincidono con gli estremi del Box-Plot, poiché bisognerà verificare prima se esistono degli outlier.
L’intervallo (o range) dei dati è dato dalla differenza tra il valore massimo e il valore minimo
$$ \text{RANGE} = x_\text{min} – x_\text{max} = 1.542-70 = 1.472 $$
RAPPRESENTAZIONE PRELIMINARE
Possiamo fare una rappresentazione preliminare dei dati

In questo caso siccome tutti i dati si sviluppano tra il 70 e il 1.472 scegliamo come intervallo [0; 1.600].
Come vedete poi scegliamo discrezionalmente di segmentare la linea orizzontale con intervalli di 200.
All’interno della scatola (che potrebbe essere anche un sistema cartesiano) rappresentiamo dei punti che rappresentano i nostri dati di spesa per il sushi.

CALCOLO DELLA MEDIANA E DEI QUARTILI
Cominciamo con il calcolare la posizione della mediana e dei quartili
$$ \text{POS}(\text{Med})= 0,50 \cdot (n+1) = 0,50 \cdot (10+1) = 5,5 $$
$$ \text{POS}(Q_1)= 0,25 \cdot (n+1) = 0,25 \cdot (10+1) = 2,75 $$
$$ \text{POS}(Q_3)= 0,75 \cdot (n+1) = 0,75 \cdot (10+1) = 8,25 $$
Siccome la posizione della mediana si trova esattamente a metà strada tra la posizione 5 e la 6, calcoliamo la media dei valori che ricoprono queste posizioni.
$$ \text{Med}= \frac{350+352}{2} = 351 $$
La posizione del primo quartile Q1 è 2,75, che si trova più vicino alla posizione 3 rispetto alla 2.
Consideriamo quindi come primo quartile l’elementi in terza posizione
$$ Q_1= 127$$
(Da notare ce avremo potuto fare anche fare una interpolazione prendendo 0,25 volte l’elemento in seconda posizione più 0,75 volte l’elemento in terza posizione)
Lo stesso ragionamento vale per il terzo quartile Q3 che trovandosi in posizione 8,25 viene approssimato con la posizione 8, ovvero:
$$ Q_3= 879$$

BOX-PLOT CON SCATOLA CENTRALE
Adesso che abbiamo ottenuto i valori della mediana e dei quartili:
$$ Q_1 = 127 \quad \text{Med}= 351 \quad Q_3= 879 $$
Cominciamo a rappresentare la scatola centrale del Box-Plot.
Gli estremi della scatola sono i quartili, mentre dividiamo la scatola con un segmento centrale che rappresenta la mediana.

DIFFERENZA INTERQUARTILE
Il passaggio successivo consiste nel trovare la differenza interquartile, data dalla differenza tra il terzo e il primo quartile.
Possiamo chiamare sinteticamente questa con IQR acronimo di “InterQuartile Range“
$$ \text{IQR}= Q_3 -Q_1 = 879-127 = 752 $$

CERCHIAMO LE SOGLIE PER GLI OUTLIER
Grazie alla IQR è possibile calcolare il RANGE OUTLIER, ovvero la zona oltre la quale consideriamo i dati come outlier, cioè fuori dal coro.
$$ \text{RANGE OUTLIER} = [S_text{min} , S_text{max}]= [\ Q_1 -1,5 \cdot \text{IQR} ; \ Q_3 +1,5 \cdot \text{IQR} ] $$
Calcoliamo la sogliamo minima Smin e la soglia massima Smax del RANGE OUTLIER
$$ S_text{min} = Q_1 -1,5 \cdot \text{IQR} = 127-1,5 \cdot 752 = -1.001 $$
$$ S_text{max} = Q_3 +1,5 \cdot \text{IQR} = 879-1,5 \cdot 752 = 2.007 $$
$$ \text{RANGE OUTLIER} = [-1.001 , 2.007 ] $$
Confrontando questo intervallo con i nostri valori massimi e minimi delle spese:
$$ x_\text{min}= 70 \quad x_\text{max}= 1.542 $$
Notiamo che non vi sono outlier, perciò il massimo e il minimo del box Plot coincidono con il massimo e il minimo dei dati a nostra disposizione.
Andiamo ora a rappresentare il Box-Plot con tutte le informazioni complete.

HAI QUALCHE DOMANDA?
Se questo articolo ti ha ispirato qualche dubbio scrivi pure la tua domanda nei commenti.
Le tue domande sono molto importanti per tutti gli utenti che hanno i tuoi stessi dubbi.
IMPARA LA STATISTICA
Comincia un fantastico viaggio alla scoperta di questa affascinante materia partendo da zero.
Un percorso che parte dalla statistica descrittiva, passando per le probabilità si arriva all’inferenza.
Comincia subito il tuo percorso e migliora le tue abilità.
L’ARTICOLO TI è PIACIUTO ?
Se questo contenuto ti è piaciuto e vorresti che anche altri utenti possano goderne di questo ed altri ancora sostieni il progetto offrendomi un semplice caffè virtuale
Questo semplice gesto per me significa moltissimo e può essere un forte impulso per lo sviluppo di tutto il progetto di divulgazione matematica
8 risposte
ciao Andrea! ho un problema su un quesito di statistica, non riesco a capire la differenza tra il minimo e il massimo tra tutti i valori tra una certa distribuzione di cui l’esercizio mi fornisce i dati e il minimo e il massimo de box plot. In particolare, non riesco mai a capire quando un valore è un outliers. Quando hai tempo rispondimi, grazie!!!
Ciao Salvatore, grazie della domanda.
Domanda più che legittima direi.
Uno dei più grossi problemi nella creazione di BOX-PLOT riguarda infatti la differenza tra il massimo e il minimo di una distribuzione e il il massimo e il minimo del box-plot.
Il massimo e il minimo di una distribuzione sono proprio il valore massimo e quello minimo che osservi.
Quando costruisci il Box-plot però questi potrebbero essere outlier.
come dice il nome stesso sono “valori anomali, estremi, bugiardi”.
Questi valori potrebbero essere qualcosa che è in contraddizione con quello che mi dice la maggior parte dei dati.
Sono i “bastian contrari”, com i “salmoni” che nuotano contro corrente.
Potrebbero quindi essere riconducibili ad errori di misurazione.
Oppure potrebbero essere la famosa “eccezione che conferma la regola”.
Non so quante volte avrai sentito questa frase per giustificare che “le cose sono così, ma ogni tanto potrebbe esserci una manifestazione strana di quelle cose”.
Come facciamo a riconoscerli?
La procedura consiste nell’individuare i due quartieri Q1 e Q3 e la differenza interquarile (Q3-Q1)=IQR.
IQR sta proprio per InterQuartile Range (Range InterQuartile)
Ora, a partire dal primo quartile ci spostiamo verso il basso di 1,5 volte IQR.
facendo:
Q1-1,5·IQR
determiniamo quel limite inferiore per intercettare gli outlier.
se uno dei nostri dati è sotto questa linea è valore anomale.
Identicamente facciamo la stessa cosa per identificare l’estremo superiore, questa volta a partire dal terzo quartile Q3.
Q3+1,5·IQR
Se un dato si trova sopra questa soglia è identicamente classificato come outlier.
Ciao Andrea, se ho una curva BIMODALE devo considerare 2 curve distinte e quindi calcolare 2 distinti range outliers?
Ciao Francesco
Partiamo dal presupposto che il Range e la differenza interquartile si applicano alla POPOLAZIONE.
Quindi il primo passo da fare è calcolarli sull’intera popolazione.
Detto ciò dobbiamo tenere a mente che nella distribuzione bimodale possono essere riconosciuti due gruppi importanti all’interno della popolazione
È come se in essa su nascondessero due anime
Il vero problema è stabilire a cosa sia dovuta questa bipartizione?
Al sesso?
Alle abitudini di consumo?
Questa nuova coscienza ci spinge OLTRE LA POPOLAZIONE.
Dobbiamo individuare le due anime
Dunque possiamo riconoscere in questa curva due curve e provare a separarle
In tal modo possiamo anche studiare due RANGE e due differenze interquartile
Ricorda che nell’analisi statistica deve essere importante uno scoop o una finalità.
Se questa suddivisione ci aiuta a raggiungere lo scopo dobbiamo cercare di capire meglio come funzionano le sue curve
Intanto grazie per la risposta Andrea, sperimenterò! La differenza è dovuta alle abitudini di consumo. Ci sono persone che consumano più di altre. C’è nella statistica un modo per distinguere le due curve? O devo individuare una caratteristica degli individui all’interno della popolazione, ad esempio classificando maschio e femmina per quanto riguarda la distribuzione dell’altezza oppure persona che ogni volta consuma tantissimo e persona che consuma poco? Grazie!
La questione della diffusione
Può essere matematica e questo parte dall’osservazione dei due rami di cui si fanno delle ipotesi.
Dopo di che si cerca il potenziale discriminante
Il sesso potrebbe essere uno
E si fanno dei test suddividendo la popolazione in queste due categorie
Ad esempio dei test che confermano una differenza di media è di varianza tra i due gruppi tanto per cominciare
ciao , ma come faccio a calcolare il baffo inferiore e quello superiore
BAFFO SUPERIORE = MAX – Q3
BAFFO INFERIORE = Q1 – MIN