
BOX PLOT – DEFINIZIONE
Il Box-Plot, detto anche scatola a baffi, è un grafico utilizzato per rappresentare di caratteri quantitativi.
Per costruirlo serve calcolare:
- Minimo e massimo (non outlier)
- Mediana
- Quartili
- Range outlier
- Outlier eventuali
Tipicamente è rappresentato in orizzontale o verticale.
BOX-PLOT ORIZZONTALE

BOX-PLOT VERTICALE

ESEMPIO
Vengono intervistati 10 individui circa la loro spesa annua per il sushi.
Le risposte ai quesiti sono riassunti nella seguente tabella

RIORDINIAMO I DATI
Per prima cosa riordiniamo i dati in ordine crescente:

MINIMO, MASSIMO E RANGE
Dai dati riordinati capiamo che il più piccolo che chiameremo x_min è 70 e il più grande x_max è 1.545.


Ci tengo subito a precisare che non è detto che il minimo e il massimo valore dei dati coincidono con gli estremi del Box-Plot, poiché bisognerà verificare prima se esistono degli outlier.
L’intervallo (o range) dei dati è dato dalla differenza tra il valore massimo e il valore minimo

RAPPRESENTAZIONE PRELIMINARE
Possiamo fare una rappresentazione preliminare dei dati

In questo caso siccome tutti i dati si sviluppano tra il 70 e il 1.472 scegliamo come intervallo [0; 1.600].
Come vedete poi scegliamo discrezionalmente di segmentare la linea orizzontale con intervalli di 200.
All’interno della scatola (che potrebbe essere anche un sistema cartesiano) rappresentiamo dei punti che rappresentano i nostri dati di spesa per il sushi.

CALCOLO DELLA MEDIANA E DEI QUARTILI
Cominciamo con il calcolare la posizione della mediana e dei quartili



Siccome la posizione della mediana si trova esattamente a metà strada tra la posizione 5 e la 6, calcoliamo la media dei valori che ricoprono queste posizioni.

La posizione del primo quartile Q1 è 2,75, che si trova più vicino alla posizione 3 rispetto alla 2.
Consideriamo quindi come primo quartile l’elementi in terza posizione

Lo stesso ragionamento vale per il terzo quartile che trovandosi in posizione 8,25 viene approssimato con la posizione 8, ovvero:


BOX-PLOT CON SCATOLA CENTRALE
Adesso che abbiamo ottenuto i valori della mediana e dei quartili:



Cominciamo a rappresentare la scatola centrale del Box-Plot.
Gli estremi della scatola sono i quartili, mentre dividiamo la scatola con un segmento centrale che rappresenta la mediana.

DIFFERENZA INTERQUARTILE
Il passaggio successivo consiste nel trovare la differenza interquartile, data dalla differenza tra il terzo e il primo quartile.
Possiamo chiamare sinteticamente questa con IQR acronimo di “InterQuartile Range“

CERCHIAMO LE SOGLIE PER GLI OUTLIER
Grazie alla IQR è possibile calcolare il RANGE OUTLIER, ovvero la zona oltre la quale consideriamo i dati come outlier, cioè fuori dal coro.

Calcoliamo la sogliamo minima Smin e la soglia massima Smax del RANGE OUTLIER



Confrontando questo intervallo con i nostri valori massimi e minimi delle spese:

Notiamo che non vi sono outlier, perciò il massimo e il minimo del box Plot coincidono con il massimo e il minimo dei dati a nostra disposizione.
Andiamo ora a rappresentare il Box-Plot con tutte le informazioni complete.

HAI QUALCHE DOMANDA SUL BOX-PLOT?
Se hai qualche domanda scrivila sotto nei commenti.
Altri utenti potrebbero avere domande simili alle tue e in questo modo potrai aiutarli a risolvere i loro dubbi.
Se vuoi approfondire l’argomento, dai un’occhiata ai corsi di statistica.
ciao Andrea! ho un problema su un quesito di statistica, non riesco a capire la differenza tra il minimo e il massimo tra tutti i valori tra una certa distribuzione di cui l’esercizio mi fornisce i dati e il minimo e il massimo de box plot. In particolare, non riesco mai a capire quando un valore è un outliers. Quando hai tempo rispondimi, grazie!!!
Ciao Salvatore, grazie della domanda.
Domanda più che legittima direi.
Uno dei più grossi problemi nella creazione di BOX-PLOT riguarda infatti la differenza tra il massimo e il minimo di una distribuzione e il il massimo e il minimo del box-plot.
Il massimo e il minimo di una distribuzione sono proprio il valore massimo e quello minimo che osservi.
Quando costruisci il Box-plot però questi potrebbero essere outlier.
come dice il nome stesso sono “valori anomali, estremi, bugiardi”.
Questi valori potrebbero essere qualcosa che è in contraddizione con quello che mi dice la maggior parte dei dati.
Sono i “bastian contrari”, com i “salmoni” che nuotano contro corrente.
Potrebbero quindi essere riconducibili ad errori di misurazione.
Oppure potrebbero essere la famosa “eccezione che conferma la regola”.
Non so quante volte avrai sentito questa frase per giustificare che “le cose sono così, ma ogni tanto potrebbe esserci una manifestazione strana di quelle cose”.
Come facciamo a riconoscerli?
La procedura consiste nell’individuare i due quartieri Q1 e Q3 e la differenza interquarile (Q3-Q1)=IQR.
IQR sta proprio per InterQuartile Range (Range InterQuartile)
Ora, a partire dal primo quartile ci spostiamo verso il basso di 1,5 volte IQR.
facendo:
Q1-1,5·IQR
determiniamo quel limite inferiore per intercettare gli outlier.
se uno dei nostri dati è sotto questa linea è valore anomale.
Identicamente facciamo la stessa cosa per identificare l’estremo superiore, questa volta a partire dal terzo quartile Q3.
Q3+1,5·IQR
Se un dato si trova sopra questa soglia è identicamente classificato come outlier.