CREARE UN BOX PLOT

In questo articolo vediamo come si costruisce un box-plot detto anche scatola a baffi.

INDICE

1 BOX PLOT – DEFINIZIONE
- 1.1 BOX-PLOT ORIZZONTALE
- 1.2 BOX-PLOT VERTICALE
2 ESEMPIO – CREARE IL BOX-PLOT
3 HAI QUALCHE DOMANDA?
4 IMPARA LA STATISTICA
5 L’ARTICOLO TI è PIACIUTO ?

BOX PLOT – DEFINIZIONE

Il Box-Plot, detto anche scatola a baffi, è un grafico utilizzato per rappresentare di caratteri quantitativi.

Per costruirlo serve calcolare:

Minimo e massimo (non outlier)
Mediana
Quartili
Range outlier
Outlier eventuali

Tipicamente è rappresentato in orizzontale o verticale.

BOX-PLOT ORIZZONTALE

BOX-PLOT VERTICALE

ESEMPIO – CREARE IL BOX-PLOT

Vengono intervistati 10 individui circa la loro spesa annua per il sushi.

Le risposte ai quesiti sono riassunti nella seguente tabella

RIORDINIAMO I DATI

Per prima cosa riordiniamo i dati in ordine crescente:

MINIMO, MASSIMO E RANGE

Dai dati riordinati capiamo che il più piccolo che chiameremo x_min è 70 e il più grande x_max è 1.545.

$$ x_\text{min}= 70 \quad x_\text{max}= 1.542 $$

Ci tengo subito a precisare che non è detto che il minimo e il massimo valore dei dati coincidono con gli estremi del Box-Plot, poiché bisognerà verificare prima se esistono degli outlier.

L’intervallo (o range) dei dati è dato dalla differenza tra il valore massimo e il valore minimo

$$ \text{RANGE} = x_\text{min} – x_\text{max} = 1.542-70 = 1.472 $$

RAPPRESENTAZIONE PRELIMINARE

Possiamo fare una rappresentazione preliminare dei dati

In questo caso siccome tutti i dati si sviluppano tra il 70 e il 1.472 scegliamo come intervallo [0; 1.600].

Come vedete poi scegliamo discrezionalmente di segmentare la linea orizzontale con intervalli di 200.

All’interno della scatola (che potrebbe essere anche un sistema cartesiano) rappresentiamo dei punti che rappresentano i nostri dati di spesa per il sushi.

CALCOLO DELLA MEDIANA E DEI QUARTILI

Cominciamo con il calcolare la posizione della mediana e dei quartili

$$ \text{POS}(\text{Med})= 0,50 \cdot (n+1) = 0,50 \cdot (10+1) = 5,5 $$

$$ \text{POS}(Q_1)= 0,25 \cdot (n+1) = 0,25 \cdot (10+1) = 2,75 $$

$$ \text{POS}(Q_3)= 0,75 \cdot (n+1) = 0,75 \cdot (10+1) = 8,25 $$

Siccome la posizione della mediana si trova esattamente a metà strada tra la posizione 5 e la 6, calcoliamo la media dei valori che ricoprono queste posizioni.

$$ \text{Med}= \frac{350+352}{2} = 351 $$

La posizione del primo quartile Q1 è 2,75, che si trova più vicino alla posizione 3 rispetto alla 2.

Consideriamo quindi come primo quartile l’elementi in terza posizione

$$ Q_1= 127$$

(Da notare ce avremo potuto fare anche fare una interpolazione prendendo 0,25 volte l’elemento in seconda posizione più 0,75 volte l’elemento in terza posizione)

Lo stesso ragionamento vale per il terzo quartile Q3 che trovandosi in posizione 8,25 viene approssimato con la posizione 8, ovvero:

$$ Q_3= 879$$

BOX-PLOT CON SCATOLA CENTRALE

Adesso che abbiamo ottenuto i valori della mediana e dei quartili:

$$ Q_1 = 127 \quad \text{Med}= 351 \quad Q_3= 879 $$

Cominciamo a rappresentare la scatola centrale del Box-Plot.

Gli estremi della scatola sono i quartili, mentre dividiamo la scatola con un segmento centrale che rappresenta la mediana.

DIFFERENZA INTERQUARTILE

Il passaggio successivo consiste nel trovare la differenza interquartile, data dalla differenza tra il terzo e il primo quartile.

Possiamo chiamare sinteticamente questa con IQR acronimo di “InterQuartile Range“

$$ \text{IQR}= Q_3 -Q_1 = 879-127 = 752 $$

CERCHIAMO LE SOGLIE PER GLI OUTLIER

Grazie alla IQR è possibile calcolare il RANGE OUTLIER, ovvero la zona oltre la quale consideriamo i dati come outlier, cioè fuori dal coro.

$$ \text{RANGE OUTLIER} = [S_text{min} , S_text{max}]= [\ Q_1 -1,5 \cdot \text{IQR} ; \ Q_3 +1,5 \cdot \text{IQR} ] $$

Calcoliamo la sogliamo minima Smin e la soglia massima Smax del RANGE OUTLIER

$$ S_text{min} = Q_1 -1,5 \cdot \text{IQR} = 127-1,5 \cdot 752 = -1.001 $$

$$ S_text{max} = Q_3 +1,5 \cdot \text{IQR} = 879-1,5 \cdot 752 = 2.007 $$

$$ \text{RANGE OUTLIER} = [-1.001 , 2.007 ] $$

Confrontando questo intervallo con i nostri valori massimi e minimi delle spese:

$$ x_\text{min}= 70 \quad x_\text{max}= 1.542 $$

Notiamo che non vi sono outlier, perciò il massimo e il minimo del box Plot coincidono con il massimo e il minimo dei dati a nostra disposizione.

Andiamo ora a rappresentare il Box-Plot con tutte le informazioni complete.

HAI QUALCHE DOMANDA?

Se questo articolo ti ha ispirato qualche dubbio scrivi pure la tua domanda nei commenti.

Le tue domande sono molto importanti per tutti gli utenti che hanno i tuoi stessi dubbi.

IMPARA LA STATISTICA

Comincia un fantastico viaggio alla scoperta di questa affascinante materia partendo da zero.

Un percorso che parte dalla statistica descrittiva, passando per le probabilità si arriva all’inferenza.

Comincia subito il tuo percorso e migliora le tue abilità.

ACCEDI AI CORSI

L’ARTICOLO TI è PIACIUTO ?

Se questo contenuto ti è piaciuto e vorresti che anche altri utenti possano goderne di questo ed altri ancora sostieni il progetto offrendomi un semplice caffè virtuale

Questo semplice gesto per me significa moltissimo e può essere un forte impulso per lo sviluppo di tutto il progetto di divulgazione matematica

OFFRIMI UN CAFFÈ

Categorie

8 risposte

Salvatore Panucci ha detto:

18 Febbraio 2022 alle 8:21

ciao Andrea! ho un problema su un quesito di statistica, non riesco a capire la differenza tra il minimo e il massimo tra tutti i valori tra una certa distribuzione di cui l’esercizio mi fornisce i dati e il minimo e il massimo de box plot. In particolare, non riesco mai a capire quando un valore è un outliers. Quando hai tempo rispondimi, grazie!!!

Rispondi
1. Andrea ha detto:
  
  19 Febbraio 2022 alle 12:24
  
  Ciao Salvatore, grazie della domanda.
  Domanda più che legittima direi.
  Uno dei più grossi problemi nella creazione di BOX-PLOT riguarda infatti la differenza tra il massimo e il minimo di una distribuzione e il il massimo e il minimo del box-plot.
  Il massimo e il minimo di una distribuzione sono proprio il valore massimo e quello minimo che osservi.
  Quando costruisci il Box-plot però questi potrebbero essere outlier.
  come dice il nome stesso sono “valori anomali, estremi, bugiardi”.
  Questi valori potrebbero essere qualcosa che è in contraddizione con quello che mi dice la maggior parte dei dati.
  Sono i “bastian contrari”, com i “salmoni” che nuotano contro corrente.
  Potrebbero quindi essere riconducibili ad errori di misurazione.
  Oppure potrebbero essere la famosa “eccezione che conferma la regola”.
  Non so quante volte avrai sentito questa frase per giustificare che “le cose sono così, ma ogni tanto potrebbe esserci una manifestazione strana di quelle cose”.
  Come facciamo a riconoscerli?
  La procedura consiste nell’individuare i due quartieri Q1 e Q3 e la differenza interquarile (Q3-Q1)=IQR.
  IQR sta proprio per InterQuartile Range (Range InterQuartile)
  Ora, a partire dal primo quartile ci spostiamo verso il basso di 1,5 volte IQR.
  facendo:
  Q1-1,5·IQR
  determiniamo quel limite inferiore per intercettare gli outlier.
  se uno dei nostri dati è sotto questa linea è valore anomale.
  Identicamente facciamo la stessa cosa per identificare l’estremo superiore, questa volta a partire dal terzo quartile Q3.
  Q3+1,5·IQR
  Se un dato si trova sopra questa soglia è identicamente classificato come outlier.
  
  Rispondi
Francesco ha detto:

5 Ottobre 2023 alle 21:19

Ciao Andrea, se ho una curva BIMODALE devo considerare 2 curve distinte e quindi calcolare 2 distinti range outliers?

Rispondi
1. Andrea ha detto:
  
  6 Ottobre 2023 alle 14:51
  
  Ciao Francesco
  Partiamo dal presupposto che il Range e la differenza interquartile si applicano alla POPOLAZIONE.
  Quindi il primo passo da fare è calcolarli sull’intera popolazione.
  Detto ciò dobbiamo tenere a mente che nella distribuzione bimodale possono essere riconosciuti due gruppi importanti all’interno della popolazione
  È come se in essa su nascondessero due anime
  Il vero problema è stabilire a cosa sia dovuta questa bipartizione?
  Al sesso?
  Alle abitudini di consumo?
  Questa nuova coscienza ci spinge OLTRE LA POPOLAZIONE.
  Dobbiamo individuare le due anime
  Dunque possiamo riconoscere in questa curva due curve e provare a separarle
  In tal modo possiamo anche studiare due RANGE e due differenze interquartile
  Ricorda che nell’analisi statistica deve essere importante uno scoop o una finalità.
  Se questa suddivisione ci aiuta a raggiungere lo scopo dobbiamo cercare di capire meglio come funzionano le sue curve
  
  Rispondi
  1. Francesco ha detto:
    
    6 Ottobre 2023 alle 15:49
    
    Intanto grazie per la risposta Andrea, sperimenterò! La differenza è dovuta alle abitudini di consumo. Ci sono persone che consumano più di altre. C’è nella statistica un modo per distinguere le due curve? O devo individuare una caratteristica degli individui all’interno della popolazione, ad esempio classificando maschio e femmina per quanto riguarda la distribuzione dell’altezza oppure persona che ogni volta consuma tantissimo e persona che consuma poco? Grazie!
    
    Rispondi
    1. Andrea ha detto:
      
      6 Ottobre 2023 alle 16:41
      
      La questione della diffusione
      Può essere matematica e questo parte dall’osservazione dei due rami di cui si fanno delle ipotesi.
      Dopo di che si cerca il potenziale discriminante
      Il sesso potrebbe essere uno
      E si fanno dei test suddividendo la popolazione in queste due categorie
      Ad esempio dei test che confermano una differenza di media è di varianza tra i due gruppi tanto per cominciare
      
      Rispondi
Angela ha detto:

16 Gennaio 2024 alle 9:50

ciao , ma come faccio a calcolare il baffo inferiore e quello superiore

Rispondi
1. Andrea ha detto:
  
  16 Gennaio 2024 alle 11:35
  
  BAFFO SUPERIORE = MAX – Q3
  BAFFO INFERIORE = Q1 – MIN
  
  Rispondi