Skip to main content
creare un box-plot

BOX PLOT – DEFINIZIONE

Il Box-Plot, detto anche scatola a baffi, è un grafico utilizzato per rappresentare di caratteri quantitativi.

Per costruirlo serve calcolare:

  • Minimo e massimo (non outlier)
  • Mediana
  • Quartili
  • Range outlier
  • Outlier eventuali

Tipicamente è rappresentato in orizzontale o verticale.

BOX-PLOT ORIZZONTALE

creare un box-plot

BOX-PLOT VERTICALE

creare un box-plot

ESEMPIO – CREARE IL BOX-PLOT

Vengono intervistati 10 individui circa la loro spesa annua per il sushi.

Le risposte ai quesiti sono riassunti nella seguente tabella

creare un box-plot

RIORDINIAMO I DATI

Per prima cosa riordiniamo i dati in ordine crescente:

creare un box-plot

MINIMO, MASSIMO E RANGE

Dai dati riordinati capiamo che il più piccolo che chiameremo x_min è 70 e il più grande x_max è 1.545.

Ci tengo subito a precisare che non è detto che il minimo e il massimo valore dei dati coincidono con gli estremi del Box-Plot, poiché bisognerà verificare prima se esistono degli outlier.

L’intervallo (o range) dei dati è dato dalla differenza tra il valore massimo e il valore minimo

RAPPRESENTAZIONE PRELIMINARE

Possiamo fare una rappresentazione preliminare dei dati

creare un box-plot

In questo caso siccome tutti i dati si sviluppano tra il 70 e il 1.472 scegliamo come intervallo [0; 1.600].

Come vedete poi scegliamo discrezionalmente di segmentare la linea orizzontale con intervalli di 200.

All’interno della scatola (che potrebbe essere anche un sistema cartesiano) rappresentiamo dei punti che rappresentano i nostri dati di spesa per il sushi.

creare un box-plot

CALCOLO DELLA MEDIANA E DEI QUARTILI

Cominciamo con il calcolare la posizione della mediana e dei quartili

Siccome la posizione della mediana si trova esattamente a metà strada tra la posizione 5 e la 6, calcoliamo la media dei valori che ricoprono queste posizioni.

La posizione del primo quartile Q1 è 2,75, che si trova più vicino alla posizione 3 rispetto alla 2.

Consideriamo quindi come primo quartile l’elementi in terza posizione

Lo stesso ragionamento vale per il terzo quartile che trovandosi in posizione 8,25 viene approssimato con la posizione 8, ovvero:

creare un box-plot

BOX-PLOT CON SCATOLA CENTRALE

Adesso che abbiamo ottenuto i valori della mediana e dei quartili:

Cominciamo a rappresentare la scatola centrale del Box-Plot.

Gli estremi della scatola sono i quartili, mentre dividiamo la scatola con un segmento centrale che rappresenta la mediana.

creare un box-plot

DIFFERENZA INTERQUARTILE

Il passaggio successivo consiste nel trovare la differenza interquartile, data dalla differenza tra il terzo e il primo quartile.

Possiamo chiamare sinteticamente questa con IQR acronimo di “InterQuartile Range

CERCHIAMO LE SOGLIE PER GLI OUTLIER

Grazie alla IQR è possibile calcolare il RANGE OUTLIER, ovvero la zona oltre la quale consideriamo i dati come outlier, cioè fuori dal coro.

Calcoliamo la sogliamo minima Smin e la soglia massima Smax del RANGE OUTLIER

Confrontando questo intervallo con i nostri valori massimi e minimi delle spese:

Notiamo che non vi sono outlier, perciò il massimo e il minimo del box Plot coincidono con il massimo e il minimo dei dati a nostra disposizione.

Andiamo ora a rappresentare il Box-Plot con tutte le informazioni complete.

creare un box-plot

VIDEO SUL BOX-PLOT

Guarda anche questo video per comprendere meglio l’argomento

scopri i l canale youtube di andrea il matematico

HAI QUALCHE DOMANDA SUL BOX-PLOT?

Se hai qualche domanda scrivila sotto nei commenti.

Altri utenti potrebbero avere domande simili alle tue e in questo modo potrai aiutarli a risolvere i loro dubbi.

Se vuoi approfondire l’argomento, dai un’occhiata ai corsi di statistica.

8 Comments

  • Salvatore Panucci ha detto:

    ciao Andrea! ho un problema su un quesito di statistica, non riesco a capire la differenza tra il minimo e il massimo tra tutti i valori tra una certa distribuzione di cui l’esercizio mi fornisce i dati e il minimo e il massimo de box plot. In particolare, non riesco mai a capire quando un valore è un outliers. Quando hai tempo rispondimi, grazie!!!

    • Andrea ha detto:

      Ciao Salvatore, grazie della domanda.
      Domanda più che legittima direi.
      Uno dei più grossi problemi nella creazione di BOX-PLOT riguarda infatti la differenza tra il massimo e il minimo di una distribuzione e il il massimo e il minimo del box-plot.
      Il massimo e il minimo di una distribuzione sono proprio il valore massimo e quello minimo che osservi.
      Quando costruisci il Box-plot però questi potrebbero essere outlier.
      come dice il nome stesso sono “valori anomali, estremi, bugiardi”.
      Questi valori potrebbero essere qualcosa che è in contraddizione con quello che mi dice la maggior parte dei dati.
      Sono i “bastian contrari”, com i “salmoni” che nuotano contro corrente.
      Potrebbero quindi essere riconducibili ad errori di misurazione.
      Oppure potrebbero essere la famosa “eccezione che conferma la regola”.
      Non so quante volte avrai sentito questa frase per giustificare che “le cose sono così, ma ogni tanto potrebbe esserci una manifestazione strana di quelle cose”.
      Come facciamo a riconoscerli?
      La procedura consiste nell’individuare i due quartieri Q1 e Q3 e la differenza interquarile (Q3-Q1)=IQR.
      IQR sta proprio per InterQuartile Range (Range InterQuartile)
      Ora, a partire dal primo quartile ci spostiamo verso il basso di 1,5 volte IQR.
      facendo:
      Q1-1,5·IQR
      determiniamo quel limite inferiore per intercettare gli outlier.
      se uno dei nostri dati è sotto questa linea è valore anomale.
      Identicamente facciamo la stessa cosa per identificare l’estremo superiore, questa volta a partire dal terzo quartile Q3.
      Q3+1,5·IQR
      Se un dato si trova sopra questa soglia è identicamente classificato come outlier.

  • Francesco ha detto:

    Ciao Andrea, se ho una curva BIMODALE devo considerare 2 curve distinte e quindi calcolare 2 distinti range outliers?

    • Andrea ha detto:

      Ciao Francesco
      Partiamo dal presupposto che il Range e la differenza interquartile si applicano alla POPOLAZIONE.
      Quindi il primo passo da fare è calcolarli sull’intera popolazione.
      Detto ciò dobbiamo tenere a mente che nella distribuzione bimodale possono essere riconosciuti due gruppi importanti all’interno della popolazione
      È come se in essa su nascondessero due anime
      Il vero problema è stabilire a cosa sia dovuta questa bipartizione?
      Al sesso?
      Alle abitudini di consumo?
      Questa nuova coscienza ci spinge OLTRE LA POPOLAZIONE.
      Dobbiamo individuare le due anime
      Dunque possiamo riconoscere in questa curva due curve e provare a separarle
      In tal modo possiamo anche studiare due RANGE e due differenze interquartile
      Ricorda che nell’analisi statistica deve essere importante uno scoop o una finalità.
      Se questa suddivisione ci aiuta a raggiungere lo scopo dobbiamo cercare di capire meglio come funzionano le sue curve

      • Francesco ha detto:

        Intanto grazie per la risposta Andrea, sperimenterò! La differenza è dovuta alle abitudini di consumo. Ci sono persone che consumano più di altre. C’è nella statistica un modo per distinguere le due curve? O devo individuare una caratteristica degli individui all’interno della popolazione, ad esempio classificando maschio e femmina per quanto riguarda la distribuzione dell’altezza oppure persona che ogni volta consuma tantissimo e persona che consuma poco? Grazie!

        • Andrea ha detto:

          La questione della diffusione
          Può essere matematica e questo parte dall’osservazione dei due rami di cui si fanno delle ipotesi.
          Dopo di che si cerca il potenziale discriminante
          Il sesso potrebbe essere uno
          E si fanno dei test suddividendo la popolazione in queste due categorie
          Ad esempio dei test che confermano una differenza di media è di varianza tra i due gruppi tanto per cominciare

  • Angela ha detto:

    ciao , ma come faccio a calcolare il baffo inferiore e quello superiore

Leave a Reply