adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

Boxplot: i 5 numeri fondamentali

YouTube video
Postato il 15 Dicembre 2021
Tag

Il Boxplot, chiamato anche grafico a scatola e baffi per la sua forma geometrica, è una rappresentazione grafica molto importante, utilizzata nell’ambito della statistica descrittiva per estrapolare informazioni riguardanti la distribuzione di una variabile quantitativa numerica, prevalentemente continua, ma volendo anche discreta.

Dal punto di vista estetico, il Boxplot si può presentare in verticale dove i valori della variabile numerica saranno posizionati lungo il bordo verticale del grafico, oppure in orizzontale dove verranno messi lungo il bordo orizzontale inferiore.

Inoltre, si possono affiancare piú Boxplot tra di loro, per confrontare le diverse distribuzioni all’interno di una variabile categoriale.

Di seguito un esempio pratico in cui un fenomeno è diviso in due, e pertanto si affiancano due Boxplot.

Boxplot
Boxplot affiancati

Rappresentazione grafica del Boxplot

Il Boxplot è formato da 5 numeri fondamentali, che puoi vedere rappresentati nel grafico qui sotto, e che sono:

  1. Il troncamento inferiore
  2. Il primo quartile (Q1)
  3. La mediana (Q2)
  4. Il terzo quartile (Q3)
  5. Il troncamento superiore

Per spiegarti, inoltre, come si legge un Boxplot devi sapere che è formato essenzialmente da 3 elementi grafici:

L'estremitá

I due baffi che si trovano all’estremitá del grafico delimitano l’inizio e la fine dei dati che bisognerebbe prendere in considerazione.

Se il limite inferiore coincide con il minimo della distribuzione e il limite superiore con il massimo, allora non ci sono valori anomali, i cosiddetti outliers.

Significa, cioè, che nella distribuzione non compaiono numeri che possano distorcere le analisi per quel fenomeno.

Gli outliers (o valori anomali)

Gli outliers sono i pallini che vanno oltre i due baffi che in questo caso fungono da limite inferiore e limite superiore.

La presenza di outliers deve essere valutata con attenzione, perché le statistiche di sintesi, come per esempio la media aritmetica, potrebbero risultare fuorvianti. Tuttavia non è detto che siano presenti, o in alcuni casi potrebbero esserci solo nella parte superiore o in quella inferiore.

Il box (scatola)

La scatola é delimitata dal primo quartile (Q1) e dal terzo quartile (Q3) (se vuoi approfondire il discorso dei quartili te ne ho parlato in questo articolo), e rappresenta la parte centrale della distribuzione, che è il 50% piú importante della variabile.

L’altezza della scatola è chiamata differenza interquartile (IQR, Interquartile Range in inglese) e racchiude appunto il 50% dei valori della distribuzione. All’interno di tale range si trova una linea che identifica il secondo quartile (Q2) o mediana, ovvero quel valore che spacca la distribuzione a metà lasciando il 50% dei valori sopra e il 50% sotto.

Boxplot

L'interpretazione del Boxplot

Dopo aver visto come creare un grafico Boxplot, ti mostro ora le informazioni che racchiude circa la distribuzione della variabile oggetto di studio, e come interpretarle in modo da ottenere tutto quello che ti serve per la tua analisi. 

La scala

Innanzitutto, guarda la scala di misura del carattere, ovvero il range dei valori entro il quale il fenomeno si muove, per avere un’idea di quali sono e di come variano. 

La mediana

Guarda ora la linea al centro della scatola, che rappresenta la mediana. Il valore centrale della distribuzione dei dati è utile in presenza di molti outliers, in quanto sintetizza meglio il fenomeno rispetto ad una media.

La variabilitá

Osserva anche l’altezza della scatola e la lunghezza dei baffi. Dimensioni maggiori corrispondono a una maggiore dispersione della variabile rispetto al valore mediano. 

L'asimmetria

Se uno dei due baffi è più lungo rispetto all’altro si ha una asimmetria, una tendenza dei dati a disperdersi verso valori più grandi o più piccoli rispetto a quello centrale. In particolare, se il baffo inferiore è più pronunciato si ha una asimmetria sinistra, ossia i valori più piccoli della variabile sono più dispersi; viceversa, se il baffo superiore è più lungo si avrà una asimmetria destra e quindi i valori più dispersi saranno quelli più alti.

Gli outliers

Considera infine la presenza di outliers, cioè dei punti che stanno sotto il baffo inferiore o sopra il baffo superiore. Te ne parlo nello specifico nel prossimo paragrafo.

Gli outliers

Come abbiamo detto precedentemente, gli outliers sono considerati valori anomali perché si distaccano dal resto dei dati.

Ma cosa stabilisce se questi numeri sono effettivamente lontani dal resto della distribuzione? Come si calcolano le soglie inferiore e superiore al di fuori delle quali il valore è un outlier?

Il troncamento inferiore si calcola andando a confrontare due numeri:

  • il minimo della distribuzione
  • il valore ottenuto da: Q1 - 1,5 * Differenza interquartile

Il valore piú grande dei due sará quello che delimiterá l’estremo inferiore del grafico.

Il troncamento superiore si calcola andando a confrontare due numeri:

  • il massimo della distribuzione
  • il valore ottenuto da: Q3 + 1,5 * Differenza interquartile

Il valore piú piccolo dei due sará quello che delimiterá l’estremo inferiore del grafico.

Va da sé che se la soglia coincide con minimo o massimo allora non ci saranno outliers, che possono essere dovuti a errori commessi durante la rilevazione del set di dati oppure semplicemente sono dei valori estremi osservati dalla popolazione.

Sta allo statistico valutare come e quando includere o escludere i valori anomali.

Fondamentalmente puoi decidere di seguire due strade:

  • non considerare questi valori anomali
  • tenere questi valori e calcolarli insieme agli altri

Tieni presente, però, che la rimozione di osservazioni dal set di dati può introdurre altri tipi di distorsione nei risultati e potenzialmente comportare la perdita di informazioni critiche. Se i valori anomali sembrano avere molta influenza sui risultati, potrebbe essere appropriato utilizzare un test non parametrico come il test dei Ranghi di Wilcoxon.

Allo stesso modo, se decidi di tenere i valori devi avere ben presente che andranno a influenzare i tuoi risultati.

Se hai ancora qualche dubbio su questo argomento, guardati il video iniziale cui ti spiego il boxplot in modo semplice e chiaro utilizzando una metafora statistica.

Boxplot o istogramma?

Come puoi vedere in dettaglio nel mio articolo sui grafici, anche l'istogramma viene utilizzato, come il boxplot, per rappresentare i caratteri quantitativi. Quando devi quindi utilizzare uno e quando l'altro?

Dipende fondamentalmente da quali informazioni ti servono per la tua analisi.

Boxplot e istogramma
L'istogramma

L'istogramma si utilizza quando si ha a che fare con variabili continue, cioè dei numeri reali, compresi anche dei decimali. Rispetto al boxplot, può esserti utile per capire la distribuzione dei tuoi valori, perchè è un grafico che mostra in modo chiaro eventuali picchi o valli, cioè quei valori che sono presenti in misura maggiore o minore. Grazie all'istogramma, inoltre, è anche facile notare se alcuni valori sono completamente assenti.

Il boxplot, come abbiamo visto, non mostra queste caratteristiche, però è preferibile all'istogramma quando vuoi identificare la variabilità dei dati e gli eventuali outliers. Come abbiamo visto nella rappresentazione grafica, infatti, i valori anomali saltano subito all'occhio.

Concludendo, quindi, la scelta dipende semplicemente da quali informazioni stai cercando in quel momento. Altrimenti puoi decidere di utilizzarli entrambi, in modo da avere una visione più dettagliata dei vari aspetti dei tuoi caratteri quantitativi.

Boxplot EXCEL

Inserisci >>> Grafico >>> Scatola e baffi

Boxplot SPSS

Grafici >>> Finestre di dialogo legacy >>> Grafico a scatole

Boxplot R

boxplot(nome_variabile_numerica)

Riassumendo

  • Il Boxplot mostra la variabilitá di una distribuzione di dati
  • I 5 punti che delimitano il grafico sono i due limiti inferiore e superiore (detti baffi) e la scatola che contiene il primo quartile (Q1) il secondo (MEDIANA) e il terzo (Q3)
  • Il diagramma dà informazioni, oltre che alla dispersione dei dati, anche sulla loro asimmetria
  • Gli outliers sono i valori che eccedono i limiti e da prendere in considerazione perché potrebbero distorcere le analisi statistiche fuorvianti

Sono per la dispersione della stupidità. Non va bene che si concentri per intere settimane in un punto solo.

(KARL KRAUS - Scrittore giornalista e aforista austriaco)

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram