Il Boxplot, chiamato anche grafico a scatola e baffi per la sua forma geometrica, è una rappresentazione grafica molto importante, utilizzata nell’ambito della statistica descrittiva per estrapolare informazioni riguardanti la distribuzione di una variabile quantitativa numerica, prevalentemente continua, ma volendo anche discreta.
Dal punto di vista estetico, il Boxplot si può presentare in verticale dove i valori della variabile numerica saranno posizionati lungo il bordo verticale del grafico, oppure in orizzontale dove verranno messi lungo il bordo orizzontale inferiore.
Inoltre, si possono affiancare piú Boxplot tra di loro, per confrontare le diverse distribuzioni all’interno di una variabile categoriale.
Di seguito un esempio pratico in cui un fenomeno è diviso in due, e pertanto si affiancano due Boxplot.
Il Boxplot è formato da 5 numeri fondamentali, che puoi vedere rappresentati nel grafico qui sotto, e che sono:
Per spiegarti, inoltre, come si legge un Boxplot devi sapere che è formato essenzialmente da 3 elementi grafici:
I due baffi che si trovano all’estremitá del grafico delimitano l’inizio e la fine dei dati che bisognerebbe prendere in considerazione.
Se il limite inferiore coincide con il minimo della distribuzione e il limite superiore con il massimo, allora non ci sono valori anomali, i cosiddetti outliers.
Significa, cioè, che nella distribuzione non compaiono numeri che possano distorcere le analisi per quel fenomeno.
Gli outliers sono i pallini che vanno oltre i due baffi che in questo caso fungono da limite inferiore e limite superiore.
La presenza di outliers deve essere valutata con attenzione, perché le statistiche di sintesi, come per esempio la media aritmetica, potrebbero risultare fuorvianti. Tuttavia non è detto che siano presenti, o in alcuni casi potrebbero esserci solo nella parte superiore o in quella inferiore.
La scatola é delimitata dal primo quartile (Q1) e dal terzo quartile (Q3) (se vuoi approfondire il discorso dei quartili te ne ho parlato in questo articolo), e rappresenta la parte centrale della distribuzione, che è il 50% piú importante della variabile.
L’altezza della scatola è chiamata differenza interquartile (IQR, Interquartile Range in inglese) e racchiude appunto il 50% dei valori della distribuzione. All’interno di tale range si trova una linea che identifica il secondo quartile (Q2) o mediana, ovvero quel valore che spacca la distribuzione a metà lasciando il 50% dei valori sopra e il 50% sotto.
Dopo aver visto come creare un grafico Boxplot, ti mostro ora le informazioni che racchiude circa la distribuzione della variabile oggetto di studio, e come interpretarle in modo da ottenere tutto quello che ti serve per la tua analisi.
Innanzitutto, guarda la scala di misura del carattere, ovvero il range dei valori entro il quale il fenomeno si muove, per avere un’idea di quali sono e di come variano.
Guarda ora la linea al centro della scatola, che rappresenta la mediana. Il valore centrale della distribuzione dei dati è utile in presenza di molti outliers, in quanto sintetizza meglio il fenomeno rispetto ad una media.
Osserva anche l’altezza della scatola e la lunghezza dei baffi. Dimensioni maggiori corrispondono a una maggiore dispersione della variabile rispetto al valore mediano.
Se uno dei due baffi è più lungo rispetto all’altro si ha una asimmetria, una tendenza dei dati a disperdersi verso valori più grandi o più piccoli rispetto a quello centrale. In particolare, se il baffo inferiore è più pronunciato si ha una asimmetria sinistra, ossia i valori più piccoli della variabile sono più dispersi; viceversa, se il baffo superiore è più lungo si avrà una asimmetria destra e quindi i valori più dispersi saranno quelli più alti.
Considera infine la presenza di outliers, cioè dei punti che stanno sotto il baffo inferiore o sopra il baffo superiore. Te ne parlo nello specifico nel prossimo paragrafo.
Come abbiamo detto precedentemente, gli outliers sono considerati valori anomali perché si distaccano dal resto dei dati.
Ma cosa stabilisce se questi numeri sono effettivamente lontani dal resto della distribuzione? Come si calcolano le soglie inferiore e superiore al di fuori delle quali il valore è un outlier?
Il troncamento inferiore si calcola andando a confrontare due numeri:
Il valore piú grande dei due sará quello che delimiterá l’estremo inferiore del grafico.
Il troncamento superiore si calcola andando a confrontare due numeri:
Il valore piú piccolo dei due sará quello che delimiterá l’estremo inferiore del grafico.
Va da sé che se la soglia coincide con minimo o massimo allora non ci saranno outliers, che possono essere dovuti a errori commessi durante la rilevazione del set di dati oppure semplicemente sono dei valori estremi osservati dalla popolazione.
Sta allo statistico valutare come e quando includere o escludere i valori anomali.
Fondamentalmente puoi decidere di seguire due strade:
Tieni presente, però, che la rimozione di osservazioni dal set di dati può introdurre altri tipi di distorsione nei risultati e potenzialmente comportare la perdita di informazioni critiche. Se i valori anomali sembrano avere molta influenza sui risultati, potrebbe essere appropriato utilizzare un test non parametrico come il test dei Ranghi di Wilcoxon.
Allo stesso modo, se decidi di tenere i valori devi avere ben presente che andranno a influenzare i tuoi risultati.
Se hai ancora qualche dubbio su questo argomento, guardati il video iniziale cui ti spiego il boxplot in modo semplice e chiaro utilizzando una metafora statistica.
Come puoi vedere in dettaglio nel mio articolo sui grafici, anche l'istogramma viene utilizzato, come il boxplot, per rappresentare i caratteri quantitativi. Quando devi quindi utilizzare uno e quando l'altro?
Dipende fondamentalmente da quali informazioni ti servono per la tua analisi.
L'istogramma si utilizza quando si ha a che fare con variabili continue, cioè dei numeri reali, compresi anche dei decimali. Rispetto al boxplot, può esserti utile per capire la distribuzione dei tuoi valori, perchè è un grafico che mostra in modo chiaro eventuali picchi o valli, cioè quei valori che sono presenti in misura maggiore o minore. Grazie all'istogramma, inoltre, è anche facile notare se alcuni valori sono completamente assenti.
Il boxplot, come abbiamo visto, non mostra queste caratteristiche, però è preferibile all'istogramma quando vuoi identificare la variabilità dei dati e gli eventuali outliers. Come abbiamo visto nella rappresentazione grafica, infatti, i valori anomali saltano subito all'occhio.
Concludendo, quindi, la scelta dipende semplicemente da quali informazioni stai cercando in quel momento. Altrimenti puoi decidere di utilizzarli entrambi, in modo da avere una visione più dettagliata dei vari aspetti dei tuoi caratteri quantitativi.
Inserisci >>> Grafico >>> Scatola e baffi
Grafici >>> Finestre di dialogo legacy >>> Grafico a scatole
boxplot(nome_variabile_numerica)
Sono per la dispersione della stupidità. Non va bene che si concentri per intere settimane in un punto solo.
(KARL KRAUS - Scrittore giornalista e aforista austriaco)