Se sei uno studente universitario alle prese con esercizi di statistica descrittiva, hai sicuramente già sentito parlare dell’istogramma, uno strumento fondamentale per la visualizzazione di dati continui in classi.
In questo articolo, scenderò nei dettagli di cosa è un istogramma, perché differisce da un grafico a barre, quando utilizzarlo, come farlo in Excel e come interpretarlo.
Mantieni alta l'attenzione e preparati a sbloccare nuove competenze nell'analisi con il tuo docente di statistica preferito 😀
L'istogramma è uno strumento utilizzato nell'analisi statistica per visualizzare la distribuzione di dati numerici continui.
Continui = numeri reali. Quindi tra un numero e l’altro ci sono infiniti valori.
Discreti = numeri naturali. Quindi tra un numero e l’altro non ci sono valori.
Questo grafico raggruppa i dati in intervalli, o come li chiama Excel, in bin. Per la rappresentazione puoi scegliere o un numero fisso di intervalli oppure una larghezza fissa degli stessi.
Lo avrai certamente già visto tante volte durante i tuoi studi: è quel grafico formato da barre adiacenti, la cui altezza rappresenta la frequenza assoluta, o la densità di frequenza, di osservazioni all'interno di ciascun intervallo.
Come forse avrai intuito, aiuta a comprendere dove si concentrano le frequenze di dati e quali sono le tendenze emergenti.
Gli istogrammi possono essere utilizzati per identificare se una distribuzione è unimodale, cioè mostra un picco principale, o multimodale, quindi evidenzia più picchi. Ti spiego meglio il concetto.
Un istogramma unimodale ha un solo picco principale, indicando che la maggior parte dei dati si concentra intorno a un singolo valore centrale.
Questo tipo di distribuzione è comune quando i dati sono relativamente omogenei e tendono a raggrupparsi attorno a una media o mediana.
Vuoi misurare il peso di un gruppo di studenti in una scuola. Se la maggior parte degli studenti ha un peso simile, il grafico mostrerà un unico picco prominente dove la maggior parte delle misurazioni si raggruppa, ad esempio, attorno ai 70 Kg. Questo riflette una distribuzione unimodale dei pesi.
E’ il tipico esempio di una distribuzione che segue la forma di una normale standardizzata.
Al contrario, un istogramma multimodale presenta più di un picco, indicando la presenza di più gruppi o cluster di dati all'interno del set.
Ogni picco rappresenta una concentrazione di dati attorno a un valore specifico.
Questo tipo di distribuzione può suggerire che il dataset proviene da popolazioni miste o che ci sono vari fattori che influenzano i dati, portando a più "mode".
Considera un negozio che vende scarpe sia per uomini sia per donne. Se misuri le vendite di scarpe per numero, potresti trovarti un grafico come questo.
Vedi come le fasce dal 38 al 42 sono praticamente uguali? Ciò vuol dire che ci sono più mode.
A questo punto visto ti potrebbe sorgere il dubbio che esistono sottogruppi che spieghino meglio il fenomeno.
Visto che noti picchi distinti, suddividi in due istogrammi. Uno per le donne e uno per gli uomini.
Questo mostra una distribuzione multimodale delle taglie vendute, indicando che ci sono due gruppi principali di clienti che comprano scarpe di dimensioni molto diverse.
Ogni barra rappresenta un intervallo e la larghezza di ciascuna barra, che puoi vedere sull’asse delle X, fa riferimento alla rappresentazione dei valori e varia in base agli intervalli presi in considerazione.
Come detto o scegli il numero degli intervalli che vuoi rappresentare oppure la larghezza degli stessi.
Nell’esempio delle scarpe io ho scelto l’ampiezza uguale a 1. Per esempio l’intervallo (41;42) include tutti i numeri che vanno dal 41 escluso al 42 incluso. in pratica 41,5 o affini e 42.
L'altezza, rappresentata sull’asse delle Y, indica la frequenza o la densità delle osservazioni all'interno di ciascun intervallo.
A differenza di un grafico a barre classico, l'istogramma non include spazi vuoti per rappresentare la continuità dei dati.
E qui ti faccio un punto di attenzione importante. Molti dei miei studenti, quando arrivano da me, pensano che l’istogramma sia un grafico a barre. Come spiego sempre anche a loro, è vero l’opposto. Vediamo perché.
La differenza fondamentale tra un istogramma e un grafico a barre tradizionale risiede nella loro applicazione:
Pertanto, le barre in un istogramma sono adiacenti, senza spazi intermedi, mentre nel grafico a barre sono separate.
Come detto, per questo tipo di grafico occorrono fenomeni continui che si possono rappresentare in classi.
Consiglio l’utilizzo di un istogramma soprattutto in questi casi:
Ti sarà utile, in definitiva, ogni qualvolta dovrai identificare modelli come la centralità, la dispersione, e la forma della distribuzione di un fenomeno.
Non esiste un numero minimo di dati necessari per creare un istogramma. In linea di massima, un dataset più grande fornisce una rappresentazione più accurata e significativa della distribuzione.
In statistica, in generale, si considera un grande campione quando la numerosità supera le 30 osservazioni, ma per una questione legata al teorema del limite centrale.
Esistono diversi tipi di istogrammi che possono essere utilizzati a seconda della natura dei dati e degli obiettivi specifici dell'analisi.
Ti mostro alcuni dei tipi di istogrammi più comuni e le loro caratteristiche distintive.
Questi istogrammi sono progettati per rappresentare la densità di frequenza piuttosto che la frequenza stessa.
È il tipico esercizio che trovi in un esame di statistica e, purtroppo, molti studenti qui hanno delle difficoltà. Se non vuoi essere tra loro, leggi bene quanto sto per spiegarti.
Qui sull’asse delle Y viene rappresentata la densità di frequenza attraverso la formula:
densità di frequenza = frequenza assoluta / ampiezza della classe
Di conseguenza la frequenza assoluta di partenza rappresenta l’area di ogni rettangolo perché è frutto della formula inversa:
frequenza assoluta = densità di frequenza x ampiezza della classe
Solitamente questo grafico viene svolto solo come esercizio universitario. Nella pratica si è soliti utilizzare l’istogramma standard.
Ti mostro comunque un esercizio svolto tratto dal mio video corso sulla statistica descrittiva.
È il tipo più conosciuto di istogramma, utilizzato per rappresentare la distribuzione di frequenza di dati quantitativi.
Le barre dell'istogramma rappresentano l'intervallo di dati (bin), e l'altezza di ciascuna barra indica la frequenza dei dati in quell'intervallo.
In questo tipo di istogramma, l'altezza delle barre rappresenta la proporzione o la percentuale di osservazioni dentro ciascun intervallo rispetto al totale delle osservazioni.
Questo è utile per confrontare distribuzioni che possono avere quantità di dati molto diverse.
Un'altra variazione è l'istogramma cumulativo, che mostra la somma cumulativa delle frequenze lungo l'asse delle ordinate.
Ogni barra aggiunge la frequenza delle barre precedenti, il che può aiutare a visualizzare la distribuzione percentuale totale e individuare percentili specifici.
Excel offre strumenti integrati che semplificano la creazione di istogrammi.
Organizza i dati in una singola colonna per facilitare la creazione del grafico. Assicurati che i dati siano puliti e senza errori per una rappresentazione accurata.
Seleziona i dati, vai alla scheda “Inserisci”, e scegli “Istogramma” dalle opzioni di grafico. Excel calcolerà automaticamente i bin e creerà il grafico.
Clicca due volte su una barra del grafico e nella terza scheda scegli il "Tipo di bin". Excel di default seleziona “automatico”, ma tu hai altre tre possibilità:
Scelta la tipologia, modifica i parametri affinché il grafico sia più leggibile.
Leggere e interpretare tale grafico richiede di osservare la forma, il centro e la dispersione dei dati.
Guarda:
Un istogramma può aiutare a determinare se i dati si distribuiscono in modo approssimativamente simmetrico attorno a una media centrale, una caratteristica delle distribuzioni normali o gaussiane.
Se il grafico mostra una forma a campana, ciò suggerisce che i dati potrebbero seguire una distribuzione normale.
L'istogramma può evidenziare se una distribuzione di dati è skew, ovvero se presenta una forma asimmetrica che si inclina più a:
L'asimmetria può influenzare l'interpretazione di altre statistiche come la media e la mediana e può richiedere metodi statistici adattati per un'analisi accurata.
Gli outliers sono valori che si discostano significativamente dagli altri.
Un istogramma può rendere visibili questi outliers mostrando barre separate dal corpo principale della distribuzione, il che può indicare la necessità di ulteriori indagini per determinare se questi valori anomali sono errori di misurazione, dati corrotti o semplicemente variazioni naturali estreme.
Inserisci >>> Grafico >>> Istogramma
N.B. In Windows troverai il grafico a barre verticale denominato "Colonne" mentre sul Mac lo troverai denominato ancora "Istogramma". Questo genera sicuramente confusione.
Sappi che in questo articolo sto parlando del secondo nel menu a tendina della versione Office 365 su mac.
Per maggiori info riguardanti la tua versione di Excel ti rimando al supporto di Windows
Grafici >>> Finestre di dialogo legacy >>> Istogramma