La mediana è uno dei piú importanti indicatori della statistica descrittiva. Insieme alla media aritmetica e alla moda forma parte degli indici di sintesi, che servono per descrivere il fenomeno di una popolazione o di un campione.
Per spiegarti il significato pensa, per esempio, al ruolo del mediano nel gioco del calcio, che è il giocatore preposto a stare in mezzo al campo tra i difensori e gli attaccanti.
Allo stesso modo, la mediana è il valore centrale della distribuzione, che lascia il 50% delle osservazioni prima e il 50% dopo. Detto così sembra molto facile, e in effetti lo è, ma vediamo nel dettaglio come si calcola questo indicatore.
Nei paragrafi successivi scoprirai tutti passi necessari per capire come fare a trovare il valore della mediana, e anche una sorta di esercizio svolto su questo argomento, ma accompagnato da concetti semplici.
Vediamo quindi tutti i passaggi.
Il primo e fondamentale punto da sapere è capire se si ha un carattere almeno ordinabile, sia esso qualitativo o quantitativo. Senza questa caratteristica necessaria, infatti, non ti sarà in alcun modo possibile calcolare la mediana.
Ovvio che se è qualitativo deve avere almeno modalità ordinabili, come per esempio il livello di istruzione.
Se non hai molto chiaro la differenza ti consiglio di vedere il mio video sulla classificazione dei fenomeni statistici e delle modalità, tratto dal mio videocorso sulla statistica descrittiva.
Essendo un indice di posizione puoi facilmente immaginare che non avrebbe senso usare un fenomeno qualitativo nominale, come per esempio il colore dei capelli.
Di solito comunque questo tipo di indicatore viene utilizzato per i fenomeni quantitativi, quindi che si esprimono attraverso i numeri, siano essi discreti (numeri naturali) o continui (numeri reali).
Il passo successivo è individuare la posizione in cui si troverà il valore mediano.
Questo calcolo si ottiene facendo K = np, dove K è la posizione, n è il numero totale delle osservazioni e p è un numero tra 0 e 1 legato alla mediana e precisamente p = 0,50.
Esempio:
n = 30
p = 0,50
K = 30 * 0,50 = 30 / 2 = 15
Se K è un numero intero vuol dire che n, cioè il totale delle osservazioni, è per forza pari.
Questo perché prendere il valore n e moltiplicarlo per 0,5 è come dire dividerlo per 2, e un numero diviso 2 risulta intero solo se quel numero è pari.
A questo punto, per individuare la posizione corretta, devi prendere il valore associato alla k-esima posizione e alla k-esima + 1.
Esempio:
Posizione K-esima = 15
Posizione K-esima + 1 = 16
Se K non è un numero intero, allora ti basta aggiungere 0,5 e il numero trovato sarà la posizione da ricercare.
Esempio:
n = 29
p = 0,50
K = 29 * 0,50 = 29 / 2 = 14,5
Posizione K = 14,5 + 0,5 = 15
I numeri trovati al punto precedente non sono nient'altro che delle posizioni, ma non rappresentano assolutamente il valore mediano, che invece sarà quel numero che è associato a quella posizione.
Esempio:
Facciamo finta che stai studiando l'altezza dei calciatori della tua squadra di calcio preferita.
In un foglio Excel metti i 29 giocatori che fanno parte della rosa, ordinati in modo crescente secondo la loro altezza.
K = 29 * 0,5 = 14,5
Posizione K = 14,5 + 0,5 = 15
Se il calciatore in posizione 15 è alto 170 cm, significa che metà squadra è alta al massimo 170 cm e l'altra metà invece dai 170 cm in su.
Il numero 170 è dunque la mediana.
Nel grafico qui sotto puoi vedere non solo come si calcola la mediana, ma anche come si può rappresentare attraverso un grafico la mediana in una serie di numeri che ho messo in Excel.
Spesso gli studenti confondono la mediana con la media, o peggio ancora non sanno quando usare l’una e quando l’altra.
Per questo motivo, se pensi di non essere certo di sapere con certezza quando utilizzare la media e quando la mediana, ti consiglio di leggerti prima questi mio altro articolo, in cui ho spiegato come calcolare la media aritmetica e soprattutto quando utilizzarla.
Nella distribuzione di frequenza può capitarti di essere in presenza di outliers, cioè dei valori anomali estremi, che quindi si distanziano di molto rispetto agli altri valori che hai osservato. Allo stesso modo, può anche capitarti che la variabilità sia molto elevata.
In entrambi i casi, l’uso della mediana è preferibile rispetto a quello della media, perchè la mediana non risente dei valori estremi, mentre la media è molto sensibile all'inserimento degli outliers nel dataset.
Se invece non ti risultano nè outliers nè una variabilità elevata, allora ti dovrebbe risultare indifferente l’utilizzo di una o dell'altra.
Il grafico che vedi sopra si chiama Boxplot e comprende altri due indici molto usati insieme alla mediana, che si chiamano quartili.
Se hai bisogno di ripassare velocemente questo argomento, qui sotto trovi il video in cui spiego con una metafora il concetto dei quartili, e di conseguenza anche della mediana, che rappresenta appunto il secondo quartile.
Come detto nel paragrafo precedente l'utilizzo della mediana è preferibile nel caso di outliers, ma se questi non sono presenti perché mai dovremmo calcolarla quando ci basterebbe la media?
In statistica si è soliti trovare, se è possibile, diversi indici che confermino una volta di più l'interpretazione corretta che si sta dando al fenomeno.
Trovare un valor medio simile a un valor mediano nella stessa distribuzione rende la vita del ricercatore più semplice, in quanto entrambi i numeri saranno attendibili per sintetizzare quel carattere.
Nell'esempio precedente se la mediana era 170 e la media fosse stata 169, numeri non identici ma simili, l'idea di "altezza media" della squadra sarebbe chiara. Questo perchè in molto situazioni la differenza di numeri è irrilevante.
Arrivato a questo punto dell'articolo spero tu abbia compreso sia il calcolo sia il significato di questo importantissimo valore della statistica descrittiva, che ovviamente è presente in tutti i software di analisi dati come per esempio Excel o Spss.
Se, infine, hai ancora qualche dubbio sulla mediana, nel video iniziale ti spiego il concetto in modo semplice e chiaro, utilizzando una metafora statistica.
MEDIANA (num1;[num2];...)
Analizza >>> Statistiche descrittive >>> Descrittive
C’è una linea mediana che delimita l’eccellenza dal disastro.
(CLELIA D’ONOFRIO - Giornalista e personaggio televisivo italiano)