Attraverso questo articolo voglio offrirti un approccio meno accademico e più digeribile all'argomento della varianza, rispondendo alle domande più comuni che mi rivolgono gli studenti.
A proposito, vuoi uno strumento utile per passare il tuo esame di statistica?
Scarica la guida che ho scritto, con all'interno il formulario, tra cui trovi:
La varianza misura quanta variabilità c’è tra i fenomeni.
Cosa vuol dire?
Per spiegarti meglio questo argomento, lasciami ricorrere a una metafora molto apprezzata da chi mi segue su YouTube: quella dei vestiti.
Immagina di avere un armadio con vestiti di diversi colori.
Se tutti i tuoi vestiti sono neri, il tuo stile ha poca "varianza" perché non devia molto; è uniforme.
Se, invece, hai vestiti di molti colori differenti, la tua varianza è alta perché c'è molta diversità.
In statistica, al posto dei colori dei vestiti abbiamo numeri, e questo indicatore ci aiuta a capire quanto i dati osservati si allontanano da un valore centrale, cioè dalla media.
La varianza è una misura statistica che quantifica la dispersione dei dati attorno alla loro media. Questo valore ci informa su quanto i dati di un insieme si allontanano dalla media, fornendo un'idea della consistenza o variabilità dei dati.
Quando è elevata, significa che i dati si distribuiscono su un ampio intervallo di valori e mostrano una grande diversità.
Ad esempio, mettiamo che tu stia analizzando le temperature giornaliere di una città nel corso di un mese. Una varianza alta indicherebbe che le temperature variano significativamente da un giorno all'altro, suggerendo un clima molto instabile e imprevedibile.
D'altra parte, un indicatore basso indica che i dati sono più concentrati e che non si discostano molto dalla media.
Utilizzando lo stesso esempio delle temperature, significherebbe che le temperature giornaliere sono molto simili tra loro, indicando un mese con un clima stabile e prevedibile.
La comprensione della varianza è cruciale in numerosi campi applicativi. Ad esempio, in economia, conoscere la varianza delle fluttuazioni del mercato può aiutare gli investitori a comprendere il rischio associato a diversi strumenti finanziari.
In sostanza, aiuta a prendere decisioni informate basate sull'analisi di dati, che si traduce in una migliore gestione del rischio e della strategia in molteplici discipline.
Può essere qualsiasi numero maggiore o uguale a zero. Non ha un limite superiore, quindi può andare da zero a infinito.
Zero indica che tutti i valori sono identici, mentre valori più alti indicano una maggiore dispersione dei dati.
La varianza è considerata alta quando i dati in un insieme mostrano una grande dispersione attorno alla loro media, indicando che i valori si distribuiscono su un ampio intervallo e sono significativamente diversi gli uni dagli altri.
In statistica, questo è spesso un indicatore che il modello o i metodi utilizzati per analizzare un set di dati potrebbero non essere adeguati o necessitano di ulteriori indagini.
Potrebbe anche suggerire che ci sono outliers significativi o errori nei dati che devono essere esaminati per assicurare un'analisi accurata e rappresentativa.
Prendiamo le spese mensili di diverse famiglie in una città. Se la varianza delle spese è alta, significa che alcune famiglie spendono molto più di altre.
Questo potrebbe riflettere differenze significative nel reddito, nelle abitudini di spesa, o nel numero di membri per famiglia. In un mese, alcune famiglie potrebbero spendere principalmente per necessità, mentre altre potrebbero permettersi lussi o spese extra.
La varianza è zero quando tutti i valori in un set di dati sono esattamente uguali. In questo caso, non c'è dispersione né variabilità tra i dati.
Un gruppo di studenti riceve lo stesso punteggio in un test. Se ogni studente ha ottenuto, ad esempio, 85 su 100, la media dei punteggi sarà 85 e ogni scarto dalla media (la differenza tra ogni punteggio individuale e la media) sarà zero.
Di conseguenza, elevando al quadrato questi scarti, otteniamo ancora zero, e la media di questi quadrati (la varianza) sarà anch'essa zero. Questo indica uniformità completa nei risultati del test, senza alcuna variazione tra gli studenti.
La varianza non può mai essere negativa.
Se incontri un valore negativo mentre la calcoli, è sicuramente dovuto a un errore.
La varianza di una popolazione si calcola utilizzando la formula:
Varianza = Σ[(xi - media)2] / N
Se invece la vuoi stimare attraverso un campione, la formula diventa:
Varianza = Σ[(xi - media)2] / (N -1)
dove:
L'unità di misura della varianza è il quadrato dell'unità di misura dei dati originali.
Ad esempio, se stai misurando la lunghezza in metri, la varianza sarà in metri quadrati.
Questo avviene perché questo indicatore è calcolato come la media dei quadrati delle differenze di ciascun dato dalla media.
Dato che interpretare direttamente i valori in unità quadrate può essere complicato e poco intuitivo, spesso si preferisce utilizzare la deviazione standard, che è la radice quadrata della varianza, per tornare all'unità di misura originale dei dati.
A proposito…
La varianza e la deviazione standard - o scarto quadratico medio - sono due misure statistiche utilizzate per quantificare la dispersione o la variabilità di un set di dati rispetto alla media. La principale differenza tra queste due misure sta nel modo in cui vengono espressi i risultati e nel loro utilizzo pratico.
Vediamo le differenze.
Ormai lo avrai capito bene: è calcolata come la media dei quadrati delle differenze tra ciascun valore e la media del set di dati. Di conseguenza, l'unità di misura è il quadrato dell'unità di misura dei dati.
La deviazione standard è la radice quadrata della varianza. Questo riporta l'unità di misura indietro alla stessa scala dei dati originali, rendendo la deviazione standard più interpretabile e diretta da usare, specialmente quando si confrontano le dispersioni di set di dati misurati nelle stesse unità.
Essendo una misura della variabilità che eleva al quadrato le differenze dalla media, dà un peso maggiore ai valori che sono più lontani dalla media.
Questo la rende particolarmente sensibile agli outliers.
È spesso utilizzata in analisi statistiche più complesse dove sono importanti le relazioni quadratiche, come nel controllo di qualità o in alcune forme di analisi predittiva.
Essendo più intuitiva da comprendere, la deviazione standard è spesso usata quando si desidera discutere o visualizzare la variabilità in un modo che sia direttamente comparabile con i valori osservati.
È utile per rapporti e presentazioni a non esperti, nella gestione della qualità, o in studi che richiedono un confronto diretto della dispersione dei dati, come in studi sulla variabilità di crescita, costi, o altre misure fisiche.
La varianza e la covarianza misurano differenti aspetti della variabilità all'interno dei dati.
Mentre la prima si concentra sulla dispersione di una singola variabile rispetto alla sua media, la seconda estende questo concetto analizzando la relazione reciproca tra due variabili.
Ti ho parlato abbondantemente della varianza. Ora ti spiego più dettagli relativi alla covarianza.
Ti dicevo che la covarianza indica la direzione della relazione lineare tra due variabili.
Se la covarianza è positiva, significa che, in generale, quando una variabile aumenta, anche l'altra aumenta; se è negativa, significa che quando una variabile aumenta, l'altra tende a diminuire.
È calcolata come la media dei prodotti degli scarti di ogni coppia di valori rispetto alle rispettive medie.
Tuttavia, a differenza della correlazione, la covarianza è influenzata dalle unità di misura delle variabili, rendendo talvolta difficile interpretare la forza della relazione.
L'analisi della varianza, o ANOVA, è un metodo usato per vedere se ci sono differenze statisticamente significative tra le medie di tre o più gruppi indipendenti.
Analizza la varianza tra i gruppi e nei gruppi per determinare se le differenze osservate nei dati sono probabilmente casuali o se riflettono un pattern reale.
Questi concetti sono strettamente correlati nella statistica, ma rappresentano misure leggermente diverse:
È il numeratore nella formula della varianza. È definita come la somma degli scarti quadratici dalla media. Misura la dispersione totale dei dati rispetto alla loro media.
È la devianza diviso il numero di osservazioni nel set di dati, quindi è la media degli scarti quadratici dalla media.