blog
Uno dei più importanti indicatori per misurare la variabilità di una distribuzione è la varianza.
In questo articolo ho spiegato come la media aritmetica sia l’indicatore di sintesi più comune, ma per darle un senso c’è bisogno di affiancarle un numero che sia un indice di dispersione dei valori attorno ad essa.
Innanzitutto vediamo come effettuare il calcolo della varianza (che nella sua formula è indicata col simbolo σ2). Ci sono due modi per farlo e può essere utile conoscerli entrambi.
Somma ogni numero e dividi per il conteggio degli stessi.
Prendi ogni valore xi e sottrai la media trovata al punto precedente.
Prendi gli scarti del punto 2 e mettili al quadrato. Moltiplicali poi per le ni, se sei in presenza di una distribuzione di frequenze assolute. Alla fine somma i valori. Se invece sei in presenza di una distribuzione di frequenze relative non hai bisogno di quest'ultima moltiplicazione
Prendi la somma del punto 3 (chiamata DEVIANZA) e rapportale al totale delle osservazioni (N). Il risultato è la varianza.
NOTA: Per sua natura può essere calcolata solo su variabili quantitative.
Supponiamo di avere i punteggi ottenuti da un gruppo di persone in un test.
La tabella seguente mostra i diversi punteggi (\( x_i \)) e il numero di persone (\( n_i \)) che hanno ottenuto quel punteggio:
\[
\begin{array}{|c|c|}
\hline
x_i & n_i \\
\hline
6 & 10 \\
7 & 20 \\
15 & 30 \\
22 & 25 \\
30 & 15 \\
\hline
\textbf{Totale} & 100 \\
\hline
\end{array}
\]
Calcolo della media:
\[
\bar{x} = \frac{\sum n_i x_i}{\sum n_i}
\]
\[
\bar{x} = \frac{(6 \times 10) + (7 \times 20) + (15 \times 30) + (22 \times 25) + (30 \times 15)}{100}
\]
\[
\bar{x} = \frac{60 + 140 + 450 + 550 + 450}{100} = \frac{1650}{100} = 16.5
\]
Calcolo della varianza con il metodo diretto:
\[
\sigma^2 = \frac{\sum n_i (x_i - \bar{x})^2}{\sum n_i}
\]
\[
\sum n_i (x_i - \bar{x})^2 =
(10 \times (6 - 16.5)^2) + (20 \times (7 - 16.5)^2) + (30 \times (15 - 16.5)^2) +
(25 \times (22 - 16.5)^2) + (15 \times (30 - 16.5)^2)
\]
\[
= (10 \times 110.25) + (20 \times 90.25) + (30 \times 2.25) + (25 \times 30.25) + (15 \times 182.25)
\]
\[
= 1102.5 + 1805 + 67.5 + 756.25 + 2733.75
\]
\[
= 6465
\]
\[
\sigma^2 = \frac{6465}{100} = 64.65
\]
Somma ogni numero e dividi per il conteggio degli stessi.
Eleva al quadrato ogni valore xi e moltiplicalo per la ni, se sei in presenza di una distribuzione di frequenze assolute. Alla fine somma i valori.
Prendi la somma del punto 2 e dividila per il totale delle osservazioni (N). Il risultato che trovi si chiama MOMENTO SECONDO ed è la prima parte della varianza.
La varianza è uguale al momento secondo meno la media al quadrato.
\[
\begin{array}{|c|c|}
\hline
x_i & n_i \\
\hline
6 & 10 \\
7 & 20 \\
15 & 30 \\
22 & 25 \\
30 & 15 \\
\hline
\textbf{Totale} & 100 \\
\hline
\end{array}
\]
Calcolo della media:
\[
\bar{x} = \frac{\sum n_i x_i}{N}
\]
\[
\bar{x} = \frac{(6 \times 10) + (7 \times 20) + (15 \times 30) + (22 \times 25) + (30 \times 15)}{100}
\]
\[
\bar{x} = \frac{60 + 140 + 450 + 550 + 450}{100} = \frac{1650}{100} = 16.5
\]
Calcolo della varianza con il metodo indiretto:
La varianza si calcola come:
\[
\sigma^2 = M_2 - \bar{x}^2
\]
Dove \( M_2 \) è il momento secondo, definito come:
\[
M_2 = \frac{\sum n_i x_i^2}{N}
\]
Calcoliamo il momento secondo:
\[
M_2 = \frac{(6^2 \times 10) + (7^2 \times 20) + (15^2 \times 30) + (22^2 \times 25) + (30^2 \times 15)}{100}
\]
\[
= \frac{(36 \times 10) + (49 \times 20) + (225 \times 30) + (484 \times 25) + (900 \times 15)}{100}
\]
\[
= \frac{360 + 980 + 6750 + 12100 + 13500}{100}
\]
\[
M_2 = \frac{33690}{100} = 336.9
\]
Ora calcoliamo la varianza:
\[
\sigma^2 = 336.9 - (16.5)^2
\]
\[
\sigma^2 = 336.9 - 272.25
\]
\[
\sigma^2 = 64.65
\]
Per aiutare gli studenti nel percorso di superamento dell'esame di statistica, ho messo a disposizione sul mio canale di Youtube un esercizio svolto con la calcolatrice scientifica, che permette di risparmiare tanto tempo e soprattutto assicura la buona riuscita dello stesso.
La correzione di Sheppard è una tecnica statistica utilizzata per correggere la distorsione nella stima della varianza quando i dati sono stati raggruppati in classi intervallari. Questo problema si verifica perché, quando si lavora con dati raggruppati, si perde l'informazione esatta sulle singole osservazioni e si assume che tutti i valori all'interno di una classe siano concentrati nel punto centrale dell'intervallo.
La varianza statistica pertanto è sovrastimata rispetto alla varianza della distribuzione originaria, perché ipotizza che tutti i dati in un intervallo si trovino esattamente al centro, ignorando la dispersione interna all'intervallo stesso.
Per correggere questo errore, Sheppard ha proposto di sottrarre un termine di correzione, dato da:
Questa correzione funziona sotto l'ipotesi che i dati siano distribuiti uniformemente all'interno di ogni intervallo di classe.
La correzione di Sheppard viene utilizzata principalmente:
Al punto 4 del metodo diretto si trova la devianza. Per capire il significato di questo indicatore devi partire dalla proprietà della media aritmetica per la quale la somma di tutti gli scarti è uguale a zero.
Se infatti calcoli tutti gli scarti dalla media (xi - media) e poi li sommi, vedrai che tale somma farà sempre zero, questo perché la media è un indice di equidistribuzione e pertanto "sbaglia" in difetto e in eccesso in egual misura.
Questa somma pertanto non ti aiuta a sapere quanto i numeri si discostano dalla media e non può essere utilizzata come misura di variabilità, e allora come si fa? Si prendono gli scarti al quadrato!
Ogni scarto elevato al quadrato darà sempre un numero positivo, o al massimo nullo, ma mai negativo generando quindi una somma positiva. Tale valore è appunto la DEVIANZA.
Con la DEVIANZA ti ritrovi ad avere una somma degli scarti al quadrato che tuttavia non puoi ancora prendere come indice di variabilità.
Del resto fai lo stesso ragionamento quando come indicatore di sintesi usi la media dove non prendi solo la somma dei valori, ma dopo averli sommati li dividi per il totale generando appunto la media aritmetica che ti sintetizza la distribuzione.
Ecco, devi fare la stessa cosa con la devianza rapportandola al totale delle osservazioni che come sai viene indicato con N. Quello che trovi è la varianza!
VARIANZA = DEVIANZA / N
Di conseguenza la varianza è una media degli scarti quadratici. Il numero trovato però non ha significato reale vero e proprio perché è espresso con un'unità di misura quadrata rispetto a quella di partenza, mi spiego meglio.
Probabilmente ti starai chiedendo perché gli scarti attorno al valore medio sono posti al quadrato. Perché queste quantità sono in parte negative e il quadrato rende il valore indipendente dal segno.
Il problema è che il numero ottenuto non avrà la stessa unità di misura della media aritmetica. Per risolvere l’inconveniente si usa la radice quadrata della varianza che dà luogo alla media quadratica degli scarti.
Il risultato trovato è chiamato scarto quadratico medio o deviazione standard che avrà la stessa unità di misura della variabile e di conseguenza della media.
Da quanto appena descritto puoi intuire che questo valore non sarà mai negativo, hai a che fare con quadrati e radice quadrata, ma al massimo può essere uguale a zero.
Nella realtà ciò non avviene mai perché è la situazione limite nel quale tutti i numeri sono uguali e quindi non variano.
Tra i tanti usi della varianza statistica uno in particolare merita attenzione ovvero quello riferito alle variabili casuali.
La varianza di una variabile casuale spesso cambia la forma della stessa e graficamente è utile osservare come i valori della variabile aleatoria si distribuiscano attorno al valor atteso.
Questo discorso è approfondito in uno dei miei videocorsi realizzati proprio sulla probabilità e le variabili casuali.
Se tutto questo non ti bastasse allora guarda bene il video iniziale in cui parlo della spiegazione della varianza in modo semplice attraverso un esempio di vita reale.
La varianza è una misura statistica che quantifica la dispersione dei dati attorno alla loro media. Questo valore ci informa su quanto i dati di un insieme si allontanano dalla media, fornendo un'idea della consistenza o variabilità dei dati.
Quando è elevata, significa che i dati si distribuiscono su un ampio intervallo di valori e mostrano una grande diversità.
Ad esempio, mettiamo che tu stia analizzando le temperature giornaliere di una città nel corso di un mese. Una varianza alta indicherebbe che le temperature variano significativamente da un giorno all'altro, suggerendo un clima molto instabile e imprevedibile.
D'altra parte, un indicatore basso indica che i dati sono più concentrati e che non si discostano molto dalla media.
Utilizzando lo stesso esempio delle temperature, significherebbe che le temperature giornaliere sono molto simili tra loro, indicando un mese con un clima stabile e prevedibile.
La comprensione della varianza è cruciale in numerosi campi applicativi. Ad esempio, in economia, conoscere la varianza delle fluttuazioni del mercato può aiutare gli investitori a comprendere il rischio associato a diversi strumenti finanziari.
In sostanza, aiuta a prendere decisioni informate basate sull'analisi di dati, che si traduce in una migliore gestione del rischio e della strategia in molteplici discipline.
Può essere qualsiasi numero maggiore o uguale a zero. Non ha un limite superiore, quindi può andare da zero a infinito.
Zero indica che tutti i valori sono identici, mentre valori più alti indicano una maggiore dispersione dei dati.
La varianza statistica è considerata alta quando i dati in un insieme mostrano una grande dispersione attorno alla loro media, indicando che i valori si distribuiscono su un ampio intervallo e sono significativamente diversi gli uni dagli altri.
In statistica, questo è spesso un indicatore che il modello o i metodi utilizzati per analizzare un set di dati potrebbero non essere adeguati o necessitano di ulteriori indagini.
Potrebbe anche suggerire che ci sono outliers significativi o errori nei dati che devono essere esaminati per assicurare un'analisi accurata e rappresentativa.
Prendiamo le spese mensili di diverse famiglie in una città. Se la varianza delle spese è alta, significa che alcune famiglie spendono molto più di altre.
Questo potrebbe riflettere differenze significative nel reddito, nelle abitudini di spesa, o nel numero di membri per famiglia. In un mese, alcune famiglie potrebbero spendere principalmente per necessità, mentre altre potrebbero permettersi lussi o spese extra.
Quando tutti i valori in un set di dati sono esattamente uguali. In questo caso, non c'è dispersione né variabilità tra i dati.
Un gruppo di studenti riceve lo stesso punteggio in un test. Se ogni studente ha ottenuto, ad esempio, 85 su 100, la media dei punteggi sarà 85 e ogni scarto dalla media (la differenza tra ogni punteggio individuale e la media) sarà zero.
Di conseguenza, elevando al quadrato questi scarti, otteniamo ancora zero, e la media di questi quadrati (la varianza) sarà anch'essa zero. Questo indica uniformità completa nei risultati del test, senza alcuna variazione tra gli studenti.
La varianza non può mai essere negativa.
Se incontri un valore negativo mentre la calcoli, è sicuramente dovuto a un errore.
La formula della varianza di una popolazione si calcola facendo:
Var = Σ[(xi - media)2] / N
Se invece la vuoi stimare attraverso un campione, la formula della varianza diventa:
Var = Σ[(xi - media)2] / (N -1)
dove:
L'unità di misura della varianza è il quadrato dell'unità di misura dei dati originali.
Ad esempio, se stai misurando la lunghezza in metri, la varianza sarà in metri quadrati.
Questo avviene perché questo indicatore è calcolato come la media dei quadrati delle differenze di ciascun dato dalla media.
Dato che interpretare direttamente i valori in unità quadrate può essere complicato e poco intuitivo, spesso si preferisce utilizzare la deviazione standard, che è la radice quadrata della varianza, per tornare all'unità di misura originale dei dati.
É una quantità ben definita nelle teorie statistiche e probabilistiche. È una componente fondamentale in concetti come la deviazione standard, l’analisi della varianza (ANOVA) e il modello di regressione.
Poiché è l’attesa del quadrato degli scarti dalla media, è più facile da manipolare matematicamente rispetto ad altre misure di dispersione. È particolarmente utile in formule che riguardano distribuzioni normali, regressione lineare e test statistici.
Tuttavia per il calcolo bisogna elevare al quadrato le differenze tra i valori e la media. Questo porta a unità di misura non intuitive come visto in precedenza.
Per questo motivo, spesso si preferisce la deviazione standard (la radice quadrata della varianza), che è nella stessa unità dei dati originali.
Un altro svantaggio sta nella sua sensibilità ai valori molto grandi o molto piccoli della distribuzione che impattano in modo sproporzionato.
Per tanto se un dataset contiene outlier, la varianza può essere enormemente influenzata, distorcendo la percezione della dispersione reale.
VAR.P (Num1;Num2;...)
VAR.C (Num1;Num2;...)
VAR.POP.VALORI (Num1;Num2;...)
VAR.VALORI (Num1;Num2;...)
Analizza >>> Statistiche descrittive >>> Descrittive
Analizza >>> Statistiche descrittive >>> Frequenze
Analizza >>> Statistiche descrittive >>> Esplora
Le statistiche dicono che un uomo su due preferisce due donne su una.
(FLAVIO AURELIO - comico italiano)
Iscriviti alla Newsletter