whatsapp
Adriano Gilardone
Adriano Gilardone
adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi
blog

blog

Varianza: cos’è e come calcolarla

YouTube video
Postato il 20 Maggio 2020
Tag

Uno dei più importanti indicatori per misurare la variabilità di una distribuzione è la varianza. 

In questo articolo ho spiegato come la media aritmetica sia l’indicatore di sintesi più comune, ma per darle un senso c’è bisogno di affiancarle un numero che sia un indice di dispersione dei valori attorno ad essa.

corso statistica

Come si calcola la varianza statistica

Innanzitutto vediamo come effettuare il calcolo della varianza (che nella sua formula è indicata col simbolo σ2). Ci sono due modi per farlo e può essere utile conoscerli entrambi.

METODO DIRETTO

Calcola la media aritmetica

YouTube video
Esercizio svolto media aritmetica

Somma ogni numero e dividi per il conteggio degli stessi.

Calcola gli scarti dalla media

Prendi ogni valore xi e sottrai la media trovata al punto precedente.

Eleva al quadrato gli scarti dalla media

Prendi gli scarti del punto 2 e mettili al quadrato. Moltiplicali poi per le ni, se sei in presenza di una distribuzione di frequenze assolute. Alla fine somma i valori. Se invece sei in presenza di una distribuzione di frequenze relative non hai bisogno di quest'ultima moltiplicazione

Dividi per N

Prendi la somma del punto 3 (chiamata DEVIANZA) e rapportale al totale delle osservazioni (N). Il risultato è la varianza.

NOTA: Per sua natura può essere calcolata solo su variabili quantitative.

Esempio varianza metodo diretto

Supponiamo di avere i punteggi ottenuti da un gruppo di persone in un test.
La tabella seguente mostra i diversi punteggi (\( x_i \)) e il numero di persone (\( n_i \)) che hanno ottenuto quel punteggio:

\[
\begin{array}{|c|c|}
\hline
x_i & n_i \\
\hline
6 & 10 \\
7 & 20 \\
15 & 30 \\
22 & 25 \\
30 & 15 \\
\hline
\textbf{Totale} & 100 \\
\hline
\end{array}
\]


Calcolo della media:

\[
\bar{x} = \frac{\sum n_i x_i}{\sum n_i}
\]

\[
\bar{x} = \frac{(6 \times 10) + (7 \times 20) + (15 \times 30) + (22 \times 25) + (30 \times 15)}{100}
\]

\[
\bar{x} = \frac{60 + 140 + 450 + 550 + 450}{100} = \frac{1650}{100} = 16.5
\]


Calcolo della varianza con il metodo diretto:

\[
\sigma^2 = \frac{\sum n_i (x_i - \bar{x})^2}{\sum n_i}
\]

\[
\sum n_i (x_i - \bar{x})^2 =
(10 \times (6 - 16.5)^2) + (20 \times (7 - 16.5)^2) + (30 \times (15 - 16.5)^2) +
(25 \times (22 - 16.5)^2) + (15 \times (30 - 16.5)^2)
\]

\[
= (10 \times 110.25) + (20 \times 90.25) + (30 \times 2.25) + (25 \times 30.25) + (15 \times 182.25)
\]

\[
= 1102.5 + 1805 + 67.5 + 756.25 + 2733.75
\]

\[
= 6465
\]

\[
\sigma^2 = \frac{6465}{100} = 64.65
\]


METODO INDIRETTO

Calcola la media aritmetica

Somma ogni numero e dividi per il conteggio degli stessi.

Eleva al quadrato le xi

Eleva al quadrato ogni valore xi e moltiplicalo per la ni, se sei in presenza di una distribuzione di frequenze assolute. Alla fine somma i valori.

Dividi per N

Prendi la somma del punto 2 e dividila per il totale delle osservazioni (N). Il risultato che trovi si chiama MOMENTO SECONDO ed è la prima parte della varianza.

Calcolo finale

La varianza è uguale al momento secondo meno la media al quadrato.

Esempio varianza metodo indiretto

esempio varianza metodo indiretto

\[
\begin{array}{|c|c|}
\hline
x_i & n_i \\
\hline
6 & 10 \\
7 & 20 \\
15 & 30 \\
22 & 25 \\
30 & 15 \\
\hline
\textbf{Totale} & 100 \\
\hline
\end{array}
\]


Calcolo della media:

\[
\bar{x} = \frac{\sum n_i x_i}{N}
\]

\[
\bar{x} = \frac{(6 \times 10) + (7 \times 20) + (15 \times 30) + (22 \times 25) + (30 \times 15)}{100}
\]

\[
\bar{x} = \frac{60 + 140 + 450 + 550 + 450}{100} = \frac{1650}{100} = 16.5
\]


Calcolo della varianza con il metodo indiretto:

La varianza si calcola come:

\[
\sigma^2 = M_2 - \bar{x}^2
\]

Dove \( M_2 \) è il momento secondo, definito come:

\[
M_2 = \frac{\sum n_i x_i^2}{N}
\]

Calcoliamo il momento secondo:

\[
M_2 = \frac{(6^2 \times 10) + (7^2 \times 20) + (15^2 \times 30) + (22^2 \times 25) + (30^2 \times 15)}{100}
\]

\[
= \frac{(36 \times 10) + (49 \times 20) + (225 \times 30) + (484 \times 25) + (900 \times 15)}{100}
\]

\[
= \frac{360 + 980 + 6750 + 12100 + 13500}{100}
\]

\[
M_2 = \frac{33690}{100} = 336.9
\]

Ora calcoliamo la varianza:

\[
\sigma^2 = 336.9 - (16.5)^2
\]

\[
\sigma^2 = 336.9 - 272.25
\]

\[
\sigma^2 = 64.65
\]

Varianza
Formule per il calcolo della varianza e della deviazione standard

Per aiutare gli studenti nel percorso di superamento dell'esame di statistica, ho messo a disposizione sul mio canale di Youtube un esercizio svolto con la calcolatrice scientifica, che permette di risparmiare tanto tempo e soprattutto assicura la buona riuscita dello stesso.

YouTube video
Esercizio svolto varianza, deviazione standard e coefficiente di variazione

La correzione di Sheppard

La correzione di Sheppard è una tecnica statistica utilizzata per correggere la distorsione nella stima della varianza quando i dati sono stati raggruppati in classi intervallari. Questo problema si verifica perché, quando si lavora con dati raggruppati, si perde l'informazione esatta sulle singole osservazioni e si assume che tutti i valori all'interno di una classe siano concentrati nel punto centrale dell'intervallo.

La varianza statistica pertanto è sovrastimata rispetto alla varianza della distribuzione originaria, perché ipotizza che tutti i dati in un intervallo si trovino esattamente al centro, ignorando la dispersione interna all'intervallo stesso.

Formula della Correzione di Sheppard

Per correggere questo errore, Sheppard ha proposto di sottrarre un termine di correzione, dato da:

Correzione di Sheppard

Questa correzione funziona sotto l'ipotesi che i dati siano distribuiti uniformemente all'interno di ogni intervallo di classe.

Interpretazione

  • Se gli intervalli sono molto piccoli rispetto alla dispersione della distribuzione, l'errore introdotto è minimo e la correzione è trascurabile.
  • Se gli intervalli sono ampi, la correzione diventa più significativa, perché la perdita di informazione è maggiore.

Applicazione Pratica

La correzione di Sheppard viene utilizzata principalmente:

  • Nelle statistiche descrittive, quando si calcola la varianza su dati raggruppati.
  • Nella teoria degli errori, per stimare la varianza di una popolazione a partire da dati discretizzati.
  • Nelle analisi di serie temporali, quando le misurazioni sono fatte a intervalli fissi.

Definizioni

Definizione di DEVIANZA

Al punto 4 del metodo diretto si trova la devianza. Per capire il significato di questo indicatore devi partire dalla proprietà della media aritmetica per la quale la somma di tutti gli scarti è uguale a zero.

Se infatti calcoli tutti gli scarti dalla media (xi - media) e poi li sommi, vedrai che tale somma farà sempre zero, questo perché la media è un indice di equidistribuzione e pertanto "sbaglia" in difetto e in eccesso in egual misura.

Questa somma pertanto non ti aiuta a sapere quanto i numeri si discostano dalla media e non può essere utilizzata come misura di variabilità, e allora come si fa? Si prendono gli scarti al quadrato!

Ogni scarto elevato al quadrato darà sempre un numero positivo, o al massimo nullo, ma mai negativo generando quindi una somma positiva. Tale valore è appunto la DEVIANZA.

Definizione di VARIANZA

Con la DEVIANZA ti ritrovi ad avere una somma degli scarti al quadrato che tuttavia non puoi ancora prendere come indice di variabilità.

Del resto fai lo stesso ragionamento quando come indicatore di sintesi usi la media dove non prendi solo la somma dei valori, ma dopo averli sommati li dividi per il totale generando appunto la media aritmetica che ti sintetizza la distribuzione.

Ecco, devi fare la stessa cosa con la devianza rapportandola al totale delle osservazioni che come sai viene indicato con N. Quello che trovi è la varianza!

VARIANZA = DEVIANZA / N

Di conseguenza la varianza è una media degli scarti quadratici. Il numero trovato però non ha significato reale vero e proprio perché è espresso con un'unità di misura quadrata rispetto a quella di partenza, mi spiego meglio.

Che cos'è la varianza statistica?

Probabilmente ti starai chiedendo perché gli scarti attorno al valore medio sono posti al quadrato. Perché queste quantità sono in parte negative e il quadrato rende il valore indipendente dal segno.

Il problema è che il numero ottenuto non avrà la stessa unità di misura della media aritmetica. Per risolvere l’inconveniente si usa la radice quadrata della varianza che dà luogo alla media quadratica degli scarti.

Il risultato trovato è chiamato scarto quadratico medio o deviazione standard che avrà la stessa unità di misura della variabile e di conseguenza della media.

Da quanto appena descritto puoi intuire che questo valore non sarà mai negativo, hai a che fare con quadrati e radice quadrata, ma al massimo può essere uguale a zero.

Nella realtà ciò non avviene mai perché è la situazione limite nel quale tutti i numeri sono uguali e quindi non variano.

Corso Statistica

A cosa serve la varianza?

Tra i tanti usi della varianza statistica uno in particolare merita attenzione ovvero quello riferito alle variabili casuali.

La varianza di una variabile casuale spesso cambia la forma della stessa e graficamente è utile osservare come i valori della variabile aleatoria si distribuiscano attorno al valor atteso.

Questo discorso è approfondito in uno dei miei videocorsi realizzati proprio sulla probabilità e le variabili casuali.

Se tutto questo non ti bastasse allora guarda bene il video iniziale in cui parlo della spiegazione della varianza in modo semplice attraverso un esempio di vita reale.

Cosa ci dice la varianza?

La varianza è una misura statistica che quantifica la dispersione dei dati attorno alla loro media. Questo valore ci informa su quanto i dati di un insieme si allontanano dalla media, fornendo un'idea della consistenza o variabilità dei dati.

Quando è elevata, significa che i dati si distribuiscono su un ampio intervallo di valori e mostrano una grande diversità

Ad esempio, mettiamo che tu stia analizzando le temperature giornaliere di una città nel corso di un mese. Una varianza alta indicherebbe che le temperature variano significativamente da un giorno all'altro, suggerendo un clima molto instabile e imprevedibile.

D'altra parte, un indicatore basso indica che i dati sono più concentrati e che non si discostano molto dalla media. 

Utilizzando lo stesso esempio delle temperature, significherebbe che le temperature giornaliere sono molto simili tra loro, indicando un mese con un clima stabile e prevedibile.

La comprensione della varianza è cruciale in numerosi campi applicativi. Ad esempio, in economia, conoscere la varianza delle fluttuazioni del mercato può aiutare gli investitori a comprendere il rischio associato a diversi strumenti finanziari.

In sostanza, aiuta a prendere decisioni informate basate sull'analisi di dati, che si traduce in una migliore gestione del rischio e della strategia in molteplici discipline.

Quali valori può assumere la varianza?

Può essere qualsiasi numero maggiore o uguale a zero. Non ha un limite superiore, quindi può andare da zero a infinito. 

Zero indica che tutti i valori sono identici, mentre valori più alti indicano una maggiore dispersione dei dati.

corso statistica

Quando la varianza è alta?

La varianza statistica è considerata alta quando i dati in un insieme mostrano una grande dispersione attorno alla loro media, indicando che i valori si distribuiscono su un ampio intervallo e sono significativamente diversi gli uni dagli altri. 

In statistica, questo è spesso un indicatore che il modello o i metodi utilizzati per analizzare un set di dati potrebbero non essere adeguati o necessitano di ulteriori indagini

Potrebbe anche suggerire che ci sono outliers significativi o errori nei dati che devono essere esaminati per assicurare un'analisi accurata e rappresentativa.

Esempio pratico di varianza alta 

Prendiamo le spese mensili di diverse famiglie in una città. Se la varianza delle spese è alta, significa che alcune famiglie spendono molto più di altre. 

Questo potrebbe riflettere differenze significative nel reddito, nelle abitudini di spesa, o nel numero di membri per famiglia. In un mese, alcune famiglie potrebbero spendere principalmente per necessità, mentre altre potrebbero permettersi lussi o spese extra.

Quando la varianza è uguale a zero?

Quando tutti i valori in un set di dati sono esattamente uguali. In questo caso, non c'è dispersione né variabilità tra i dati.

Esempio pratico di varianza uguale a zero 

Un gruppo di studenti riceve lo stesso punteggio in un test. Se ogni studente ha ottenuto, ad esempio, 85 su 100, la media dei punteggi sarà 85 e ogni scarto dalla media (la differenza tra ogni punteggio individuale e la media) sarà zero. 

Di conseguenza, elevando al quadrato questi scarti, otteniamo ancora zero, e la media di questi quadrati (la varianza) sarà anch'essa zero. Questo indica uniformità completa nei risultati del test, senza alcuna variazione tra gli studenti.

Quando la varianza è negativa?

La varianza non può mai essere negativa.

Se incontri un valore negativo mentre la calcoli, è sicuramente dovuto a un errore.

Come si calcola la stima della varianza?

La formula della varianza di una popolazione si calcola facendo: 

Var = Σ[(xi - media)2] / N 

Se invece la vuoi stimare attraverso un campione, la formula della varianza diventa:

Var = Σ[(xi - media)2] / (N -1)

dove: 

  • "xi" rappresenta ciascun valore nel set di dati, 
  • "media" è la media aritmetica di tutti i valori,
  • "N" è il numero totale di valori.
corso statistica

Qual è l'unità di misura della varianza?

L'unità di misura della varianza è il quadrato dell'unità di misura dei dati originali

Ad esempio, se stai misurando la lunghezza in metri, la varianza sarà in metri quadrati.

Questo avviene perché questo indicatore è calcolato come la media dei quadrati delle differenze di ciascun dato dalla media.

Dato che interpretare direttamente i valori in unità quadrate può essere complicato e poco intuitivo, spesso si preferisce utilizzare la deviazione standard, che è la radice quadrata della varianza, per tornare all'unità di misura originale dei dati.

Vantaggi e svantaggi

É una quantità ben definita nelle teorie statistiche e probabilistiche. È una componente fondamentale in concetti come la deviazione standard, l’analisi della varianza (ANOVA) e il modello di regressione.

Poiché è l’attesa del quadrato degli scarti dalla media, è più facile da manipolare matematicamente rispetto ad altre misure di dispersione. È particolarmente utile in formule che riguardano distribuzioni normali, regressione lineare e test statistici.

Tuttavia per il calcolo bisogna elevare al quadrato le differenze tra i valori e la media. Questo porta a unità di misura non intuitive come visto in precedenza.

Per questo motivo, spesso si preferisce la deviazione standard (la radice quadrata della varianza), che è nella stessa unità dei dati originali.

Un altro svantaggio sta nella sua sensibilità ai valori molto grandi o molto piccoli della distribuzione che impattano in modo sproporzionato.

Per tanto se un dataset contiene outlier, la varianza può essere enormemente influenzata, distorcendo la percezione della dispersione reale.

Varianza EXCEL

VAR.P (Num1;Num2;...)

VAR.C (Num1;Num2;...)

VAR.POP.VALORI (Num1;Num2;...)

VAR.VALORI (Num1;Num2;...)

Varianza SPSS

Analizza >>> Statistiche descrittive >>> Descrittive

Analizza >>> Statistiche descrittive >>> Frequenze

Analizza >>> Statistiche descrittive >>> Esplora

Riassumendo

  • La varianza è un indicatore di variabilità che misura gli scarti quadratici dalla media aritmetica.
  • la sua radice quadrata, deviazione standard, è commentabile perché ha la stessa unità di misura della variabile oggetto di studio.
  • il suo utilizzo è molto ampio in diversi campi della statistica tra cui variabili aleatorie, intervalli di confidenza e verifiche di ipotesi.

Le statistiche dicono che un uomo su due preferisce due donne su una.

(FLAVIO AURELIO - comico italiano)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

arrow-up-circle
error: Content is protected !!
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram