In statistica la deviazione standard o scarto quadratico medio è un indice di quanto i numeri si distanzino dalla media aritmetica. In pratica misura "mediamente" quanto i valori di una distribuzione si discostino dalla media stessa.
Prima di iniziare dunque, ti consiglio di leggere l'articolo sulla media aritmetica, così comprendi anche come sia uno degli indicatori di sintesi più utilizzato e dunque uno dei più importanti.
Tale indice però ha senso solo se accompagnato da un numero che misuri la variabilità dei valori attorno alla media, quindi un indice di dispersione. E' facile intuire che se tutti i numeri sono uguali, la media è uguale agli stessi e la variabilità sarà nulla. Ma cosa succede se i numeri sono diversi? Come faccio a stabilire se la diversità è poca o è tanta? In definitiva, quando la deviazione standard è alta o bassa?
Prima di rispondere a queste domande devi sapere come calcolare la deviazione standard dimodoché tu possa capirne il significato. Ci sono due modi per farlo e sono entrambi utili.
Per trovare la formula per il calcolo della deviazione standard ci sono due diversi due modi: quello diretto e quello indiretto.
Vediamo entrambi nel dettaglio.
Somma ogni valore e dividi per il conteggio degli stessi.
Prendi ogni valore xi e toglili la media appena trovata.
Prendi gli scarti del punto 2 ed elevali al quadrato. Moltiplica tali scarti al quadrato per le ni, se sei in presenza di una distribuzione di frequenze assolute. Alla fine somma i valori.
Prendi la somma del punto 3 (chiamata DEVIANZA) e dividila per il totale delle osservazioni (N). Il risultato è la varianza.
La deviazione standard è la radice quadrata della varianza. In molti software troverai scritto sqrt che sta per square root ovvero radice quadrata in inglese.
NOTA: Per sua natura può essere calcolata solo su variabili quantitative.
Somma ogni valore e dividi per il conteggio degli stessi.
Eleva al quadrato ogni valore xi e moltiplicalo per la ni, se sei in presenza di una distribuzione di frequenze assolute. Alla fine somma i valori.
Prendi la somma del punto 2 e dividila per il totale delle osservazioni (N). Il risultato che trovi si chiama MOMENTO SECONDO ed è la prima parte della varianza.
La varianza è uguale al momento secondo meno la media al quadrato.
La deviazione standard è sempre la radice quadrata della varianza.
Come puoi vedere, quindi, in entrambi i modi per calcolare della deviazione standard avrai bisogno di partire dalla media aritmetica, perchè è l'unico modo per trovarne la formula.
Ti ho già spiegato nel dettagli la definizione di DEVIANZA nell'articolo sulla VARIANZA. Mi limito solo a dirti che rappresenta la somma dei quadrati degli scarti dalla media.
Anche qui ti consiglio di rifarti all'articolo sopra citato, ma in sintesi la varianza statistica (indicata col simbolo σ2) non è altro che il rapporto tra la DEVIANZA e il totale delle osservazioni che, come sai, viene indicato con N.
Come si calcola la varianza? La formula è molto semplice.
VARIANZA = DEVIANZA / N
Di conseguenza la varianza è una media degli scarti quadratici.
Supponi per esempio di misurare il peso di alcuni animali che avranno media 50 e varianza 100. La media di 50 si riferirà ai Kg mentre la varianza di 100 ai Kg al quadrato. Ha senso un'unità di misura espressa in Kg al quadrato?
Ed eccoci finalmente arrivati alla tanto agognata definizione di deviazione standard!
Il problema principale è quello di avere un indicatore di variabilità che abbia la stessa unità di misura del fenomeno che stai studiando e di conseguenza della sua media aritmetica.
Come detto la varianza ti restituisce un indicatore con un'unità di misura al quadrato rispetto alla media, e allora cosa si fa? Beh, basta fare la sua radice quadrata!
DEVIAZIONE STANDARD = RADICE DELLA VARIANZA
Tornando all'esempio di prima, se la media è di 50 Kg e la deviazione standard è di 10 Kg (√100 = 10) , vorrà dire che tutti i numeri "mediamente" di discosteranno di 10 Kg dalla media.
Arrivato a questo punto dovresti farti la domanda più importante. Come faccio a capire se la deviazione standard è alta o bassa?
Premessa: per valutare se la deviazione standard è elevata bisogna confrontarla con il suo valore massimo che è dato dalla moltiplicazione della media per la radice quadrata delle osservazioni meno 1.
DEVIAZIONE STANDARD MASSIMA = ( μ * √ n-1 )
il rapporto tra la deviazione standard e il suo valore massimo genera un indice normalizzato che sta tra 0 e 1 dove 0 rappresenta variabilità nulla e 1 variabilità massima
INDICE DI VARIABILITA' = DEV STD / DEV STD MAX
Osserva questo schema:
Questi dati, totalmente inventati da me, rappresentano diversi gruppi di animali (A-B-C-D-E) a cui è stato misurato il peso. Ogni gruppo è formato da 5 animali e il peso medio di ogni gruppo è di 58 Kg.
Ho appositamente scelto gruppi con lo stesso peso per farti vedere come cambiamo i numeri all'interno e di conseguenza la variabilità dei dati.
GRUPPO A: tutti i numeri sono uguali
Questo genera una deviazione standard nulla ed è il più piccolo valore che tale indice può assumere. Ovviamente questo è un caso limite che non si avvera mai anche perché un fenomeno che non varia non ha senso studiarlo dal punto di vista statistico.
GRUPPO B: i numeri si distribuiscono bene attorno alla media di 58
In questo caso i numeri variano ma di poco, infatti l'indice di variabilità è basso (0,09). Questo vuol dire che la media ben rappresenta la distribuzione.
GRUPPO C: i numeri si distribuiscono poco attorno alla media di 58
Qui i numeri iniziano a variano e non di poco visto che il minimo è 15 e il massimo è 110 ben lontani dalla media di 58. L'indice di variabilità è 0,34, non un numero così piccolo. Questo vuol dire che la media poco rappresenta la distribuzione. E' anche vero che l'esempio fatto da me solo considera solo 5 numeri e serve per puro scopo didattico.
Se la numerosità fosse maggiore bisogna valutare nel suo complesso la variabilità dei dati e magari si potrebbe anche accettare un'indice attorno allo 0,30.
GRUPPO D: i numeri non si distribuiscono per niente attorno alla media di 58
Questa è la situazione in cui i numeri sono troppo distanti dalla media. Quando le osservazioni sono molto di più delle 5 presenti, l'indicatore di sintesi più adeguato in questi casi è la mediana. L'indice di variabilità di 0,67 conferma la variabilità molto alta sintomo che la media non rappresenta la distribuzione.
GRUPPO E: tutti i numeri sono nulli tranne uno
Questo è l'altro caso limite in cui tutta l'intensità di un fenomeno si concentra in una sola modalità. E' chiaro che non ha senso una distribuzione di questo tipo, ma quello che ti interessa è osservare l'indice di variabilità che assume il suo valore massimo di 1
Per farti capire il significato dello scarto quadratico medio ti spiego un esempio di vita reale che ti può essere capitato semmai avessi valutato un investimento di denaro.
Se vuoi affidarti ad una banca per i tuoi investimenti, gli operatori finanziari ti propongono diversi scenari riconducibili quasi sempre a 3 livelli di rischio. Basso, Medio, Alto.
Intuitivamente sai che un rischio basso è collegato ad un rendimento basso in quanto probabilmente i valori del titolo che acquisti varieranno di poco.
Viceversa se acquisti titoli azionari ad alto rischio ti aspetti che le fluttuazioni siano maggiori passando da incrementi percentuali notevoli ad altrettanti decrementi.
Queste differenze sono determinate dalla deviazione standard che ti informa sul grado di variabilità del titolo acquistato.
Pertanto analizzando il flusso di dati del passato, si può stabilire attraverso la deviazione standard se il tuo investimento è a basso o alto rischio.
La deviazione standard è strettamente collegata alla varianza e dunque avrà i suoi stessi utilizzi come, tra gli altri, nelle variabili casuali, negli intervalli di confidenza e nelle verifiche di ipotesi.
Le formule descritte sopra fanno riferimento alla popolazione ma nella maggior parte dei casi si lavora con un campione.
La differenza di calcolo è minima. Quando nel metodo diretto calcoli la varianza della popolazione devi prendere la devianza e dividirla per N. Per calcolare quella del campione di basterà dividere la devianza per N-1
VARIANZA DEL CAMPIONE = DEVIANZA / N-1
La deviazione standard del campione sarà come al solito la radice quadrata della varianza del campione.
(Num1;Num2;...)
(Num1;Num2;...)
(Num1;Num2;...)
(Num1;Num2;...)
Analizza >>> Statistiche descrittive >>> Descrittive
Analizza >>> Statistiche descrittive >>> Frequenze
Analizza >>> Statistiche descrittive >>> Esplora
È appurato oltre ogni dubbio che il fumo è una delle principali cause delle statistiche
(FLETCHET KNEBEL - autore americano)