fbpx

Statistica descrittiva: 4 fasi da seguire

Postato il 11 Maggio 2020
Tag

La statistica descrittiva è quella parte della statistica che si occupa di raccogliere, sintetizzare e interpretare i dati di una popolazione o di un campione.

Quando parli di una popolazione non intendi solamente un gruppo di persone, ma in senso più lato ad un insieme di osservazioni.

Differenza tra popolazione e campione

Se un'azienda fabbrica bottiglie d’acqua la sua popolazione sarà tutte le bottiglie prodotte, mentre se prendi solo una parte di esse, ti riferisci ad un campione.

Qualsiasi cosa nel mondo che ci circonda può essere espresso con statistiche descrittive, ma è chiaro che bisogna avere uno scopo ben preciso affinché possa essere utile all'analisi dei dati.

Definizione di statistica descrittiva

Una delle tante definizioni di statistica è quella di essere la scienza che studia i fenomeni atti a variare, pertanto se un carattere non varia, non interessa.

Prova a immaginare se dovessi studiare l'andamento dei titoli azionari in borsa e questi non cambiassero mai nel corso degli anni; non avrebbe alcun senso conoscere i numeri in quanto sarebbero tutti uguali.

Se vuoi avere una panoramica sulla classificazione dei fenomeni statistici e delle scale di misurazione, ho messo a disposizione sul mio canale Youtube un video esplicativo tratto dal mio video corso di statistica descrittiva.

Fasi della statistica descrittiva

Ci sono tre fasi che devi attraversare per eseguire una buona statistica descrittiva:

  1. metodologia di raccolta dei dati
  2. pulizia e gestione dei dati
  3. analisi e rappresentazione dei dati
  4. commento dei risultati

Vediamo nel dettaglio le singole fasi tenendo presente che ogni ricerca dipende anche e soprattutto da due fattori esterni che sono il tempo e le risorse economiche. 

Anche se hai ben chiaro lo scopo delle nostre analisi e sei cosciente del contesto in cui lavori, spesso non hai il tempo adeguato per rispettare ogni criterio oppure, anche se ce l'avessi, non disponi delle risorse necessarie per svolgere l’indagine.

Fase 1: Metodologia di raccolta dei dati

Quando inizi un'indagine statistica la prima cosa da individuare è lo scopo. Una volta chiarito l'obiettivo è importante ottimizzare la raccolta dei dati secondo procedure accurate.

Successivamente la qualità del materiale su cui si lavorerà dipenderà da come sei stato bravo a fare questa operazione. Spesso si sottovaluta questa parte dando per scontato che l'analisi risolverà tutti i nostri problemi, ma seguimi in questo esempio per capire che non è così.

Metafora degli ingredienti

Che cos’è la statistica descrittiva?

Immagina di dover preparare un piatto di pasta alla carbonara e di essere il miglior chef al mondo per la realizzazione di questa pietanza.

Sai benissimo che gli ingredienti abituali sono il guanciale, le uova, il pecorino e il pepe, ma invece ti ritrovi miseramente ad avere con te solo pomodori, banane, insalata e biscotti. 

Che orrore! Ti metteresti a cucinare una carbonara con ingredienti del genere? Assolutamente no e lo stesso faresti con la statistica descrittiva perché non avrebbe senso analizzare i dati se questi fossero stati raccolti male.

Può capitare però di avere a disposizione quasi tutti gli ingredienti fatta qualche eccezione. In questo caso utilizzi un surrogato, ad esempio sostituisci il guanciale con la pancetta.

Non è la cosa migliore da fare, ma in mancanza di altro è pur sempre una buona soluzione. In statistica quando non si hanno le risorse o i mezzi per poter raccogliere tutti i dati necessari avviene la stessa cosa.

È chiaro quindi che migliore è la qualità dei dati che riesci a reperire sul campo e meglio sarà il risultato finale dell’analisi.

Rilevazione dei dati

Questionario

Rilevare dei dati può voler dire chiedere a persone, aziende o istituzioni di compilare dei questionari per ricevere le informazioni che ti interessano.

In questa fase abitualmente sorgono diversi problemi: il tempo di risposta non è omogeneo per tutti gli interlocutori, la comprensione di varie domande non è chiara per alcuni, la diffidenza nel fornire i propri dati ostacola la collaborazione. In generale possono intervenire fattori esterni che non facilitano la raccolta completa.

A volte hai bisogno di un interscambio continuo di informazioni tra te e la fonte dei dati che non solo porta ad un allungamento dei tempi, ma anche a una correzione degli obiettivi prefissati.

Anche la stesura di un questionario richiede diversi sforzi, se infatti pensi di fare molte domande per avere il maggior numero di informazioni tieni presente a quale platea ti rivolgi. 

È plausibile pensare che un questionario troppo lungo sia noioso e demotivi il rispondente andando a distorcere i risultati ottenuti, ma al tempo stesso un formulario troppo snello potrebbe mancare di dati importanti utili all’analisi.

Il giusto mix dovuto ad esperienza e competenza fa sì che in molti campi ci siano linee guida da seguire per la buona riuscita di un questionario.

Un altro aspetto da non sottovalutare è il modo con cui scrivi le domande, infatti senza saperlo siamo pieni di bias cognitivi che influenzano le risposte in base alle parole o alla posizione in cui una domanda ci viene formulata.

Esempio bias cognitivo

Un esempio di questa strana situazione lo troviamo durante un esperimento in cui dei ricercatori sottoposero un test a due gruppi di cittadini americani. Erano i tempi della guerra fredda e parlare di comunismo negli Stati Uniti non era ben visto pertanto i ricercatori formularono due domande simili a due gruppi distinti.

Al primo chiesero “se fossero d'accordo con il permesso di manifestare le idee comuniste negli USA” mentre per il secondo la domanda fu posta al contrario ovvero “se fossero d'accordo con il divieto di manifestare le idee comuniste in America”. 

Ebbene i risultati furono molto diversi in quanto l'uso della parola divieto influenzava maggiormente l’intervistato come se si sentisse in colpa di vietare qualcosa a qualcuno.

Quel gruppo risultò maggiormente a favore delle espressioni comuniste in America a differenza dell’altro gruppo con il quale si era usata la parola permesso.

Internet

Un altro modo per ottenere i numeri utili ad un'indagine statistica è quello di fare riferimento a dati già presenti in rete.

In questo caso, soprattutto se si tratta di istituzioni competenti in materia, l’attendibilità è molto alta e anche il livello di accuratezza segue uno standard adeguato.

La parte negativa è che essendo stata fatta la rilevazione da un’entità esterna non hai il controllo dei dati e potrebbe succedere che non ci siano tutte le informazioni necessarie oppure che il livello con il quale sono state classificate le variabili non è quello che ti interessa, ti faccio un esempio.

Esempio di dati reperiti in internet

Immagina di dover studiare l'andamento di un indicatore economico della tua provincia per valutare se sei in linea con il tuo mercato di riferimento, ma i dati trovati in rete si riferiscono solo alla regione.

Avresti un’informazione immediata recuperata senza troppo sforzo, ma non molto utile se la tua piccola azienda lavora solo nella tua provincia.

A quel punto dovresti chiederti se sia più utile utilizzare quell’informazione e adattarla al tuo caso oppure impiegare risorse aggiuntive per ottenere il livello di dettaglio desiderato.

Fase 2: Pulizia e gestione dei dati

Che cos’è la statistica descrittiva?

Una volta terminata la procedura di raccolta speri di trovarti nelle condizioni di avere un grosso quantitativo di dati e che nulla sia andato storto. Anche ad essere ottimisti difficilmente i dati saranno già pronti per essere analizzati, per diverse ragioni. 

Pulizia dei dati

Puoi incontrare errori di trascrittura, d’incomprensione da parte del rispondente, errori dovuti al caso o semplicemente sei di fronte alla mancanza di dati perché non è stata compilata la domanda.

Grazie all'utilizzo dei mezzi tecnologici e delle conoscenze statistiche devi cercare di fare pulizia tra i tuoi dati per togliere il maggior numero di errori. A volte quando questi sono troppi, sei costretto ad eliminare l'informazione ricevuta.

Lo puoi fare togliendo dal campione una o più osservazioni oppure cancellando una o più variabili perché non utili alla ricerca.

Se sei dubbioso sul da farsi puoi sempre rimandare questa pulizia ad una fase successiva quando avrai compreso meglio la complessità dei fenomeni studiati o eventualmente ignorare alcune righe o colonne del tuo dataset.

È consigliato anche saper aggiustare i dati secondo una logica perché sulla base della tipologia di scale utilizzate ti puoi accorgere che alcune risposte siano state date in modo incongruente.

Se hai la certezza che un numero sia sbagliato, lo sostituisci con un altro migliorando la qualità del database, se invece rilevi solo l'anomalia senza poter individuare quale sia il dato corretto allora limitati a cancellare l’informazione facendola diventare un dato mancante.

È importante poi gestire nel migliore dei modi i dati a disposizione per poter riclassificare le variabili nel modo adatto.

Gestione dei dati

Prendi come esempio l'età delle persone che hai rilevato puntualmente su ogni soggetto. Se il tuo scopo è capire come sono distribuite le vendite a seconda di particolari fasce di età dovrai prendere la variabile e ricodificarla in classi, con le quali puoi vedere meglio l'andamento del fenomeno.

Se la raccolta dei dati la potevi metaforicamente pensare ad una spesa al supermercato per comprare gli ingredienti di una ricetta, la gestione dei dati la puoi paragonare alla preparazione di questi ingredienti prima della realizzazione stessa del piatto da cucinare.

Anche qui un’errata riclassificazione o una mancanza di essa ti porta a non farti vedere le cose interessanti che i numeri dicono. Dalla tua parte hai che in questa fase puoi sempre modificare il punto di partenza perché se l'errore è solo una visione d’insieme sbagliata basta cambiare la visione e le cose migliorano.

Se però hai commesso gravi errori nella fase di rilevazione allora è più difficile tornare indietro e dovrai adattarti a quello che hai a disposizione.

Operare bene all’interno del database significa anche avere un occhio sulle future analisi da fare. Questo ti permette di risparmiare moltissimo tempo nell’eventualità che i dati vengano sostituiti, aggiornati o modificati. 

I maggiori software statistici ti permettono di rilanciare le analisi qualora la base dati di partenza cambi. Anche questo punto è spesso sottovalutato pensando che una volta fatta bene l'analisi non si debba più tornare indietro o non ci sia un cambiamento futuro.

L'idea migliore in questo caso è quella di pensare una struttura che permetta a chiunque prenda in mano il file di poter procedere autonomamente.

L'ordine e la precisione con le quali lavori in questa delicata fase permetteranno un risparmio di tempo e una migliore fruibilità da parte di chi è interessato ad usare o ad implementare statistiche descrittive o analisi più complesse.

Fase 3: Analisi e rappresentazione dei dati

Statistica descrittiva

Sei finalmente arrivato al cuore dell’analisi dove i frutti dei sacrifici fatti in precedenza possono essere ripagati grazie alle tue competenze specifiche.

Personalmente ritengo che un buon statistico debba avere come caratteristica di base la curiosità. Essere curiosi significa principalmente porsi delle domande e cercare attraverso degli strumenti di dare delle risposte.

Per prima cosa cerca di capire come sono state classificate le variabili che si suddividono in qualitative e quantitative. Tale spaccatura non è puramente teorica, ma ti indirizza verso le tecniche statistiche adeguate a quel tipo di caratteri.

Tabelle di frequenza

Per quanto riguarda la statistica descrittiva è di fondamentale importanza la rappresentazione dei dati attraverso tabelle di frequenza.

Le tabelle di frequenza assolute sono i dati di partenza grezzi che vengono contati o sommati affinché si abbia un quadro generale dei fenomeni trattati.

In molte occasioni è utile dividere le frequenze assolute per il totale delle osservazioni dando luogo a tabelle di frequenza relative. Questi prospetti indicano delle percentuali che aiutano il ricercatore a confrontare caratteri diversi o a visualizzare la distribuzione degli stessi.

La presentazione delle tabelle ha il duplice scopo di descrivere riassuntivamente quello che hai trovato e iniziare a farti ragionare su come collegare le informazioni in esse contenute.

Non per forza queste tabelle ti devono dare delle risposte ai tuoi perché, ma possono preparare il terreno per l'utilizzo di strumenti più adeguati al fine di trasformare i dati in informazioni.

Grafici

In qualsiasi caso i grafici rappresentano meglio delle tabelle l'andamento di un fenomeno questo perché la vista arriva prima al cervello della lettura di una tabella con molti numeri.

Se il grafico è usato in modo corretto ti fornisce moltissime indicazioni, se però è usato male può sortire l'effetto contrario ovvero pensare che ci siano relazioni dove non ce ne sono o viceversa individuare legami inesistenti a causa di un'errata rappresentazione.

A volte questo errore non è dovuto al caso ma è volontariamente utilizzato per fuorviare lo spettatore.

Distorsione dei dati

Un esempio sono gli strumenti di marketing utilizzati dai venditori. 

Supponi che su una confezione di shampoo da un litro ci sia scritto che ti regalano un 25% in più rispetto a quella originale. Probabilmente senza tanto pensarci penseresti che ti abbiano regalato 250 ML di prodotto, ma invece te ne hanno dato solo 200!

E’ già perché 200 ML è il 25% di 800 ML quindi se alla vecchia confezione di 800 aggiungi i 200 di regalo, il risultato fa esattamente 1 litro.

Abbiamo quindi capito che la statistica descrittiva è uno strumento importante per l'interpretazione dei dati ma è anche un'arma a doppio taglio se utilizzata in modo ingannevole per far credere alle persone una cosa al posto di un'altra.

Elenco dei principali indicatori della statistica descrittiva

Qui di seguiti ti metto i principali strumenti della statistica descrittiva che puoi approfondire cliccandoci sopra:

  • Scale di modalità
  • Distribuzioni di frequenze
  • Grafici
  • Rapporti statistici
  • Media aritmetica
  • Media quadratica
  • Media armonica
  • Media geometrica
  • Moda
  • Mediana
  • Quartili
  • Varianza
  • Deviazione standard
  • Coefficiente di variazione
  • Scostamento semplice medio
  • Differenza media semplice e con ripetizione
  • Indice relativo di eterogeneità di Gini
  • Indice relativo di entropia
  • Indice di asimmetria di Fisher
  • Indice di curtosi di Fisher
  • Indice di concentrazione di Gini
  • Numeri indice base fissa
  • Numeri indice base mobile
  • Tasso medio di variazione

Fase 4: Commento dei risultati

La parte conclusiva è ovviamente quella che si riferisce ai commenti dei risultati. Ai miei studenti dico sempre questa cosa: se riesci a spiegare ciò che hai studiato al vecchietto del bar sotto casa tua, vuol dire che hai capito.

Questo significa che l'interpretazione delle statistiche o dei grafici non deve essere per forza articolata e complessa, anzi. Più è semplice e meglio sarà la comprensione di chi ascolta.

E' chiaro che la statistica descrittiva ha tantissimi indicatori e bisogna sapere attribuire il giusto significato ad ognuno di loro.

Statistica descrittiva EXCEL

Scheda Dati >>> Analisi dati >>> Statistica descrittiva

Statistica descrittiva SPSS

Analizza >>> Statistiche descrittive >>> Descrittive

Analizza >>> Statistiche descrittive >>> Frequenze

Analizza >>> Statistiche descrittive >>> Esplora

Riassumendo

  • Fase 1: Raccolta dei dati attraverso questionari, moduli online, ricerca su internet facendo attenzione alla qualità e alla tipologia.
  • Fase 2: Pulizia dei dati, analisi valori mancanti, gestione dei dati, modifica delle variabili
  • Fase 3: Analisi dei dati con tabelle e rappresentazioni grafiche 
  • Fase 4: Commento dei risultati

Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa.

(GREGG EASTERBROOK - Scrittore statunitense)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram