Una delle tante definizioni di statistica è quella di essere la scienza che studia i fenomeni atti a variare, pertanto se un carattere non varia, non interessa. Si fonda quindi sull'analisi dei dati, ma cosa sono i dati statistici? Semplicemente sono i valori rilevati quando si esamina uno specifico evento, e servono a studiare il fenomeno che si sta osservando.
La statistica descrittiva, o analisi descrittiva, è quella parte della statistica che si occupa di raccogliere, sintetizzare e interpretare i dati di una popolazione o di un campione.
Inoltre, possiamo dividere la statistica descrittiva in 3 diverse categorie, a seconda dei caratteri presi in considerazione durante l'analisi:
Se un'azienda fabbrica bottiglie d’acqua la sua popolazione sarà tutte le bottiglie prodotte, mentre se prendi solo una parte di esse, ti riferisci ad un campione.
Qualsiasi cosa nel mondo che ci circonda può essere espresso attraverso la statistica descrittiva, ma è chiaro che bisogna avere uno scopo ben preciso affinché possa essere utile all'analisi dei dati.
Se vuoi avere una panoramica sulla classificazione dei fenomeni statistici e delle scale di misurazione, ho messo a disposizione sul mio canale Youtube un video esplicativo tratto dal mio video corso di statistica descrittiva.
Ci sono tre fasi da attraversare per eseguire una buona statistica descrittiva:
Vediamole nel dettaglio, tenendo presente che ogni ricerca dipende anche e soprattutto da due fattori esterni: il tempo e le risorse economiche.
Ricorda infatti che, anche se hai ben chiaro lo scopo dell'analisi e sei cosciente del contesto in cui lavori, può capitare di non avere il tempo adeguato per rispettare ogni criterio oppure, anche se ce l'avessi, non disporre delle risorse necessarie per svolgere l’indagine.
Quando inizi un'indagine statistica, che sia descrittiva o di altro tipo, la prima cosa da individuare è lo scopo.
Una volta chiarito l'obiettivo è importante ottimizzare la raccolta dei dati secondo procedure accurate: la qualità del materiale su cui si lavorerà dipenderà da come sei stato bravo a fare questa operazione! Spesso si sottovaluta questa parte dando per scontato che l'analisi risolverà tutti i nostri problemi, ma non è così.
Immagina di dover preparare un piatto di carbonara. Gli ingredienti sono guanciale, uova, pecorino e pepe, ma hai solo pomodori, banane, insalata e biscotti.
Cucineresti con ingredienti del genere? Assolutamente no, e lo stesso faresti con la statistica descrittiva, perché non avrebbe senso analizzare i dati se questi fossero stati raccolti male!
Può capitare, però, di avere a disposizione quasi tutti gli ingredienti fatta qualche eccezione. In questo caso utilizzi un surrogato, ad esempio sostituisci il guanciale con la pancetta. Non è la cosa migliore da fare, ma in mancanza di altro è una buona soluzione. In statistica, quando non si hanno le risorse o i mezzi per poter raccogliere tutti i dati necessari, avviene la stessa cosa.
Rilevare dei dati può voler dire chiedere di compilare dei questionari.
In questa prima fase che devi seguire per realizzare una buona statistica descrittiva abitualmente sorgono diversi problemi: il tempo di risposta non è omogeneo, la comprensione di varie domande non è chiara per alcuni, la diffidenza nel fornire i propri dati ostacola la collaborazione. Possono inoltre intervenire fattori esterni che non facilitano la raccolta, come aver bisogno di un interscambio continuo di informazioni con la fonte dei dati. Ciò non solo porta ad un allungamento dei tempi, ma anche a una correzione degli obiettivi prefissati.
Anche la stesura di un questionario richiede diversi sforzi: se troppo lungo potrebbe risultare noioso e demotivare il rispondente, ma se troppo snello potrebbe mancare di dati importanti.
Un altro aspetto da non sottovalutare è come scrivi le domande: infatti, senza saperlo, siamo pieni di bias cognitivi che influenzano le risposte in base alle parole o alla posizione in cui viene formulata una domanda.
Un esempio lo troviamo in un esperimento due gruppi di cittadini americani vennero sottoposti a un test. Erano i tempi della guerra fredda, e parlare di comunismo negli Stati Uniti non era ben visto, pertanto i ricercatori formularono due domande simili a due gruppi distinti.
Al primo chiesero se fosse d'accordo con "il permesso di manifestare le idee comuniste negli USA” mentre per il secondo la domanda fu posta al contrario, ovvero se fosse d'accordo con "il divieto di manifestare le idee comuniste in America”.
I risultati furono molto diversi: l'uso della parola divieto influenzava l’intervistato, come se si sentisse in colpa di vietare qualcosa a qualcuno. Quel gruppo risultò maggiormente a favore delle espressioni comuniste in America, a differenza dell’altro con il quale si era usata la parola permesso.
Un altro modo per ottenere i numeri utili ad un'indagine statistica descrittiva è fare riferimento a dati già presenti in rete. In questo caso, soprattutto se si tratta di istituzioni competenti in materia, l’attendibilità è molto alta e anche il livello di accuratezza segue uno standard adeguato.
La parte negativa è che, poichè rilevazione viene da un’entità esterna, non hai il controllo dei dati e potrebbero non esserci tutte le informazioni necessarie, oppure il livello con il quale sono state classificate le variabili potrebbe non essere quello che ti interessa.
Una volta terminata la procedura di raccolta difficilmente i dati saranno già pronti per essere analizzati: puoi incontrare errori di trascrittura, d’incomprensione, dovuti al caso, o semplicemente sei di fronte alla mancanza di dati perché non è stata compilata la domanda.
Per questo motivo devi passare alla seconda fase della realizzazione di una buona indagine statistica descrittiva: la pulizia.
Cerca di togliere il maggior numero di errori: a volte, quando sono troppi, sarai costretto ad eliminare l'informazione ricevuta. Lo puoi fare togliendo dal campione una o più osservazioni, oppure cancellando una o più variabili non utili alla ricerca.
Se sei dubbioso sul da farsi puoi sempre rimandare questa pulizia ad una fase successiva, quando avrai compreso meglio la complessità dei fenomeni studiati, o eventualmente ignorare alcune righe o colonne del tuo dataset.
È consigliato anche saper aggiustare i dati secondo una logica, perché sulla base della tipologia di scale utilizzate ti puoi accorgere se alcune risposte sono state date in modo incongruente.
Se hai la certezza che un numero sia sbagliato, sostituiscilo con un altro, migliorando la qualità del database. Se invece rilevi solo l'anomalia senza poter individuare quale sia il dato corretto allora limitati a cancellare l’informazione, facendola diventare un dato mancante.
È importante gestire nel migliore dei modi i dati a disposizione per poter riclassificare le variabili nel modo adatto.
Un’errata riclassificazione dei dati o una mancanza di essa porta a non farti vedere le cose interessanti che i numeri dicono. In questa fase, però, puoi sempre modificare il punto di partenza, perché se l'errore è solo una visione d’insieme sbagliata basta cambiare la visione.
Se però hai commesso gravi errori nella fase di rilevazione allora è più difficile tornare indietro, e dovrai adattarti a quello che hai a disposizione.
Operare bene all’interno del database significa anche avere un occhio sulle future analisi da fare: questo ti permette di risparmiare moltissimo tempo nell’eventualità che i dati vengano sostituiti, aggiornati o modificati.
I maggiori software statistici ti permettono di rilanciare le analisi qualora la base dati di partenza cambi. Anche questo punto è spesso sottovalutato, pensando che una volta fatta bene l'analisi non si debba più tornare indietro o non ci sia un cambiamento futuro.
L'idea migliore, in questo caso, è quella di pensare una struttura che permetta a chiunque prenda in mano il file di poter procedere autonomamente. L'ordine e la precisione con le quali lavori in questa delicata fase permetteranno un risparmio di tempo e una migliore fruibilità da parte di chi è interessato ad usare o ad implementare statistiche descrittive o analisi più complesse.
L'ultima fase della realizzazione della tua indagine statistica descrittiva è l'analisi e rappresentazione dei dati. Ci sono tre differenti modi di analizzare i dati, che si differenziano tra loro per il numero di variabili prese in esame:
Dopo aver scelto quale analisi effettuare, cerca di capire come sono state classificate le variabili, che si suddividono in qualitative e quantitative. Tale spaccatura non è puramente teorica, ma ti indirizza verso le tecniche statistiche adeguate a quel tipo di caratteri.
Per quanto riguarda la statistica descrittiva è di fondamentale importanza imparare come descrivere e rappresentare i dati attraverso tabelle di frequenza.
Le tabelle di frequenza assolute sono i dati di partenza grezzi che vengono contati, o sommati, affinché si abbia un quadro generale dei fenomeni trattati.
In molte occasioni è utile dividere le frequenze assolute per il totale delle osservazioni dando luogo a tabelle di frequenza relative. Questi prospetti indicano delle percentuali che aiutano il ricercatore a confrontare caratteri diversi o a visualizzare la distribuzione degli stessi.
La presentazione delle tabelle ha il duplice scopo di descrivere riassuntivamente quello che hai trovato e iniziare a farti ragionare su come collegare le informazioni in esse contenute.
Non per forza queste tabelle devono dare delle risposte ai tuoi perché, ma possono preparare il terreno per l'utilizzo di strumenti più adeguati al fine di trasformare i dati in informazioni.
In qualsiasi caso i grafici rappresentano meglio delle tabelle l'andamento di un fenomeno, perché arriva prima al cervello rispetto a un elenco di numeri.
Se il grafico è usato in modo corretto ti fornisce moltissime indicazioni, se però è usato male può sortire l'effetto contrario, ovvero pensare che ci siano relazioni dove non ce ne sono, o viceversa individuare legami inesistenti a causa di un'errata rappresentazione.
A volte questo errore non è dovuto al caso ma è volontariamente utilizzato per fuorviare lo spettatore.
Un esempio sono gli strumenti di marketing.
Supponi che su una confezione di shampoo da un litro ci sia scritto che ti regalano un 25% in più rispetto a quella originale. Probabilmente senza tanto pensarci penseresti che ti abbiano regalato 250 ml di prodotto, ma invece te ne hanno dato solo 200!
Questo perché 200 ml è il 25% di 800 ml, quindi se alla vecchia confezione di 800 aggiungi i 200 di regalo, il risultato fa esattamente 1 litro.
Qui di seguito trovi i principali strumenti della statistica descrittiva:
Fase 4: Commento dei risultati
La parte conclusiva è ovviamente quella che si riferisce ai commenti dei risultati. Ricorda: più l'interpretazione delle statistiche o dei grafici è semplice e più sarà comprensibile.
È chiaro che la statistica descrittiva ha tantissimi indicatori e bisogna sapere attribuire il giusto significato ad ognuno di loro.
Scheda Dati >>> Analisi dati >>> Statistica descrittiva
Analizza >>> Statistiche descrittive >>> Descrittive
Analizza >>> Statistiche descrittive >>> Frequenze
Analizza >>> Statistiche descrittive >>> Esplora
Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa.
(GREGG EASTERBROOK - Scrittore statunitense)