Quanto ne sai di statistica descrittiva?
Se la risposta è "non molto", sei nel posto giusto.
In questo articolo, attraverso 12 domande chiave, ti offro spiegazioni semplici sull'argomento, accompagnate da esempi concreti, utili per coloro che affrontano per la prima volta lo studio della statistica.
E non è tutto. Se sei uno studente universitario che deve preparare un esame in questa materia, ho una guida in regalo per te. Ti aiuterà a studiare in modo più veloce ed efficiente.
La statistica è una disciplina che si pone l'obiettivo di raccogliere, analizzare, interpretare, presentare e organizzare dati quantitativi e qualitativi.
Il suo scopo principale è quello di trasformare i dati grezzi in informazioni significative che possano essere utilizzate per prendere decisioni basate su evidenze concrete. Più avanti vediamo come.
La statistica descrittiva riassumere dati attraverso metodi che consentono di visualizzare e interpretare informazioni complesse in modo più intuitivo e immediato.
Questo tipo di analisi si concentra esclusivamente sui dati a disposizione, senza cercare di fare inferenze o previsioni che vadano oltre gli stessi.
Immaginiamo di voler analizzare il tuo rendimento universitario attraverso i voti dei tuoi esami.
L'analisi descrittiva utilizza la media dei voti per fornire una visione sull'andamento della tua carriera universitaria. Già solo in questa situazione esce l'essenza della statistica in generale e cioè la sintesi.
Inoltre la deviazione standard potrebbe mostrare quanto i tuoi voti variano in termini di risultato
Grafici e tabelle potrebbero poi essere impiegati per visualizzare la distribuzione dei voti o per confrontare i risultati con altri studenti studenti.
Questo tipo di analisi permette di identificare rapidamente le caratteristiche salienti di un dataset.
Oltre alle già citate statistiche di tendenza centrale o di dispersione, ci sono altre ambiti della statistica descrittiva che utilizzano indicatori specifici a seconda dello scopo.
Per esempio se hai bisogno di sapere come fluttuano gli indici dei prezzi al consumo dovrai imparare i numeri indice a base fissa o a base mobile.
Se stai studiando la distribuzione del reddito delle persone, dovrai conoscere l'indice di concentrazione di Gini.
Serve, quindi, a fornire una chiara comprensione del comportamento dei dati, facilitando decisioni basate su informazioni concrete, nell'ottica di quello che ti interessa esplorare.
Esistono principalmente tre rami: statistica descrittiva, statistica inferenziale, probabilità.
Nella statistica descrittiva possiamo includere altre tre sotto classificazioni: statistica univariata, statistica bivariata, statistica multivariata.
Nelle statistica inferenziale possiamo differenziare in: inferenza frequentista, inferenza bayesiana.
Nella probabilità possiamo includere oltre al concetto di probabilità classica, anche le variabili casuali discrete e variabili casuali continue.
Di seguito entro un po' nel dettaglio delle varie classificazioni.
Come ti ho detto, si concentra sulla raccolta, organizzazione, presentazione e sintesi dei dati.
La statistica descrittiva è utilizzata per fornire una visione generale delle caratteristiche dei dati attraverso misure di tendenza centrale come la media, la mediana e la moda, e misure di dispersione come la varianza e la deviazione standard.
L'obiettivo è rappresentare e riassumere il set di dati in modo che sia immediatamente comprensibile, senza tentare di fare inferenze o previsioni al di là del dataset stesso.
Analizza le relazioni tra due variabili.
È particolarmente utile per esaminare le connessioni e le correlazioni tra le variabili, come ad esempio la relazione tra età e reddito o tra il livello di istruzione e il tipo di occupazione.
Tecniche comuni in statistica bivariata includono il chi-quadro (dipendenza in distribuzione), l'anova a una via (dipendenza in media), la correlazione di Pearson, la regressione lineare semplice, e i diagrammi di dispersione, che aiutano a visualizzare e a quantificare la forza e la direzione delle relazioni tra le variabili.
Si basa sui dati raccolti da un campione per fare generalizzazioni su una popolazione.
Utilizza tecniche come test di ipotesi, intervalli di confidenza e metodi di regressione per fare previsioni.
La statistica inferenziale è fondamentale in molti campi della ricerca scientifica, in economia e in sociologia, dove non è praticabile o possibile raccogliere dati su tutta la popolazione.
Quest'area si occupa della teoria e delle applicazioni delle probabilità e delle variabili casuali.
La probabilità quantifica l'incertezza e si utilizza per descrivere la frequenza con cui si prevede che accada un evento, basandosi su un modello probabilistico.
Le variabili casuali sono variabili che possono assumere diversi valori, dipendenti dal risultato di un processo casuale.
Anche se dovresti già aver colto la differenza tra i vari tipi di statistica, voglio entrare ancora più in profondità e spiegarti ciò che contraddistingue la statistica descrittiva e inferenziale.
Nella statistica descrittiva, l'obiettivo principale è di presentare i dati in modo tale da fornire una visione chiara e sintetica delle caratteristiche del dataset. Non tenta di fare inferenze oltre i dati osservati, né cerca di prevedere o di generalizzare i risultati a popolazioni più ampie.
Al contrario, la statistica inferenziale mira a fare previsioni o generalizzazioni su una popolazione più ampia a partire da un campione di dati.
Se un ricercatore raccoglie i dati sui voti finali di una classe, potrebbe utilizzare la statistica descrittiva per calcolare la media dei voti, trovare il voto più frequente (moda) e tracciare un grafico a barre per mostrare la distribuzione dei voti.
Se lo stesso ricercatore vuole sapere se c'è una differenza significativa nei voti tra maschi e femmine nella classe, potrebbe utilizzare un test di ipotesi per determinare se le differenze osservate nei voti sono statisticamente significative o semplicemente dovute a variazioni casuali.
Per rispondere a questa domanda, per nulla scontata, procedo per area.
La probabilità si basa su modelli matematici e teorie che descrivono sistemi idealizzati; la statistica descrittiva si occupa di dati reali e spesso disordinati.
La probabilità cerca di prevedere la frequenza di un evento prima che accada, basandosi su principi teorici; la statistica descrittiva analizza eventi che sono già accaduti per trarre conclusioni o fare previsioni.
La probabilità utilizza modelli matematici per definire le leggi che governano i dati; la statistica descrittiva utilizza i dati per testare le teorie e valutare le relazioni tra variabili.
La media è calcolata sommando tutti i valori numerici di un dataset e dividendo la somma per il numero totale di valori.
Fornisce un buon indicatore del 'centro' dei dati, ma può essere sensibile agli outliers, cioè valori molto alti o molto bassi rispetto alla norma.
La mediana è il valore che divide il dataset in due parti uguali quando i dati sono ordinati in modo crescente. È meno sensibile agli outliers rispetto alla media e viene spesso utilizzata per descrivere la tendenza centrale in distribuzioni fortemente asimmetriche.
La moda è il valore o i valori che compaiono con maggiore frequenza in un dataset. È particolarmente utile in analisi descrittiva quando i dati sono categorici (non numerici), permettendo di identificare la categoria più comune.
La varianza misura quanto i dati si diffondono rispetto alla media. Si calcola come la media degli scarti quadratici dalla media aritmetica. Una varianza elevata indica una grande dispersione dei dati intorno alla media.
La deviazione standard è la radice quadrata della varianza e fornisce una misura della dispersione dei dati in unità della stessa misura dei dati stessi. È uno degli indicatori più utilizzati per valutare la variabilità o la dispersione dei dati.
Il range è la differenza tra il valore massimo e il valore minimo in un dataset. Fornisce un'indicazione immediata dell'ampiezza della variazione dei dati, ma non dà informazioni sulla distribuzione di tutti i valori intermedi.
Il coefficiente di variazione misura la dispersione relativa della deviazione standard rispetto alla media. È utile per confrontare la variabilità tra due o più distribuzioni.
Le variabili sono elementi che rappresentano le caratteristiche o i tratti che possono assumere diversi valori in un'indagine o uno studio.
Comprendere i tipi di variabili è fondamentale per scegliere le tecniche di analisi appropriate e per interpretare correttamente i dati.
Esistono due categorie principali di variabili: quantitative e qualitative.
Le variabili quantitative sono quelle che esprimono una quantità numerica e sono misurabili. Si suddividono ulteriormente in due sottocategorie.
Rappresentano informazioni che possono essere contate su una scala interrompibile e che assumono valori specifici. Esempi includono il numero di bambini in una famiglia, il numero di auto vendute da un concessionario in un mese, o il numero di studenti in una classe.
Riguardano misurazioni e possono assumere qualsiasi valore all'interno di un intervallo o una scala continua. Esempi di variabili continue sono l'altezza, il peso, la temperatura, o il tempo impiegato per completare una task. Queste variabili sono spesso misurate e possono includere frazioni e decimali.
Le variabili qualitative, conosciute anche come categoriche, descrivono caratteristiche non numeriche o categorie. Si dividono anch'esse in due tipi.
Sono usate per etichettare categorie discrete senza alcun ordine o grado significativo. Non esiste una scala, e i numeri servono solo per identificare le categorie. Esempi di variabili nominali includono il genere, il colore dei capelli, il tipo di abitazione, o la marca di un'auto.
Rappresentano categorie con un ordine naturale o una graduatoria, ma le differenze tra le categorie non sono necessariamente uniformi o misurabili. Esempi possono essere i livelli di istruzione (diploma, laurea, master, dottorato), o i livelli di soddisfazione in un sondaggio (insoddisfatto, neutro, soddisfatto).
Ti lascio un piccolo estratto della mia guida gratuita nella quale puoi scaricare il formulario di statistica
Nella statistica descrittiva, ma in generale in tutta la statistica, il simbolo Xi rappresenta l'i-esima modalità in un set di dati, dove "i" è il numero della riga.
Il processo statistico è un percorso metodico che attraversa diverse fasi.
Ti spiego le principali.
Tutto inizia con la definizione chiara del problema o della questione di ricerca.
In questa fase, si identificano gli obiettivi dello studio, le domande chiave a cui si vuole rispondere, e si specificano le ipotesi da testare.
La comprensione precisa del problema guida tutte le fasi successive dell'analisi.
Questa fase implica la raccolta delle informazioni necessarie per rispondere alle domande di ricerca.
I dati possono essere raccolti attraverso vari metodi, inclusi esperimenti, sondaggi, osservazioni o fonti di dati esistenti.
La scelta del metodo di raccolta dati dipenderà dal tipo di informazioni richieste, dalla disponibilità delle risorse e dal contesto specifico dello studio.
Una volta raccolti, i dati devono essere organizzati in un formato che faciliti l'analisi.
Questo può includere la codifica, la categorizzazione e l'inserimento dei dati in tabelle o database.
Organizzare i dati in modo efficace minimizza errori e semplifica le fasi successive del processo.
Durante questa fase, i dati vengono esaminati attraverso metodi statistici per estrarre pattern, tendenze e correlazioni.
L'analisi può variare da tecniche descrittive semplici, come il calcolo della media e della deviazione standard, a metodi più complessi come l'analisi inferenziale, che può includere test di ipotesi e modelli di regressione.
L'interpretazione consiste nel dare significato ai risultati dell'analisi.
Si valuta se i dati supportano le ipotesi iniziali, si discutono le implicazioni dei risultati e si considerano le limitazioni dello studio.
È essenziale un'interpretazione oggettiva e critica per evitare conclusioni errate.
L'ultima fase del processo statistico è la presentazione dei risultati a un pubblico interessato, che può variare da esperti di settore a un pubblico generale.
La presentazione può assumere varie forme, inclusi report scritti, presentazioni orali, o visualizzazioni grafiche, e dovrebbe sempre essere chiara, concisa e accurata.
Prima di iniziare, carica il tuo dataset in Excel e assicurati che ogni variabile sia in una colonna e ogni osservazione in una riga separata.
Etichetta ogni colonna con un'intestazione chiara per facilitare il riconoscimento delle variabili.
MEDIA (num1;[num2];...)
MEDIA.VALORI (num1;[num2];...)
MEDIA TRONCATA (Matrice;Percento)
MEDIA.SE (Intervallo;Criterio;Int_media)
MEDIA.PIU'.SE (Int_media;Int_criteri1;Criterio1;Int_criteri2;Criterio2;...)
MEDIANA (num1;[num2];...)
MODA.SING (num1;[num2];...)
MODA.MULT(num1;[num2];...)
VAR.P (Num1;Num2;...)
VAR.C (Num1;Num2;...)
(Num1;Num2;...)
(Num1;Num2;...)
(Num1;Num2;...)
(Num1;Num2;...)
(Num1;Num2;...)
(Num1;Num2;...)
Puoi calcolare la differenza tra il valore massimo e minimo usando le due specifiche funzioni.
MAX (Num1;Num2;...)
MIN (Num1;Num2;...)
I dati possono essere rappresentati mediante tabelle di frequenza, grafici, diagrammi e altre forme visive che aiutano a illustrare e comprendere meglio le informazioni raccolte, facilitando l'interpretazione e la comunicazione dei risultati statistici.