blog
Conoscere come costruire e utilizzare una distribuzione di frequenza è il primo passo per affrontare un'analisi statistica perché ti mostra un anteprima di come sono fatti i dati.
Sono Adriano Gilardone, docente freelance di statistica e appassionato di numeri. In questa breve guida, ti spiego tutto quello che c'è da sapere per le varie distribuzioni di frequenza.
Le distribuzioni di frequenza servono in statistica per organizzare e visualizzare un insieme di dati.
Rappresentano il numero di volte, frequenze appunto, con cui ciascun valore, o gruppo di valori, appare in un dataset.
Creare una distribuzione di frequenza consente di trasformare dati grezzi in un formato più comprensibile, facilitando l'identificazione di tendenze e anomalie.
Una distribuzione di frequenza può essere rappresentata in diversi modi, tra cui tabelle e grafici come, per esempio, istogrammi o grafici a torta.
Realizzare una distribuzione di frequenza è un processo semplice. Ti spiego come fare.
Il primo passo è raccogliere i dati che vuoi analizzare. Questi dati possono provenire da vari contesti, come sondaggi, esperimenti, registrazioni aziendali o altre fonti. Assicurati che siano accurati e rappresentativi del fenomeno che stai studiando.
Una volta raccolti i dati, è importante organizzarli. A tal proposito ho realizzato un video ad hoc che ti permetterà di capire come sistemare i dati in excel in modo che siano di facile utilizzo per qualsiasi analisi e per i vari software statistici in circolazione.
Alcune variabili, soprattutto quelle qualitative continue come per esempio l'età, hanno bisogno di una ricodifica. Per fare una tabella di frequenza, inizia raggruppando le modalità in classi se stai lavorando appunto con dati continui.
Le classi devono essere mutualmente esclusive e esaustive, coprendo l'intero range dei dati senza sovrapposizioni. Successivamente, contando il numero di occorrenze delle modalità otterrai le frequenze assolute.
Dopo aver contato le frequenze, crea una tabella con due colonne principali: una per le modalità e una per le frequenze. Potresti voler aggiungere anche altre colonne che ti mostro nella seguente schema a titolo d'esempio.
La distribuzione di frequenza può essere espressa in diversi modi, ciascuno utile per specifiche analisi e interpretazioni dei dati. Ecco i principali tipi di frequenza che puoi incontrare.
La frequenza assoluta rappresenta il numero di volte che una modalità appare nel dataset. È il conteggio grezzo delle occorrenze.
Ad esempio, nello schema sopra, la terza classe (300 - 400) ha una frequenza assoluta di 43, ciò significa che nel dataset ci sono 43 valori che rientrano nella classe 300 - 400.
Questo tipo di frequenza è utile per avere un'idea chiara della distribuzione delle singole modalità.
La frequenza cumulata è la somma delle frequenze assolute fino a un certo punto nella distribuzione. In altre parole, rappresenta il numero totale di osservazioni che rientrano in un certo valore o in valori inferiori.
Ad esempio, la terza frequenza cumulata riferita alla classe 300 - 400 è 120, data dalla somma di 27+50+43. Ciò significa che nel dataset ci sono 120 osservazioni con un valore che non supera il 400.
Questo tipo di frequenza è utile per capire come i dati si accumulano e per identificare punti specifici di concentrazione nella distribuzione.
Per sua natura dunque la frequenza cumulata la puoi calcolare solo con fenomeni almeno ordinabili, cioè o qualitativi ordinali o quantitativi.
Se non hai chiaro la classificazione dei fenomeni o delle scale di modalità guardati la mia lezione del videocorso di statistica.
La frequenza relativa indica la proporzione di occorrenze di una modalità rispetto al totale delle osservazioni. Si calcola dividendo la frequenza assoluta per il numero totale di dati (N).
Ad esempio, la terza frequenza relativa è 0,215 data dal rapporto 43/200. Questo numero si interpreta meglio moltiplicandolo per 100, dando luogo al 21,5%. Ciò significa che il 21,5% delle osservazioni rientra nella classe 300 - 400.
La frequenza relativa ti restituisce il peso di ciascuna modalità sull'intero dataset.
La frequenza relativa cumulata è simile alla frequenza cumulata, ma espressa in termini relativi. Si calcola sommando le frequenze relative fino a un certo punto nella distribuzione.
Ad esempio, la terza frequenza cumulata riferita alla classe 300 - 400 è 0,60, data dalla somma di 0,135+0,250+0,215. Ciò significa che nel dataset il 60% delle osservazioni non supera il valore di 400.
Questo tipo di frequenza è utile per comprendere la proporzione cumulata delle osservazioni fino a un certo valore che serve per identificare specifici quantili della distribuzione, come per esempio quartili, mediana o percentili.
FREQUENZA (matrice_dati;matrice_bin)
Analizza >>> Statistiche descrittive >>> Frequenze
Iscriviti alla Newsletter