fbpx

Come creare un dataset in EXCEL

Postato il 6 Luglio 2020
Tag

Dati Excel

Nelle consulenze statistiche che mi è capitato di fare a studenti universitari o lavoratori, un problema enorme che ho riscontrato è quello di come creare un dataset.

Quando si fa una ricerca quantitativa c’è bisogno di immagazzinare i dati in un programma, come per esempio EXCEL o SPSS. Le persone spesso si trovano in difficoltà anche solo nell’inserire i dati, figuriamoci se lo devono fare in una maniera specifica.

In questo articolo voglio spiegarti con semplicità il modo corretto per raccogliere e codificare i dati per creare un dataset in EXCEL. Ti mostrerò come inserirli in Excel indipendentemente dal fatto che li devi scrivere a mano o scaricarli da un programma esterno.

Prima ancora di iniziare a reperire i dati c’è bisogno di creare un foglio con le codifiche e la spiegazione delle variabili. Tieni presente che se ti affidi a un professionista per le analisi statistiche, devi dargli uno strumento che gli faccia capire di cosa stai parlando. Il modo migliore per farlo è lo schema che ti ho preparato.

Allora vediamo insieme come creare un dataset in EXCEL.

Codifica delle variabili del dataset in EXCEL

Dataset Excel

In questa griglia ho inserito una serie di variabili che ti possono capitare quando, per esempio, sottoponi un questionario a un campione. La prima colonna contiene i nomi delle variabili che come puoi notare sono nomi corti fatti dalla lettera V, che sta per variabile, seguita da un numero.  

Se ti stai chiedendo perché tu debba chiamare le variabili in questo modo sappi che in molti software, tra cui SPSS, è agevole avere nomi corti e ordinati. Questo rende il lavoro più efficiente.

In secondo luogo, devi associare ai nomi delle etichette che è quello che ho fatto nella seconda colonna. L’etichetta sarà effettivamente quello che vedrai nelle tabelle, grafici o statistiche, quindi è molto importante che sia esplicativa ma al tempo stesso non troppo lunga altrimenti per il lettore sarà difficile identificarne il significato.

Nella terza colonna ho voluto mettere le ipotetiche domande di un questionario. La prima per esempio chiede: “Quanto spesso il canale NEGOZIO per acquistare abiti o altri oggetti fashion” Se usassi questa come etichetta sarebbe lunga e ripetitiva visto che le successive 5 hanno la stessa metrica, cambia solo il canale d’acquisto.

Inoltre, un bravo statistico riesce a capire il significato delle variabili se lo schema è chiaro e ordinato piuttosto che lungo e dispersivo.

Raggruppamento in fattori

Come creare un dataset in EXCEL

Detto questo se nel tuo disegno di ricerca sono presenti degli item che formano dei fattori, dovresti anche assegnargli dei nomi adeguati. Per esempio, io ho ipotizzato che le prime 5 domande chiedessero tutte informazioni sul fattore FREQUENZA ACQUISTI. Di conseguenza le 5 variabili le indico con tutte con V1 perché si riferiscono al primo blocco, ma le differenzio mettendo un numero dopo l’underscore.

Faccio la stessa cosa con il secondo blocco che chiamo V2 e si riferisce al fatto che le persone preferiscano più o meno l’acquisto online. Le 7 variabili sono dunque identificate con numeri che vanno da 1 a 7 dopo l’underscore, ma alla seconda di esse ci ho aggiunto anche una R, perché?

Perché la domanda è rovesciata rispetto alle altre, infatti mentre tutte hanno un’accezione positiva perché viene chiesto “Quanto sei d’accordo”, nella seconda la domanda è posta al contrario dicendo “Quanto NON sei d’accordo”. Mettendo quindi la lettera R fai capire la diversità rispetto alle altre.

Questo sarà utile proprio nella costruzione dei fattori e a volte gli studenti si dimenticano di questo dettaglio.

Tutte queste informazioni che ti sto dando servono solo se ti trovi nella situazione spiegata altrimenti puoi ovviamente sorvolare sulla questione.

Codifica delle modalità del dataset in EXCEL

Scaricare dati in Excel

Alle variabili appena descritte si usa attribuire una scala Likert a 5,7 o 9 punte.

Nell’immagine sopra puoi leggere le tipiche modalità che vanno, per esempio, da mai a sempre o da per nulla d’accordo a totalmente d’accordo.

Codifiche Excel

Nella seconda parte troviamo gli altri tipi di fenomeni. La variabile genere è la classica nominale dicotomica, cioè una variabile che ha solo due modalità, femmina e maschio. Di solito le categorie vengono etichettate con 0 e 1 e non con 1 e 2.

Sebbene la differenza sembrerebbe di poco conto, non lo è quando questi caratteri vengono inseriti in un modello di regressione e prendono il nome di variabili dummy. Se le codifichi con 1 e 2 non puoi inserirle, mentre con 0 e 1 si.

La variabile V4 invece, pur essendo anch’essa di tipo nominale, ha più di due modalità. La consuetudine è quella di partire dal numero 1 fino al raggiungimento dell’ultima categoria, in questo esempio la quarta.

La successiva variabile è il titolo di studio che è pur sempre una variabile qualitativa come le due precedenti, ma in questo caso la chiamiamo ordinale perché le modalità hanno una caratteristica in più, e cioè si possono ordinare in modo crescente. Infatti, possedere una laurea significa avere un titolo maggiore rispetto a quello delle superiori.

Ultima tipologia sono le variabili quantitative come la domanda finale sull’intenzione d’acquisto. Qui i rispondenti potevano segnalare un’ipotetica percentuale d’acquisto del prodotto. Queste variabili non hanno bisogno di codifiche in quanto sono i numeri stessi che esprimono il valore del carattere.

 Ora ti faccio vedere come dovrebbe essere la base dati di lavoro. 

Foglio dati in EXCEL con numeri

Variabili Excel

Il foglio prevede nella prima riga il nome sintetico delle variabili e nella prima colonna il numero identificativo di ogni osservazione. Tutti i dati sono dei numeri anche se la maggior parte di essi rappresenta una categoria qualitativa.

Foglio dati in EXCEL con etichette

Dataset in Excel

Sia in EXCEL che in SPSS si possono facilmente trasformare i numeri in etichette come ti mostro nell’immagine sopra dove con una semplice formula ho assegnato ad ogni numero il corrispettivo significato che avevo messo nel foglio variabili.

Questa procedura è solo estetica in quanto un software di solito ha bisogno di numeri a cui associare etichette

L’aggiunta di colori e formattazione aiutano a comprendere cosa c’è nel dataset di EXCEL rendendo il tuo lavoro e quello degli altri molto più comodo.

>> ACCEDI QUI AL FILE SU GOOGLE DRIVE

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram