Nelle consulenze statistiche che mi è capitato di fare a studenti universitari o lavoratori, un problema enorme che ho riscontrato è quello di come creare un dataset.
Quando si fa una ricerca quantitativa c’è bisogno di immagazzinare i dati in un programma, come per esempio EXCEL o SPSS. Le persone spesso si trovano in difficoltà anche solo nell’inserire i dati, figuriamoci se lo devono fare in una maniera specifica.
In questo articolo voglio spiegarti con semplicità il modo corretto per raccogliere e codificare i dati per creare un dataset in EXCEL. Ti mostrerò come inserirli in Excel indipendentemente dal fatto che li devi scrivere a mano o scaricarli da un programma esterno.
Prima ancora di iniziare a reperire i dati c’è bisogno di creare un foglio con le codifiche e la spiegazione delle variabili. Tieni presente che se ti affidi a un professionista per le analisi statistiche, devi dargli uno strumento che gli faccia capire di cosa stai parlando. Il modo migliore per farlo è lo schema che ti ho preparato.
Allora vediamo insieme come creare un dataset in EXCEL.
In questa griglia ho inserito una serie di variabili che ti possono capitare quando, per esempio, sottoponi un questionario a un campione. La prima colonna contiene i nomi delle variabili che come puoi notare sono nomi corti fatti dalla lettera V, che sta per variabile, seguita da un numero.
Se ti stai chiedendo perché tu debba chiamare le variabili in questo modo sappi che in molti software, tra cui SPSS, è agevole avere nomi corti e ordinati. Questo rende il lavoro più efficiente.
In secondo luogo, devi associare ai nomi delle etichette che è quello che ho fatto nella seconda colonna. L’etichetta sarà effettivamente quello che vedrai nelle tabelle, grafici o statistiche, quindi è molto importante che sia esplicativa ma al tempo stesso non troppo lunga altrimenti per il lettore sarà difficile identificarne il significato.
Nella terza colonna ho voluto mettere le ipotetiche domande di un questionario. La prima per esempio chiede: “Quanto spesso il canale NEGOZIO per acquistare abiti o altri oggetti fashion” Se usassi questa come etichetta sarebbe lunga e ripetitiva visto che le successive 5 hanno la stessa metrica, cambia solo il canale d’acquisto.
Inoltre, un bravo statistico riesce a capire il significato delle variabili se lo schema è chiaro e ordinato piuttosto che lungo e dispersivo.
Detto questo se nel tuo disegno di ricerca sono presenti degli item che formano dei fattori, dovresti anche assegnargli dei nomi adeguati. Per esempio, io ho ipotizzato che le prime 5 domande chiedessero tutte informazioni sul fattore FREQUENZA ACQUISTI. Di conseguenza le 5 variabili le indico con tutte con V1 perché si riferiscono al primo blocco, ma le differenzio mettendo un numero dopo l’underscore.
Faccio la stessa cosa con il secondo blocco che chiamo V2 e si riferisce al fatto che le persone preferiscano più o meno l’acquisto online. Le 7 variabili sono dunque identificate con numeri che vanno da 1 a 7 dopo l’underscore, ma alla seconda di esse ci ho aggiunto anche una R, perché?
Perché la domanda è rovesciata rispetto alle altre, infatti mentre tutte hanno un’accezione positiva perché viene chiesto “Quanto sei d’accordo”, nella seconda la domanda è posta al contrario dicendo “Quanto NON sei d’accordo”. Mettendo quindi la lettera R fai capire la diversità rispetto alle altre.
Questo sarà utile proprio nella costruzione dei fattori e a volte gli studenti si dimenticano di questo dettaglio.
Tutte queste informazioni che ti sto dando servono solo se ti trovi nella situazione spiegata altrimenti puoi ovviamente sorvolare sulla questione.
Alle variabili appena descritte si usa attribuire una scala Likert a 5,7 o 9 punte.
Nell’immagine sopra puoi leggere le tipiche modalità che vanno, per esempio, da mai a sempre o da per nulla d’accordo a totalmente d’accordo.
Nella seconda parte troviamo gli altri tipi di fenomeni. La variabile genere è la classica nominale dicotomica, cioè una variabile che ha solo due modalità, femmina e maschio. Di solito le categorie vengono etichettate con 0 e 1 e non con 1 e 2.
Sebbene la differenza sembrerebbe di poco conto, non lo è quando questi caratteri vengono inseriti in un modello di regressione e prendono il nome di variabili dummy. Se le codifichi con 1 e 2 non puoi inserirle, mentre con 0 e 1 si.
La variabile V4 invece, pur essendo anch’essa di tipo nominale, ha più di due modalità. La consuetudine è quella di partire dal numero 1 fino al raggiungimento dell’ultima categoria, in questo esempio la quarta.
La successiva variabile è il titolo di studio che è pur sempre una variabile qualitativa come le due precedenti, ma in questo caso la chiamiamo ordinale perché le modalità hanno una caratteristica in più, e cioè si possono ordinare in modo crescente. Infatti, possedere una laurea significa avere un titolo maggiore rispetto a quello delle superiori.
Ultima tipologia sono le variabili quantitative come la domanda finale sull’intenzione d’acquisto. Qui i rispondenti potevano segnalare un’ipotetica percentuale d’acquisto del prodotto. Queste variabili non hanno bisogno di codifiche in quanto sono i numeri stessi che esprimono il valore del carattere.
Ora ti faccio vedere come dovrebbe essere la base dati di lavoro.
Il foglio prevede nella prima riga il nome sintetico delle variabili e nella prima colonna il numero identificativo di ogni osservazione. Tutti i dati sono dei numeri anche se la maggior parte di essi rappresenta una categoria qualitativa.
Sia in EXCEL che in SPSS si possono facilmente trasformare i numeri in etichette come ti mostro nell’immagine sopra dove con una semplice formula ho assegnato ad ogni numero il corrispettivo significato che avevo messo nel foglio variabili.
Questa procedura è solo estetica in quanto un software di solito ha bisogno di numeri a cui associare etichette
L’aggiunta di colori e formattazione aiutano a comprendere cosa c’è nel dataset di EXCEL rendendo il tuo lavoro e quello degli altri molto più comodo.