blog
L'analisi delle corrispondenze, detta anche correspondence analysis (CA), è una tecnica statistica multivariata che permette di "vedere" le relazioni nascoste tra due variabili qualitative.
Invece di limitarsi a tabelle di numeri, questa tecnica trasforma i dati in una mappa visiva, facilitando l'identificazione di pattern e associazioni significative.
Sono Adriano Gilardone, docente di Statistica dal 2007 e online dal 2013. Uso SPSS per le mie consulenze e lo insegno ai professionisti attraverso i miei corsi sull'analisi dati.
L'analisi delle corrispondenze è una tecnica descrittiva e esplorativa. Il suo obiettivo principale è semplificare l'interpretazione di tabelle di contingenza complesse, riducendo la dimensionalità dei dati e rappresentandoli in uno spazio a due dimensioni.
Fondamentalmente, l'analisi delle corrispondenze prende una tabella di contingenza e assegna dei "punteggi" numerici alle sue righe e colonne.
Questi punteggi permettono di rappresentare le categorie delle due variabili in uno stesso grafico, rivelando quali categorie sono più simili tra loro.
Se hai difficoltà nel comprendere la tabella di contingenza, ti lascio una lezione gratuita tratta dal mio video corso sulla statistica bivariata.
Questa capacità di sintesi visiva rende l'analisi delle corrispondenze uno strumento prezioso in diversi campi, vediamone alcuni esempi:
L'analisi delle corrispondenze si pone diversi obiettivi:
Come accennato, l'input principale per l'analisi delle corrispondenze è una tabella di contingenza. Questa tabella mostra la frequenza con cui si presentano le diverse combinazioni delle due variabili qualitative.
Prima di passare a vedere un esempio concreto, dobbiamo soffermarci un attimo su come devo essere strutturati i dati nel file .sav di spss.
In un precedente articolo ti ho parlato di come creare un dataset in SPSS dove semplicemente sulle righe ci sono le osservazioni e sulle colonne la variabili.
Per l'analisi delle corrispondenze c'è però da prendere in considerazione la variabile peso che indica le frequenza in cui la combinazione "marca-attributo" compare.
In un dataset tradizionale ogni riga rappresenta un'osservazione, mentre in questo no. Nella prima riga trovi che "Barilla" è associata alla caratteristica "Bella e impossibile" per 40 volte, che è il peso.
Significa che 40 persone hanno fatto quella associazione e nel database SPSS lo trovi scritto così, anzichè avere 40 righe con scritto "Barilla" per il brand e "Bella e impossibile" per l'attributo.
Una volta lanciata l'analisi delle corrispondenze con SPSS, la prima tabella che ti compare è proprio quella di contingenza che qui viene chiamata tabella delle corrispondenze.
Sulle righe ci sono le marche della pasta, che prenderemo come esempio per tutto l'articolo, e sulle colonne le caratteristiche che gli intervistati dovevano associare alle marche.
Come puoi notare è una tabella di contingenza un po' particolare perché è molto più grande delle solite quando utilizzi il test del chi quadro.
Ed è per questo che grazie a questa tecnica si cerca di comprendere la relazione tra queste due variabili riducendo la complessità.
I profili riga sono le distribuzioni condizionate per riga. In pratica, mostrano le frequenze relative delle marche che se moltiplichi per 100 ti daranno le percentuali.
L'ultima colonna "Margine attivo" deve dunque necessariamente fare 1 per tutte le righe perchè è la somma di tutte le frequenze relative.
Questa tabella serve solo per farti un'idea di come si distribuiscono le caratteristiche all'interno delle singole marche.
Non serve fare nessun commento, ne utilizzarla per successivi calcoli, ma ti è utile per valutare a prima vista come sono fatte le distribuzioni condizionate.
Con la stessa logica ottieni una seconda tabella nella quale vedrai le distribuzioni condizionate delle marche all'interno di ogni caratteristica.
Di conseguenza qui il "Margine attivo" te lo ritrovi nell'ultima riga che sarà la somma di tutte le frequenze relative per le singole colonne.
La prima vera tabella utile per l'interpretazione dell'analisi delle corrispondenze è quella di riepilogo. Qui ci sono diverse informazioni su cui porre l'attenzione.
Il test del chi quadro, che qui vediamo con un valore alto di 464, risulta significativo quando il valore è inferiore a 0,05.
É la classica soglia del p-value e in questo caso ci dice che le due variabili, marca e attributi, sono legate tra di loro.
Detto questo, che dovrebbe risultare abbastanza scontato, aggiungo solo che l'analisi delle corrispondenze non utilizza la comune distanza euclidea per calcolare le distanze tra i punti.
Usa invece la distanza Chi-quadrato, che "pesa" le distanze in base alle frequenze delle categorie. Questa scelta è fondamentale per garantire che categorie rare abbiano la giusta influenza sull'analisi.
Questo concetto è detto principio di equivalenza distributiva, una proprietà importante che afferma che se uniamo righe (o colonne) con profili identici, i risultati dell'analisi non cambiano.
L'inerzia è una misura della variabilità totale nei dati, simile al concetto di varianza. L'obiettivo dell'analisi delle corrispondenze è rappresentare i dati in un numero ridotto di dimensioni, di solito due, cercando di preservare il più possibile l'inerzia totale.
Nella tabella di riepilogo SPSS ci sono 11 dimensioni. Il numero è dato dalla formula MIN [ r-1 ; c-1 ] dove r = numero di righe e c = numero di colonne. Dunque MIN [ 12 ; 11 ] = 11.
Per ognuna di queste dimensioni il software calcola l'inerzia e i valori saranno sempre decrescenti. Ciò significa che la prima dimensione sarà la più importante e a seguire tutte le altre.
Una volta sommate tutte le inerzie, nella colonna "Spiegato" abbiamo la proporzione dell'inerzia per ciascuna dimensione.
La prima spiega il 44,3% della variabilità totale, numero che si ottiene facendo ( 0,129 / 0,292 ) * 100.
Siccome quello che ti interessa è la la varianza cumulata delle prime due dimensioni, allora osservi la colonna "Cumulativo" in corrispondenza della seconda riga.
Il risultato di 0,646 (64,6 % della varianza totale) è abbastanza buono in quanto un valore di 60-70% è considerato generalmente accettabile.
Il risultato finale dell'analisi delle corrispondenze è una mappa di posizionamento. In questa mappa, sia le righe che le colonne della tabella di contingenza sono rappresentate come punti. Tali punti si ricavano dalle prossime due tabelle.
Nella tabella dei punti di riga di panoramica, e cioè quella riferita alle marche, devi osservare le colonne azzurre del punteggio nella dimensione.
Una marca tende a prevalere solo in una delle dimensioni e cioè quella che avrà il numero in valore assoluto maggiore.
Per esempio "Barilla" nella prima dimensione ha un valore di -0,993 che in valore assoluto è maggiore rispetto a -0,013 della seconda dimensione.
In questo caso non ci sono dubbi che Barilla è totalmente sbilanciata nella prima dimensione e la conferma la trovi nelle due colonne arancioni che ti mostrano dove si trova l'inerzia maggiore.
Nel caso di "Del Verde" invece il punteggio della seconda dimensione (0,494) è leggermente superiore alla prima (0,424) e pertanto le due inerzie sono più vicine (0,028 vs 0,014).
In conclusione questa tabella ti restituisce sia l'appartenenza della marca a una delle due dimensioni, sia l'intensità con la quale è legata.
Con lo stesso ragionamento procedi nell'interpretazione e rappresentazione della prossima tabella che riguarda invece le caratteristiche.
Anche qui ci sono attributi che hanno una forte inerzia sbilanciata, ad esempio "Bella e Impossibile" favorevole alle seconda dimensione, mentre "Donna in Carriera" più equilibrata.
Se ti stai chiedendo se questi aggettivi siano degli stereotipi che associano alla pasta degli aggettivi riferiti alla donna, si ahimé lo sono.
Tutto quello detto finora è importante, ma soprattutto propedeutico all'interpretazione dei grafici finali. Purtroppo SPSS è un software che fa dei grafici veramente brutti.
Pertanto quello che ti mostrerò è frutto di un gran lavoro che ho fatto in Excel per rendere molto più chiaro il concetto e l'interpretazione finale dell'analisi delle corrispondenze.
Se vuoi imparare a fare grafici professionali con Excel dai un'occhiata al mio video corso GraficoMania, ti lascio anche una presentazione qua sotto.
In questo primo grafico vediamo la rappresentazione dei punti di colonna di panoramica. Per comodità ho riportato di nuovo la tabella dei dati.
La lettura del grafico non deve essere interpretata come un normale grafico a dispersione nel quale valori positivi e negativi hanno un significato numerico.
Qui il concetto è semplicemente vedere la contrapposizione dei punti.
Nel caso della prima dimensione, asse X, quelli che stanno più a sinistra verso quelli che stanno più a destra.
Nel caso della seconda dimensione, asse Y, quelli che stanno più in basso verso quelli che stanno più in alto.
Per capire bene il grafico delle caratteristiche nell'analisi delle corrispondenze segui questi punti che ti aiutano nell'interpretazione:
Una volta fatto questo vedi che io ho dato un nome a ciascun estremo dei due assi, cercando di sintetizzare al meglio gli attibuti.
Per esempio il nome "MAMMA" deriva dal fatto che le 4 caratteristiche cerchiate di verde chiaro, "Mamma premurosa", "Donna della porta accanto", "Amica fidata", "Donna in carriera", mi sembrano si avvicinino di più al concetto di mamma, fatto salvo forse l'ultima.
Ripeto, sono stereotipi che non mi trovano assolutamente d'accordo, ma l'esempio ha solo lo scopo esemplificativo di presentare l'analisi delle corrispondenze.
Per la seconda dimensione invece abbiamo solo due attributi quindi qui c'è meno spazio per la fantasia dei nomi.
Alla fine di tutto, quello che più conta è il grafico successivo, in quanto il vero scopo dell'analisi delle corrispondenze è quello di associare un attributo a una marca di pasta.
Di seguito dunque vado a creare il grafico dei punti di riga di panoramica che rappresenta le marche all'interno di un grafico cartesiano.
Qui andiamo a rappresentare le marche tenendo presente però gli estremi che abbiamo fissato nel grafico precedente.
Salta subito all'occhio come "Barilla" sia fortemente legata alla parola "Mamma", come "Cocco" si associ a "Bella" e come "Rummo" venga considerata "Vecchia".
Già questa potrebbe essere una perfetta sintesi di tutto il lavoro fatto con l'analisi delle corrispondenze, a cui puoi aggiungere altri dettagli.
Per esempio il concetto di "Santa" non è così estremo per le 4 marche gialle, come lo era invece per "Barilla".
Detto questo volendo SPSS ti restituisce anche un ultimo grafico dell'analisi delle corrispondenze, ovvero l'unione dei due precedenti per osservare meglio la situazione.
Ovviamente anche qui l'ho riprodotto in Excel, ma per quanto riguarda ciò che devi sapere segui quello che ti ho spiegato nel corso dell'articolo.
Tutto l'esempio è stato svolto con il concetto di due sole dimensione. L'analisi delle corrispondenze si può svolgere anche con più di due.
Ciò provoca il fatto che non si possano vedere graficamente i risultati ma soprattutto aumenta la complessità dell'analisi stessa.
Se vuoi approfondire l'argomento puoi sfruttare un esempio dell'analisi delle corrispondenze che mette a disposizione IBM sul proprio sito.
Iscriviti alla Newsletter