whatsapp
Adriano Gilardone
Adriano Gilardone
adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi
blog

blog

Analisi delle corrispondenze: guida pratica in SPSS

Ultima modifica (29 Aprile 2025)
Postato il 29 Aprile 2025
Tag

L'analisi delle corrispondenze, detta anche correspondence analysis (CA), è una tecnica statistica multivariata che permette di "vedere" le relazioni nascoste tra due variabili qualitative.

Invece di limitarsi a tabelle di numeri, questa tecnica trasforma i dati in una mappa visiva, facilitando l'identificazione di pattern e associazioni significative.  

Sono Adriano Gilardone, docente di Statistica dal 2007 e online dal 2013. Uso SPSS per le mie consulenze e lo insegno ai professionisti attraverso i miei corsi sull'analisi dati.

corso spss

Cos'è l'Analisi delle Corrispondenze

L'analisi delle corrispondenze è una tecnica descrittiva e esplorativa. Il suo obiettivo principale è semplificare l'interpretazione di tabelle di contingenza complesse, riducendo la dimensionalità dei dati e rappresentandoli in uno spazio a due dimensioni.  

Fondamentalmente, l'analisi delle corrispondenze prende una tabella di contingenza e assegna dei "punteggi" numerici alle sue righe e colonne.

Questi punteggi permettono di rappresentare le categorie delle due variabili in uno stesso grafico, rivelando quali categorie sono più simili tra loro.

Se hai difficoltà nel comprendere la tabella di contingenza, ti lascio una lezione gratuita tratta dal mio video corso sulla statistica bivariata.

YouTube video

Questa capacità di sintesi visiva rende l'analisi delle corrispondenze uno strumento prezioso in diversi campi, vediamone alcuni esempi:

  • Marketing: É il settore principale e serve per l'analisi del posizionamento dei brand, per esempio un’azienda di bellezza che analizza la percezione dei marchi (L’Oréal, Garnier, Kiehl’s, ecc.) rispetto a concetti come (naturale, luxury, per giovani).
  • Scienze sociali: Per lo studio delle associazioni tra atteggiamenti e comportamenti, per esempio tra tipi di viaggio (Crociera, Viaggio organizzato, Avventura) e stili di vita (Dinamico, Retrò, Sportivo).
  • Scienze Politiche: Studio delle relazioni tra orientamenti politici (Sinistra, Centro, Destra) e preferenze di voto (Partito X, Partito Y, Astenuto).
  • Sociologia: Analisi delle associazioni tra classe sociale (Alta, Media, Bassa) e stili di vita (Sportivo, Intellettuale, Casalingo).
  • Psicologia: Indagine delle connessioni tra tratti di personalità (Estroversione, Introversione, Apertura) e scelte di carriera (Arte, Scienza, Commercio).
  • Geografia: Esplorazione delle correlazioni tra regioni geografiche (Nord, Centro, Sud) e indicatori socio-economici (Reddito pro capite, Tasso di disoccupazione, Livello di istruzione).
  • Linguistica: Studio delle associazioni tra generi letterari (Romanzo, Poesia, Teatro) e caratteristiche stilistiche (Lessico, Sintassi, Tono).

Obiettivi dell'Analisi delle Corrispondenze

L'analisi delle corrispondenze si pone diversi obiettivi:

  • Riduzione della dimensionalità: Trasformare una tabella complessa in un grafico semplice da interpretare.  
  • Visualizzazione delle relazioni: Evidenziare quali categorie delle due variabili sono più strettamente associate.  
  • Identificazione di pattern: Scoprire strutture nei dati che potrebbero non essere evidenti a prima vista.
  • Posizionamento: Nel marketing, ad esempio, può essere usata per posizionare prodotti o marche rispetto a determinate caratteristiche.

Esempio Analisi delle Corrispondenze in SPSS

Tabella di contingenza

Come accennato, l'input principale per l'analisi delle corrispondenze è una tabella di contingenza. Questa tabella mostra la frequenza con cui si presentano le diverse combinazioni delle due variabili qualitative.

Prima di passare a vedere un esempio concreto, dobbiamo soffermarci un attimo su come devo essere strutturati i dati nel file .sav di spss.

In un precedente articolo ti ho parlato di come creare un dataset in SPSS dove semplicemente sulle righe ci sono le osservazioni e sulle colonne la variabili.

Dataset SPSS

Per l'analisi delle corrispondenze c'è però da prendere in considerazione la variabile peso che indica le frequenza in cui la combinazione "marca-attributo" compare.

Analisi delle corrispondenze

In un dataset tradizionale ogni riga rappresenta un'osservazione, mentre in questo no. Nella prima riga trovi che "Barilla" è associata alla caratteristica "Bella e impossibile" per 40 volte, che è il peso.

Significa che 40 persone hanno fatto quella associazione e nel database SPSS lo trovi scritto così, anzichè avere 40 righe con scritto "Barilla" per il brand e "Bella e impossibile" per l'attributo.

Output SPSS

Una volta lanciata l'analisi delle corrispondenze con SPSS, la prima tabella che ti compare è proprio quella di contingenza che qui viene chiamata tabella delle corrispondenze.

tabella delle corrispondenze

Sulle righe ci sono le marche della pasta, che prenderemo come esempio per tutto l'articolo, e sulle colonne le caratteristiche che gli intervistati dovevano associare alle marche.

Come puoi notare è una tabella di contingenza un po' particolare perché è molto più grande delle solite quando utilizzi il test del chi quadro.

Ed è per questo che grazie a questa tecnica si cerca di comprendere la relazione tra queste due variabili riducendo la complessità.

Profili di riga

I profili riga sono le distribuzioni condizionate per riga. In pratica, mostrano le frequenze relative delle marche che se moltiplichi per 100 ti daranno le percentuali.

L'ultima colonna "Margine attivo" deve dunque necessariamente fare 1 per tutte le righe perchè è la somma di tutte le frequenze relative.

profili riga

Questa tabella serve solo per farti un'idea di come si distribuiscono le caratteristiche all'interno delle singole marche.

Non serve fare nessun commento, ne utilizzarla per successivi calcoli, ma ti è utile per valutare a prima vista come sono fatte le distribuzioni condizionate.

Profili di colonna

Con la stessa logica ottieni una seconda tabella nella quale vedrai le distribuzioni condizionate delle marche all'interno di ogni caratteristica.

Di conseguenza qui il "Margine attivo" te lo ritrovi nell'ultima riga che sarà la somma di tutte le frequenze relative per le singole colonne.

Profili di colonna

La prima vera tabella utile per l'interpretazione dell'analisi delle corrispondenze è quella di riepilogo. Qui ci sono diverse informazioni su cui porre l'attenzione.

Analisi delle corrispondenze

Test del chi quadrato

Il test del chi quadro, che qui vediamo con un valore alto di 464, risulta significativo quando il valore è inferiore a 0,05.

É la classica soglia del p-value e in questo caso ci dice che le due variabili, marca e attributi, sono legate tra di loro.

Detto questo, che dovrebbe risultare abbastanza scontato, aggiungo solo che l'analisi delle corrispondenze non utilizza la comune distanza euclidea per calcolare le distanze tra i punti.

Usa invece la distanza Chi-quadrato, che "pesa" le distanze in base alle frequenze delle categorie. Questa scelta è fondamentale per garantire che categorie rare abbiano la giusta influenza sull'analisi.

Questo concetto è detto principio di equivalenza distributiva, una proprietà importante che afferma che se uniamo righe (o colonne) con profili identici, i risultati dell'analisi non cambiano.  

Inerzia

L'inerzia è una misura della variabilità totale nei dati, simile al concetto di varianza. L'obiettivo dell'analisi delle corrispondenze è rappresentare i dati in un numero ridotto di dimensioni, di solito due, cercando di preservare il più possibile l'inerzia totale.

Nella tabella di riepilogo SPSS ci sono 11 dimensioni. Il numero è dato dalla formula MIN [ r-1 ; c-1 ] dove r = numero di righe e c = numero di colonne. Dunque MIN [ 12 ; 11 ] = 11.

Per ognuna di queste dimensioni il software calcola l'inerzia e i valori saranno sempre decrescenti. Ciò significa che la prima dimensione sarà la più importante e a seguire tutte le altre.

Una volta sommate tutte le inerzie, nella colonna "Spiegato" abbiamo la proporzione dell'inerzia per ciascuna dimensione.

La prima spiega il 44,3% della variabilità totale, numero che si ottiene facendo ( 0,129 / 0,292 ) * 100.

Siccome quello che ti interessa è la la varianza cumulata delle prime due dimensioni, allora osservi la colonna "Cumulativo" in corrispondenza della seconda riga.

Il risultato di 0,646 (64,6 % della varianza totale) è abbastanza buono in quanto un valore di 60-70% è considerato generalmente accettabile.

Punti di riga di panoramica

Il risultato finale dell'analisi delle corrispondenze è una mappa di posizionamento. In questa mappa, sia le righe che le colonne della tabella di contingenza sono rappresentate come punti. Tali punti si ricavano dalle prossime due tabelle.

analisi delle corrispondenze

Nella tabella dei punti di riga di panoramica, e cioè quella riferita alle marche, devi osservare le colonne azzurre del punteggio nella dimensione.

Una marca tende a prevalere solo in una delle dimensioni e cioè quella che avrà il numero in valore assoluto maggiore.

Per esempio "Barilla" nella prima dimensione ha un valore di -0,993 che in valore assoluto è maggiore rispetto a -0,013 della seconda dimensione.

In questo caso non ci sono dubbi che Barilla è totalmente sbilanciata nella prima dimensione e la conferma la trovi nelle due colonne arancioni che ti mostrano dove si trova l'inerzia maggiore.

Nel caso di "Del Verde" invece il punteggio della seconda dimensione (0,494) è leggermente superiore alla prima (0,424) e pertanto le due inerzie sono più vicine (0,028 vs 0,014).

In conclusione questa tabella ti restituisce sia l'appartenenza della marca a una delle due dimensioni, sia l'intensità con la quale è legata.

Punti di colonna di panoramica

Con lo stesso ragionamento procedi nell'interpretazione e rappresentazione della prossima tabella che riguarda invece le caratteristiche.

analisi delle corrispondenze

Anche qui ci sono attributi che hanno una forte inerzia sbilanciata, ad esempio "Bella e Impossibile" favorevole alle seconda dimensione, mentre "Donna in Carriera" più equilibrata.

Se ti stai chiedendo se questi aggettivi siano degli stereotipi che associano alla pasta degli aggettivi riferiti alla donna, si ahimé lo sono.

Interpretazione dei risultati

Tutto quello detto finora è importante, ma soprattutto propedeutico all'interpretazione dei grafici finali. Purtroppo SPSS è un software che fa dei grafici veramente brutti.

Pertanto quello che ti mostrerò è frutto di un gran lavoro che ho fatto in Excel per rendere molto più chiaro il concetto e l'interpretazione finale dell'analisi delle corrispondenze.

Se vuoi imparare a fare grafici professionali con Excel dai un'occhiata al mio video corso GraficoMania, ti lascio anche una presentazione qua sotto.

YouTube video

Grafico delle caratteristiche

In questo primo grafico vediamo la rappresentazione dei punti di colonna di panoramica. Per comodità ho riportato di nuovo la tabella dei dati.

analisi delle corrispondenze
analisi delle corrispondenze

La lettura del grafico non deve essere interpretata come un normale grafico a dispersione nel quale valori positivi e negativi hanno un significato numerico.

Qui il concetto è semplicemente vedere la contrapposizione dei punti.

Nel caso della prima dimensione, asse X, quelli che stanno più a sinistra verso quelli che stanno più a destra.

Nel caso della seconda dimensione, asse Y, quelli che stanno più in basso verso quelli che stanno più in alto.

Per capire bene il grafico delle caratteristiche nell'analisi delle corrispondenze segui questi punti che ti aiutano nell'interpretazione:

  1. Dividi gli attributi collocandoli nella prima dimensione nel caso il numero assoluto sia maggiore rispetto alla seconda. Ovviamente fai il contrario se è minore.
  2. All'interno di ogni dimensione colloca le caratteristiche a sinistra se il numero è negativo e a destra se è positivo.
  3. Scegli un nome da dare a entrambi i gruppi che sia rappresentativo un po' come fai nell'analisi delle componenti principali

Una volta fatto questo vedi che io ho dato un nome a ciascun estremo dei due assi, cercando di sintetizzare al meglio gli attibuti.

Per esempio il nome "MAMMA" deriva dal fatto che le 4 caratteristiche cerchiate di verde chiaro, "Mamma premurosa", "Donna della porta accanto", "Amica fidata", "Donna in carriera", mi sembrano si avvicinino di più al concetto di mamma, fatto salvo forse l'ultima.

Ripeto, sono stereotipi che non mi trovano assolutamente d'accordo, ma l'esempio ha solo lo scopo esemplificativo di presentare l'analisi delle corrispondenze.

Per la seconda dimensione invece abbiamo solo due attributi quindi qui c'è meno spazio per la fantasia dei nomi.

Grafico delle marche

Alla fine di tutto, quello che più conta è il grafico successivo, in quanto il vero scopo dell'analisi delle corrispondenze è quello di associare un attributo a una marca di pasta.

Di seguito dunque vado a creare il grafico dei punti di riga di panoramica che rappresenta le marche all'interno di un grafico cartesiano.

analisi delle corrispondenze
analisi delle corrispondenze

Qui andiamo a rappresentare le marche tenendo presente però gli estremi che abbiamo fissato nel grafico precedente.

Salta subito all'occhio come "Barilla" sia fortemente legata alla parola "Mamma", come "Cocco" si associ a "Bella" e come "Rummo" venga considerata "Vecchia".

Già questa potrebbe essere una perfetta sintesi di tutto il lavoro fatto con l'analisi delle corrispondenze, a cui puoi aggiungere altri dettagli.

Per esempio il concetto di "Santa" non è così estremo per le 4 marche gialle, come lo era invece per "Barilla".

Detto questo volendo SPSS ti restituisce anche un ultimo grafico dell'analisi delle corrispondenze, ovvero l'unione dei due precedenti per osservare meglio la situazione.

Ovviamente anche qui l'ho riprodotto in Excel, ma per quanto riguarda ciò che devi sapere segui quello che ti ho spiegato nel corso dell'articolo.

analisi delle corrispondenze

Tutto l'esempio è stato svolto con il concetto di due sole dimensione. L'analisi delle corrispondenze si può svolgere anche con più di due.

Ciò provoca il fatto che non si possano vedere graficamente i risultati ma soprattutto aumenta la complessità dell'analisi stessa.

Se vuoi approfondire l'argomento puoi sfruttare un esempio dell'analisi delle corrispondenze che mette a disposizione IBM sul proprio sito.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

arrow-up-circle
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram