
blog

L’analisi discriminante, in inglese discriminant analysis, è una tecnica statistica che permette di comprendere quali caratteristiche differenziano in modo più efficace gruppi già noti.
In altre parole, ci aiuta a capire cosa distingue davvero quei gruppi e quali variabili contano di più nel creare tale distinzione.
Sono Adriano Gilardone, docente di Statistica dal 2007. Utilizzo SPSS per le mie consulenze e lo insegno ai professionisti attraverso i miei corsi sull'analisi dati.
In questo articolo voglio presentarti un caso concreto di analisi discriminante con l'utilizzo del software SPSS.
Il DATASET TOTALMENTE FITTIZIO si riferisce a un questionario sottoposto a 206 soggetti per valutare la soddisfazione rispetto a quattro marche di pasta.
Le variabili sono rappresentate dalle valutazioni espresse dai consumatori su diversi aspetti del prodotto: dal gusto alla qualità, dal packaging alla comunicazione pubblicitaria.
Lo scopo è duplice:
Prima di iniziare ti specifico che in questo articolo parlerò dell'Analisi discriminante lineare (LDA) che si usa quando i gruppi hanno varianze simili a differenza dell'Analisi discriminante quadratica (QDA) che si utilizza per gruppi con varianze diverse.
Nel contesto del nostro esempio, l’obiettivo principale è quello di:
A differenza di tecniche come l’analisi fattoriale (che cerca relazioni tra variabili), l’analisi discriminante lavora sui gruppi, cercando di spiegarli nel miglior modo possibile tramite una combinazione lineare delle variabili.
Come accennato prima, l'esempio simula un’indagine su 206 consumatori a cui è stato chiesto, tra le altre cose, di valutare il grado di soddisfazione rispetto a 14 caratteristiche della pasta secca con una scala Likert (da 1 a 9).
Queste caratteristiche coprono aspetti come la qualità del prodotto, la varietà di formati, il gusto, la comunicazione pubblicitaria, la praticità della confezione...
Queste valutazioni sono state utilizzate per analizzare come si differenziano quattro marche di pasta.

Il dataset è organizzato in modo che per ogni consumatore si conosce:
Non è necessario riportare tutte le variabili nel dettaglio: è sufficiente sapere che coprono le principali leve di marketing del prodotto.

Il primo passo dell’analisi discriminante consiste nel verificare quali variabili hanno un potere discriminante significativo, ovvero quali riescono a separare i gruppi.
Nel nostro caso, SPSS ci restituisce una tabella ANOVA con i valori di Lambda di Wilks, F e Significatività (p-value) per ciascuna variabile. Quelle con un p-value inferiore a 0,05 sono considerate statisticamente significative.
Come si può vedere, le variabili più discriminanti sono legate soprattutto alla comunicazione pubblicitaria, all’immagine della marca e alla qualità percepita. Questi aspetti sembrano rappresentare le principali leve con cui le marche si differenziano nella percezione dei consumatori.
Al contrario, aspetti più “tecnici” come la varietà di peso disponibile non sembrano influenzare in modo sostanziale le preferenze, risultando non significativi.
Questa informazione è cruciale: permette di focalizzare le strategie di marketing sugli elementi realmente distintivi agli occhi del pubblico.
Una funzione discriminante è una combinazione lineare delle variabili indipendenti (qui le 14 valutazioni di soddisfazione), costruita per massimizzare la separazione tra i gruppi (le 4 marche).
Nel nostro caso, avendo 4 gruppi, SPSS può calcolare al massimo 3 funzioni discriminanti (numero di gruppi - 1). Tuttavia, solo le prime 2 risultano significative come risulta dalla tabella del Lambda di Wilks

Questa tabella riassume i test di significatività delle funzioni discriminanti.
Uno dei passaggi chiave nell’analisi discriminante è capire quante funzioni (cioè quante “dimensioni latenti”) servono per rappresentare correttamente le differenze tra i gruppi.
Nell'esempio, SPSS ha generato tre funzioni discriminanti, ma solo le prime due come abbiamo visto risultano significative.
Per sapere quanto spiegano queste due funzioni discriminanti della varianza totale devi guardare la tabella degli autovalori.

La prima da sola spiega il 61,5% della varianza discriminante, con una correlazione canonica di 0,667 ed è la funzione più potente.
La seconda aggiunge un altro 33,7%, portando la varianza spiegata al 95,2%. Anch'essa utile, sebbene, ovviamente, meno della prima.
La correlazione canonica poi, misura quanto ciascuna funzione è correlata con la variabile dipendente (la marca). Più è vicina a 1, meglio la funzione separa i gruppi. Nel nostro caso:
In altre parole, con solo due assi possiamo costruire un grafico bidimensionale che rappresenta in modo efficace il posizionamento delle marche rispetto alle 14 caratteristiche valutate dai consumatori.
La terza funzione, invece, è trascurabile: non fornisce informazioni utili, come confermato dalla sua non significatività nel test di Lambda di Wilks (p = 0,446).
Questo ci dice che gran parte delle differenze tra marche può essere spiegata in uno spazio a due dimensioni, facilitando la visualizzazione dei risultati e l’interpretazione strategica.
Questa matrice mostra quanto ogni variabile di soddisfazione sia correlata con ciascuna delle funzioni discriminanti, ovvero:
La correlazione è interpretabile come un carico fattoriale: più è alto, più quella variabile “spinge” in quella direzione, cioè contribuisce alla funzione.

Una volta calcolate le funzioni discriminanti, SPSS ci mostra quanto ogni variabile contribuisce alla costruzione degli assi. Questo ci permette di dare un nome significativo a ciascuna dimensione, utile per l’interpretazione strategica.
Nel esempio della pasta:
Questa lettura è confermata dal grafico, che mostra le variabili distribuite nello spazio a due dimensioni. Più una variabile è lontana dall’origine, più è rilevante per differenziare le marche.

La combinazione delle due dimensioni ci permette quindi di costruire una mappa percettiva, in cui leggere con chiarezza su quali leve si posizionano le diverse marche.
La tabella mostra le coordinate medie (baricentri) di ciascun gruppo (marca di pasta) nello spazio definito dalle due funzioni discriminanti.

Ogni marca viene rappresentata da un punto medio, calcolato sulla base del profilo medio di soddisfazione dei consumatori. Più una marca è lontana dalle altre, più il suo posizionamento è distintivo.
Una volta costruite le funzioni discriminanti e compreso il significato delle due dimensioni (Qualità e Brand Equity), possiamo osservare dove si collocano le marche nello spazio percettivo.

Il grafico mostra i baricentri di gruppo, ovvero il “centro di gravità” di ciascuna marca in base al giudizio medio dei consumatori.
Questa mappa offre spunti strategici evidenti per ogni brand, aiutando a decidere se puntare su una comunicazione più forte, su una migliore qualità percepita, o su entrambi gli aspetti.
Grazie al programma creato da me in EXCEL ho "unito" i due grafici mettendo in risalto quindi le marche e le variabili della soddisfazione.

Tutti questi grafici sono stati creati da me perchè l'unico che ti fornisce SPSS è quello sotto, tra l'altro rifatto da me sempre in EXCEL per una migliore lettura.

Ogni punto rappresenta i punteggi discriminanti che SPSS ti restituisce grazie al bottone Salva. I colori rappresentano la marca preferita scelta dal soggetto durante la compilazione del questionario.
L’obiettivo finale dell’analisi discriminante è prevedere a quale gruppo appartiene un caso (cioè un consumatore), sulla base delle sue risposte alle variabili.
SPSS confronta per ogni individuo:
E calcola quanti casi sono stati classificati correttamente, sia:

l 68,0% dei casi è stato correttamente classificato dal modello, questo significa che, su 206 consumatori, 140 sono stati assegnati alla marca giusta.
La Private Label (90,9%) è la marca più facile da riconoscere: il modello capisce subito chi l’ha valutata, probabilmente per via del profilo molto distinto e debole su entrambe le dimensioni.
Barilla (72,1%) è ben riconosciuta grazie al suo posizionamento unico sulla Brand Equity.
De Cecco (41,4%) e Garofalo (57,6%) hanno tassi di classificazione più bassi, perché si sovrappongono parzialmente sulla dimensione della qualità, rendendo più difficile la distinzione tra loro.
La convalida incrociata è una tecnica che valuta quanto il modello generalizza bene, simulando il comportamento su dati “nuovi”:
Ogni caso viene classificato usando le funzioni calcolate sugli altri casi, escludendo se stesso. Il risultato è più realistico rispetto alla classificazione originale.
Nella classificazione originale, il modello ha riconosciuto correttamente il 68% dei casi, un risultato positivo, ma che potrebbe risentire di un “effetto ottimismo” perché i dati usati per testare il modello sono gli stessi usati per crearlo.
Per questo SPSS fornisce anche la convalida incrociata, una procedura più rigorosa in cui ogni caso viene classificato usando tutti gli altri, escludendo se stesso. Qui la percentuale corretta scende leggermente al 64,1%, confermando comunque una buona affidabilità del modello.
Non tutte le marche vengono riconosciute con la stessa facilità:
In sintesi, il modello è in grado di catturare differenze reali tra le marche e può rappresentare uno strumento valido sia per la segmentazione del mercato sia per l’ottimizzazione delle strategie di prodotto e comunicazione.
Iscriviti alla Newsletter