whatsapp

adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

blog

blog

Analisi discriminante: guida pratica in SPSS

Ultima modifica (9 Luglio 2025)

YouTube video

Postato il 9 Luglio 2025

Tag

Contenuti nascondi

1 Cos'è l'analisi discriminante

2 Obiettivi dell'Analisi Discriminante

3 Esempio: Analisi Discriminante in SPSS

3.1 Dataset SPSS

3.2 Test di eguaglianza delle medie di gruppi

3.3 Funzioni discriminanti

3.4 Matrice di struttura ruotata

3.5 Funzione dei baricentri di gruppo

3.6 Risultati della classificazione

L’analisi discriminante, in inglese discriminant analysis, è una tecnica statistica che permette di comprendere quali caratteristiche differenziano in modo più efficace gruppi già noti.

In altre parole, ci aiuta a capire cosa distingue davvero quei gruppi e quali variabili contano di più nel creare tale distinzione.

Sono Adriano Gilardone, docente di Statistica dal 2007. Utilizzo SPSS per le mie consulenze e lo insegno ai professionisti attraverso i miei corsi sull'analisi dati.

corso spss

Cos'è l'analisi discriminante

In questo articolo voglio presentarti un caso concreto di analisi discriminante con l'utilizzo del software SPSS.

Il DATASET TOTALMENTE FITTIZIO si riferisce a un questionario sottoposto a 206 soggetti per valutare la soddisfazione rispetto a quattro marche di pasta.

Le variabili sono rappresentate dalle valutazioni espresse dai consumatori su diversi aspetti del prodotto: dal gusto alla qualità, dal packaging alla comunicazione pubblicitaria.

Lo scopo è duplice:

Ricostruire una mappa che rappresenti in modo sintetico le principali differenze percepite tra le marche.
Capire quali dimensioni spiegano meglio le preferenze dei consumatori, per poi usarle in fase strategica o comunicativa.

Obiettivi dell'Analisi Discriminante

Prima di iniziare ti specifico che in questo articolo parlerò dell'Analisi discriminante lineare (LDA) che si usa quando i gruppi hanno varianze simili a differenza dell'Analisi discriminante quadratica (QDA) che si utilizza per gruppi con varianze diverse.

Nel contesto del nostro esempio, l’obiettivo principale è quello di:

Identificare le dimensioni latenti che differenziano le marche di pasta tra loro.
Visualizzare il posizionamento delle marche all’interno di un grafico.
Individuare gli attributi che maggiormente contribuiscono alla discriminazione fra i gruppi.
Offrire spunti di marketing concreti sulla comunicazione e sul miglioramento del prodotto.

A differenza di tecniche come l’analisi fattoriale (che cerca relazioni tra variabili), l’analisi discriminante lavora sui gruppi, cercando di spiegarli nel miglior modo possibile tramite una combinazione lineare delle variabili.

Esempio: Analisi Discriminante in SPSS

Come accennato prima, l'esempio simula un’indagine su 206 consumatori a cui è stato chiesto, tra le altre cose, di valutare il grado di soddisfazione rispetto a 14 caratteristiche della pasta secca con una scala Likert (da 1 a 9).

Queste caratteristiche coprono aspetti come la qualità del prodotto, la varietà di formati, il gusto, la comunicazione pubblicitaria, la praticità della confezione...

Queste valutazioni sono state utilizzate per analizzare come si differenziano quattro marche di pasta.

Dataset SPSS

Analisi delle corrispondenze

Il dataset è organizzato in modo che per ogni consumatore si conosce:

La marca di pasta valutata (variabile categorica a 4 modalità);
14 variabili quantitative, ognuna esprimente la soddisfazione per un attributo specifico.

Non è necessario riportare tutte le variabili nel dettaglio: è sufficiente sapere che coprono le principali leve di marketing del prodotto.

Test di eguaglianza delle medie di gruppi

Tabella Anova Analisi delle corrispondenze

Il primo passo dell’analisi discriminante consiste nel verificare quali variabili hanno un potere discriminante significativo, ovvero quali riescono a separare i gruppi.

Nel nostro caso, SPSS ci restituisce una tabella ANOVA con i valori di Lambda di Wilks, F e Significatività (p-value) per ciascuna variabile. Quelle con un p-value inferiore a 0,05 sono considerate statisticamente significative.

Come si può vedere, le variabili più discriminanti sono legate soprattutto alla comunicazione pubblicitaria, all’immagine della marca e alla qualità percepita. Questi aspetti sembrano rappresentare le principali leve con cui le marche si differenziano nella percezione dei consumatori.

Al contrario, aspetti più “tecnici” come la varietà di peso disponibile non sembrano influenzare in modo sostanziale le preferenze, risultando non significativi.

Questa informazione è cruciale: permette di focalizzare le strategie di marketing sugli elementi realmente distintivi agli occhi del pubblico.

Funzioni discriminanti

Una funzione discriminante è una combinazione lineare delle variabili indipendenti (qui le 14 valutazioni di soddisfazione), costruita per massimizzare la separazione tra i gruppi (le 4 marche).

Nel nostro caso, avendo 4 gruppi, SPSS può calcolare al massimo 3 funzioni discriminanti (numero di gruppi - 1). Tuttavia, solo le prime 2 risultano significative come risulta dalla tabella del Lambda di Wilks

Lambda di Wilks

Questa tabella riassume i test di significatività delle funzioni discriminanti.

Da 1 a 3: Testa tutte e 3 le funzioni ed essendo significativa, l'intero modello discrimina bene
Da 2 a 3: Testa Funzioni 2 e 3 (esclusa la 1) ed essendo ancora significativa, anche la seconda aggiunge informazione
Solo la 3: Testa solo la terza funzione che non essendo significativa, risulta trascurabile

Uno dei passaggi chiave nell’analisi discriminante è capire quante funzioni (cioè quante “dimensioni latenti”) servono per rappresentare correttamente le differenze tra i gruppi.

Nell'esempio, SPSS ha generato tre funzioni discriminanti, ma solo le prime due come abbiamo visto risultano significative.

Per sapere quanto spiegano queste due funzioni discriminanti della varianza totale devi guardare la tabella degli autovalori.

Analisi del discriminante

La prima da sola spiega il 61,5% della varianza discriminante, con una correlazione canonica di 0,667 ed è la funzione più potente.

La seconda aggiunge un altro 33,7%, portando la varianza spiegata al 95,2%. Anch'essa utile, sebbene, ovviamente, meno della prima.

La correlazione canonica poi, misura quanto ciascuna funzione è correlata con la variabile dipendente (la marca). Più è vicina a 1, meglio la funzione separa i gruppi. Nel nostro caso:

Funzione 1 = 0,667 → discreta separazione
Funzione 2 = 0,552 → separazione buona ma più debole
Funzione 3 = 0,244 → trascurabile

In altre parole, con solo due assi possiamo costruire un grafico bidimensionale che rappresenta in modo efficace il posizionamento delle marche rispetto alle 14 caratteristiche valutate dai consumatori.

La terza funzione, invece, è trascurabile: non fornisce informazioni utili, come confermato dalla sua non significatività nel test di Lambda di Wilks (p = 0,446).

Questo ci dice che gran parte delle differenze tra marche può essere spiegata in uno spazio a due dimensioni, facilitando la visualizzazione dei risultati e l’interpretazione strategica.

corso spss

Matrice di struttura ruotata

Questa matrice mostra quanto ogni variabile di soddisfazione sia correlata con ciascuna delle funzioni discriminanti, ovvero:

Funzione 1 → l’asse della Qualità percepita
Funzione 2 → l’asse della Brand Equity

La correlazione è interpretabile come un carico fattoriale: più è alto, più quella variabile “spinge” in quella direzione, cioè contribuisce alla funzione.

Matrice di struttura ruotata

Una volta calcolate le funzioni discriminanti, SPSS ci mostra quanto ogni variabile contribuisce alla costruzione degli assi. Questo ci permette di dare un nome significativo a ciascuna dimensione, utile per l’interpretazione strategica.

Nel esempio della pasta:

La prima funzione (asse orizzontale) è chiaramente guidata da variabili legate alla qualità percepita del prodotto: gusto, cottura, consistenza, ecc.
La seconda funzione (asse verticale) è dominata da elementi di immagine e comunicazione, come la pubblicità e la riconoscibilità del brand.

Questa lettura è confermata dal grafico, che mostra le variabili distribuite nello spazio a due dimensioni. Più una variabile è lontana dall’origine, più è rilevante per differenziare le marche.

Grafico analisi del discriminante

La combinazione delle due dimensioni ci permette quindi di costruire una mappa percettiva, in cui leggere con chiarezza su quali leve si posizionano le diverse marche.

Funzione dei baricentri di gruppo

La tabella mostra le coordinate medie (baricentri) di ciascun gruppo (marca di pasta) nello spazio definito dalle due funzioni discriminanti.

Funzione dei baricentri di gruppo

Ogni marca viene rappresentata da un punto medio, calcolato sulla base del profilo medio di soddisfazione dei consumatori. Più una marca è lontana dalle altre, più il suo posizionamento è distintivo.

Una volta costruite le funzioni discriminanti e compreso il significato delle due dimensioni (Qualità e Brand Equity), possiamo osservare dove si collocano le marche nello spazio percettivo.

Grafico Funzione dei baricentri di gruppo

Il grafico mostra i baricentri di gruppo, ovvero il “centro di gravità” di ciascuna marca in base al giudizio medio dei consumatori.

Garofalo è la marca più legata alla qualità del prodotto, ma con una bassa notorietà.
Barilla, al contrario, eccelle per forza del brand e pubblicità, ma ha una percezione di qualità più neutra.
De Cecco si posiziona a metà strada: buona qualità e una discreta presenza comunicativa.
Private Label risulta nettamente inferiore su entrambe le dimensioni, confermando la difficoltà dei marchi generici a costruire valore agli occhi dei consumatori.

Questa mappa offre spunti strategici evidenti per ogni brand, aiutando a decidere se puntare su una comunicazione più forte, su una migliore qualità percepita, o su entrambi gli aspetti.

Grazie al programma creato da me in EXCEL ho "unito" i due grafici mettendo in risalto quindi le marche e le variabili della soddisfazione.

Analisi del discriminante

Tutti questi grafici sono stati creati da me perchè l'unico che ti fornisce SPSS è quello sotto, tra l'altro rifatto da me sempre in EXCEL per una migliore lettura.

Analisi del discriminante

Ogni punto rappresenta i punteggi discriminanti che SPSS ti restituisce grazie al bottone Salva. I colori rappresentano la marca preferita scelta dal soggetto durante la compilazione del questionario.

YouTube video — Impara tutti i grafici di EXCEL

Risultati della classificazione

L’obiettivo finale dell’analisi discriminante è prevedere a quale gruppo appartiene un caso (cioè un consumatore), sulla base delle sue risposte alle variabili.

SPSS confronta per ogni individuo:

Il gruppo reale (marca valutata)
Il gruppo previsto dal modello discriminante

E calcola quanti casi sono stati classificati correttamente, sia:

Nella classificazione originale (con gli stessi dati usati per costruire il modello)
Soprattutto con la convalida incrociata, che è un test più realistico e “onesto”.

Analisi del discriminante

l 68,0% dei casi è stato correttamente classificato dal modello, questo significa che, su 206 consumatori, 140 sono stati assegnati alla marca giusta.

La Private Label (90,9%) è la marca più facile da riconoscere: il modello capisce subito chi l’ha valutata, probabilmente per via del profilo molto distinto e debole su entrambe le dimensioni.

Barilla (72,1%) è ben riconosciuta grazie al suo posizionamento unico sulla Brand Equity.

De Cecco (41,4%) e Garofalo (57,6%) hanno tassi di classificazione più bassi, perché si sovrappongono parzialmente sulla dimensione della qualità, rendendo più difficile la distinzione tra loro.

La convalida incrociata è una tecnica che valuta quanto il modello generalizza bene, simulando il comportamento su dati “nuovi”:

Ogni caso viene classificato usando le funzioni calcolate sugli altri casi, escludendo se stesso. Il risultato è più realistico rispetto alla classificazione originale.

Nella classificazione originale, il modello ha riconosciuto correttamente il 68% dei casi, un risultato positivo, ma che potrebbe risentire di un “effetto ottimismo” perché i dati usati per testare il modello sono gli stessi usati per crearlo.

Per questo SPSS fornisce anche la convalida incrociata, una procedura più rigorosa in cui ogni caso viene classificato usando tutti gli altri, escludendo se stesso. Qui la percentuale corretta scende leggermente al 64,1%, confermando comunque una buona affidabilità del modello.

Non tutte le marche vengono riconosciute con la stessa facilità:

Private Label e Barilla hanno profili molto distinti e vengono quasi sempre classificate correttamente.
De Cecco e Garofalo si sovrappongono di più, con tassi di errore più alti dovuti alla vicinanza percettiva sulla dimensione della qualità.

In sintesi, il modello è in grado di catturare differenze reali tra le marche e può rappresentare uno strumento valido sia per la segmentazione del mercato sia per l’ottimizzazione delle strategie di prodotto e comunicazione.

YouTube video

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.