whatsapp
Adriano Gilardone
Adriano Gilardone
adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi
blog

blog

Analisi delle componenti principali: 7 passaggi da eseguire

Ultima modifica (26 Febbraio 2025)
YouTube video
Postato il 23 Dicembre 2021
Tag

L’analisi delle componenti principali, detta anche ACP oppure PCA (dall’inglese Principal Component Analysis), è una tecnica statistica multivariata, molto utilizzata soprattutto nel campo della medicina e della psicologia, che cerca di ridurre dataset formati da tante variabili correlate tra loro, in pochi fattori.

corso spss

Analisi delle componenti principali: a cosa serve e quando si usa?

L'analisi delle componenti principali permette di sintetizzare l’informazione fornita dalle variabili del tuo dataset in pochi fattori, detti componenti principali, minimizzando il più possibile la perdita di informazione.

In poche parole l’obiettivo dell’ACP è quello di massimizzare la varianza di tali componenti, calcolando appropriatamente i pesi da attribuire alle variabili di partenza, per poi poterle concentrare in nuove variabili, dette appunto componenti principali, che saranno combinazione lineare delle variabili iniziali.

I requisiti dell’Analisi delle componenti principali

Affinchè sia sensato condurre l’analisi delle componenti principali, devi analizzare le variabili da coinvolgere per avere chiare alcune loro caratteristiche.

Le variabili di tipo quantitativo

L’ACP è valida solo quando le variabili su cui si opera sono di tipo numerico. Se i caratteri hanno diverse unità di misura, bisogna standardizzare le variabili prima di procedere.

La correlazione lineare tra le variabili

Per capire quali variabili includere nell’ACP bisogna guardare la matrice di correlazione di Pearson (a questo link puoi trovare la mia lezione gratuita in cui ti spiego come calcolarla su SPSS), che si determina a partire dalla matrice di varianza/covarianza.

I coefficienti di correlazione di Pearson ti informano sul verso e sull’intensità della relazione lineare che intercorre tra i fenomeni. Valori accettabili per questo indicatore si hanno per R > 0,3 o R < -0,3.

Se, prima di vedere gli altri passaggi, vuoi ripassare velocemente la correlazione di Pearson, ti lascio questo mio video in cui te la spiego in modo semplice e chiaro utilizzando una metafora statistica.

YouTube video
Correlazione di Pearson: spiegazione semplice con una metafora

L'assenza di outliers

Un altro controllo da effettuare prima di eseguire l’ACP è la presenza di valori estremi nelle variabili in gioco.

I numeri che si allontanano troppo dal centro della distribuzione possono influenzare negativamente i risultati, una situazione che capita spesso anche applicando altre tecniche statistiche. Inoltre tenere sotto controllo la variabilità dei dati è sempre una buon consiglio.

A tal fine si possono realizzare dei boxplot (te ne parlo in modo approfondito in questo articolo dove ti spiego quali sono le loro caratteristiche, come crearli e come interpretarli) oppure grafici a dispersione, detti scatterplot, dai quali è possibile dedurre relazioni lineari tra coppie di variabili.

La numerosità campionaria accettabile

Infine, assicurati che ciascuna delle variabili che vuoi riassumere abbia un numero sufficiente di unità statistiche, di solito tra le 10 e le 15 osservazioni per variabile

corso spss

I passaggi per condurre l’Analisi delle componenti principali

Una volta controllato che le variabili abbiano le caratteristiche adatte per poter condurre l'analisi delle componenti principali, puoi proseguire con i diversi passaggi da seguire per poterla condurla.

Il test di KMO

Il primo passo è eseguire il test di Kaiser-Meyer-Olkin, abbreviato KMO, che è una misura di adeguatezza del campionamento e stabilisce se effettivamente le variabili considerate sono coerenti per l’utilizzo di un’analisi delle componenti principali.

In pratica questo test ti dice immediatamente se la quantità di osservazioni, quindi le righe del dataset, che stai utilizzando vanno bene oppure no. Con una numerosità bassa sono consigliabili altri tipi di analisi, o altrimenti devi necessariamente ampliare il campione.

Il suo valore varia da 0 a 1 e qua sotto ti riporto uno schema nel quale ti evidenzio tutti i range significativi.

Ti ricordo che lo schema del test KMO e tutte le altre informazioni le trovi nel mio video corso sull'analisi delle componenti principali che ho realizzato in SPSS.

Test KMO

Il test di sfericità Bartlett

Siccome l'obiettivo dell'analisi delle componenti principali è quello di avere un livello alto di correlazione tra vari item, dobbiamo valutare attraverso il coefficiente di correlazione di Pearson se tale livello è adeguato per la nostra analisi.

Bisogna quindi eseguire un test che misuri la congruenza del campione e a tale scopo si utilizza il tst di sfericità Bartlett che verifica l’ipotesi nulla di incorrelazione tra le variabili. Attento dunque:

H0 = Incorrelazione tra le variabili

La speranza è che il test risulti significativo, quindi con p-value minore di 0,05, affinché le variabili siano correlate tra di loro.

Test di sfericità di Bartlett
Esempio di test di KMO e test di Sfericità di Bartlett in SPSS

La comunalità

A questo punto dovrai consultare la tabella di comunalità. La comunalità è la variabilità che ogni singolo carattere apporta al processo di estrazione dei fattori. Maggiore è tale valore, meglio la variabile si presta per questo tipo di analisi. 

La comunalità iniziale è sempre uguale a 1, in quanto è la varianza spiegata da ogni fenomeno. Un valore superiore a 0,50 rappresenta una buona comunalità.

Se alcune variabili hanno comunalità bassa puoi scegliere di eliminarle oppure puoi optare per tenerle se non influenzano negativamente altri parametri dell'analisi.

Comunalità
Esempio di comunalità in SPSS

Quante componenti principali estrarre?

Infine, la parte fondamentale dell’ACP è stabilire il numero di fattori adeguato che possa meglio rappresentare le variabili di partenza. Tale scelta dipende dal numero di variabili che includi nell’analisi e da quanto si assomigliano. 

I criteri utilizzati per la scelta del numero di componenti sono essenzialmente tre: gli autovalori maggiori di 1, lo scree plot, l'analisi parallela.

analisi dati tesi

Gli autovalori maggiori di 1

Secondo questa regola, proposta da Guttman nel 1954, si scelgono quelle componenti a cui è associato un autovalore superiore a 1.

Gli autovalori (in inglese eigenvalues), sono numeri che forniscono la varianza spiegata dalla componente: siccome inizialmente la varianza spiegata da ogni singola variabile è pari a 1, non avrebbe senso prendere una componente, che è una combinazione di variabili, con varianza inferiore a 1, da qui la regola di Kaiser.

A un autovalore alto corrisponde una maggiore varianza e i software come SPSS o R ti restituiscono questa tabella con valori decrescenti, pertanto il primo sarà sempre associato al fattore più importante.

 Il metodo è molto buono, ma non perfetto perchè tende a sovrastimare i fattori. Nella maggior parte dei casi ci azzecca ma è consigliabile usarlo insieme alle altre procedure.

Autovalori
Esempio autovalori in SPSS

Scree plot

Il secondo metodo è stato proposto da Cattel nel 1966 e si tratta di rappresentare graficamente la tabella precedente con appunto il grafico decrescente degli autovalori.

Poichè gli autovalori sono decrescenti, ciò significa che il primo è il più elevato e di conseguenza la prima componente principale estratta sarà quella con varianza spiegata maggiore.

Scree Plot
Esempio grafico decrescente degli autovalori in SPSS

Sull’asse X sono elencate le componenti, mentre sull’asse Y ci sono gli autovalori. Quando la curva di questo grafico fa un “gomito” è il momento per tracciare una linea, e prendere in considerazione solo i fattori che stanno sopra.

Nel grafico ho aggiunto io una retta per farti capire meglio quali componenti principali dovresti prendere. Lo scopo è partire dall'ultima in basso a destra e tracciare una "retta virtuale" che cerchi di interpolare le componenti più basse.

A partire dalla seconda i punti si distaccano da questa retta facendoti scegliere appunto 2 sole componenti.

L'analisi parallela (Parallel analysis)

L'analisi parallela è una procedura di simulazione che genera dei numeri casuali. Gli autovalori della propria ACP che superano quelli dell’estrazione casuale determinano il numero di componenti principali da prendere in considerazione.

Questa è una procedura che quasi mai è implementata nei software statistici, e pertanto di segnalo un sito utile che può aiutarti.

PARALLEL ANALYSIS
Esempio di parallel analysis

La varianza spiegata

Una volta stabilito il numero dei fattori da estrarre devi guardare qual è la varianza spiegata dagli stessi.

A livello numerico corrisponde alla somma degli autovalori, mentre a livello percentuale la calcoli rapportando tale somma al numero delle variabili iniziali che rappresenta la varianza totale.

In linea di massima si considera molto buona una varianza superiore al 70%, mentre molto scarsa se inferiore al 50%.

Se il valore rimane tra il 50% e il 70% si è in una situazione di incertezza, e pertanto bisogna osservare l’analisi delle componenti principali nel suo complesso. Una valutazione positiva di tutti gli altri punti potrebbe facilitare l’estrazione anche con una varianza non eccessivamente elevata.

Varianza Cumulata
Esempio varianza spiegata in SPSS

La matrice dei componenti

La matrice dei componenti è una tabella in cui sono esposte le saturazioni (sinonimo di correlazioni) tra le singole variabili e le componenti.

Affinché la scelta dei fattori sia valida, occorre che ogni variabile sia correlata con un valore almeno superiore a 0.30, (meglio se 0,40) con un solo fattore e contemporaneamente non lo sia con gli altri.

Nella tabella sotto, ad esempio, puoi osservare una situazione non del tutto ottimale ed in questi casi si ricorre alla rotazione per migliorare le saturazioni.

Matrice dei componenti
Esempio matrice dei componenti in SPSS

La descrizione dei fattori

La parte conclusiva dell’'analisi delle componenti principali consiste nel dare un nome alle singole componenti principali trovate. Nella situazione riportata nella tabella qui sopra ti è facile individuarli, perché le variabili hanno nomi generici che racchiudono una tipologia di fattore comune.

Per esempio, le 7 variabili originarie colorate in arancione, andranno a formare una nuova variabile che ho chiamato "Piacevolezza" in quanto il dataset contiene domande sul giudizio degli utenti su alcuni oggetti, mentre la seconda l'ho nominata "Stile".

In SPSS puoi creare tu i fattori facendo, per esempio, una media delle variabili o altrimenti fare calcolare al software dei fattori standardizzati che saranno tra di loro incorrelati.

corso spss

L'analisi delle componenti principali (ACP o PCA) e l'analisi fattoriale (AF o FA)

L’analisi fattoriale è collegata all’analisi delle componenti principali, ma i due metodi hanno obiettivi diversi.

Come abbiamo visto, infatti, l'analisi delle componenti principali sintetizza le informazioni in pochi fattori, mentre l'analisi fattoriale è una tecnica di analisi dati il cui scopo è quello di rilevare delle variabili latenti (cioè non misurabili) all'interno del tuo dataset di variabili analizzate.

L'analisi fattoriale si divide in Analisi Fattoriale Confermativa (AFC) e Analisi Fattoriale Esplorativa (AFE), ed è proprio questa seconda tecnica che viene spesso comparata con l'ACP, perchè seguono ragionamenti e formule molto simili.

La discriminante però, come abbiamo già detto, è l'obiettivo: l'AFE infatti si occupa di "esplorare" (come dice il nome) eventuali relazioni latenti tra le variabili, mentre l'analisi delle componenti principali stabilisce solamente se tra i dati presenti esiste una correlazione.

Se sei interessato ad acquisire le competenze statistiche di questi argomenti allora guarda la presentazione del mio secondo video corso in SPSS.

YouTube video
Presentazione corso sull'analisi delle componenti principali

Quale software usare per l’Analisi delle componenti principali

Giunto a questo punto, ti sarai reso conto che l’analisi delle componenti principali richiede diversi passaggi e calcoli. Esistono diversi software con cui può essere effettuata l’ACP e agevolare il processo. Io ti consiglio SPSS, e di seguito puoi trovare il comando da seguire.

Analisi delle componenti principali EXCEL

Non c’è un comando

Analisi delle componenti principali SPSS

Analizza >>> Riduzione delle dimensioni >>> Fattore

Riassumendo

  • L’ACP è una tecnica statistica multivariata che consente di riassumere numerose variabili di un dataset in pochi fattori contenenti la maggior parte delle informazioni del campione
  • Per poter condurre questa analisi le variabili quantitative coinvolte devono essere correlate tra loro e contenere un numero sufficiente di osservazioni
  • Sono 7 i passaggi che portano all’individuazione e definizione delle componenti principali
  • La scelta delle componenti si basa sul criterio di Kaiser dell’autovalore maggiore di 1 e sulla lettura del grafico scree plot
  • Il nome delle componenti principali deve essere coerente con le variabili che le compongono

Tre sono le componenti di cui sei formato: corpo, soffio, mente. Di queste le prime due sono tue, per quanto devi curartene; solo la terza è sovranamente tua.

(MARCO AURELIO imperatore romano)

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

arrow-up-circle
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram