L’analisi delle componenti principali, detta anche ACP oppure PCA (dall’inglese Principal Component Analysis), è una tecnica statistica multivariata, molto utilizzata soprattutto nel campo della medicina e della psicologia, dove si lavora con dataset formati da numerose variabili.
L'analisi delle componenti principali permette di sintetizzare l’informazione fornita dalle variabili del tuo dataset in pochi fattori, detti componenti principali, minimizzando il più possibile la perdita di informazione. Dunque, l’obiettivo dell’ACP è quello di massimizzare la varianza di tali componenti, calcolando appropriatamente i pesi da attribuire alle variabili di partenza, per ridurre le colonne del dataset di partenza.
Affinchè sia sensato condurre l’analisi delle componenti principali, devi analizzare le variabili da coinvolgere per avere chiare alcune loro caratteristiche.
L’ACP è valida solo quando le variabili su cui si opera sono di tipo numerico. Se i caratteri hanno diverse unità di misura, bisogna standardizzare le variabili prima di procedere.
Per capire quali variabili includere nell’ACP bisogna guardare la matrice di correlazione di Pearson (a questo link puoi trovare la mia lezione gratuita in cui ti spiego come calcolarla su SPSS), che si calcola a partire dalla matrice di varianza/covarianza.
I coefficienti di correlazione di Pearson ti informano sul verso e sull’intensità della relazione lineare che intercorre tra i fenomeni. Valori accettabili per questo indicatore si hanno per R>0,3 o R<-0,3.
Se, prima di vedere gli altri passaggi, vuoi ripassare velocemente la correlazione di Pearson, ti lascio questo mio video in cui te la spiego in modo semplice e chiaro utilizzando una metafora statistica.
Un altro controllo da effettuare prima di eseguire l’ACP è la presenza di valori estremi nelle variabili in gioco. Infatti, numeri che si allontanano troppo dal centro della distribuzione possono influenzare negativamente i risultati, una situazione che capita spesso anche applicando altre tecniche statistiche. Anche tenere sott’occhio la varianza delle variabili è consigliato.
A tal fine si possono realizzare dei boxplot (qui ti ho parlato in modo approfondito di cosa sono, quali sono le loro caratteristiche, come crearli e come interpretarli) oppure grafici a dispersione, detti scatterplot, dai quali è possibile dedurre relazioni lineari tra coppie di variabili.
Infine, assicurati che ciascuna delle variabili che vuoi riassumere abbia un numero sufficiente di unità statistiche, di solito tra le 10 e le 15 osservazioni per variabile.
Una volta che hai controllato che le tue variabili abbiano le caratteristiche adatte per poter condurre l'analisi delle componenti principali, passiamo a vedere i diversi passaggi che devi seguire per condurla.
Il primo passo è eseguire il test di Kaiser-Meyer-Olkin, abbreviato KMO, che è una misura di adeguatezza del campionamento e stabilisce se effettivamente le variabili considerate sono coerenti per l’utilizzo di un’analisi delle componenti principali.
Il suo valore varia da 0 a 1, e quando supera lo 0,70 è buono.
Successivamente devi spostarti su un altro indice che misura la congruenza del campione, ed è il test di Bartlett, che verifica l’ipotesi nulla di incorrelazione tra le variabili. La speranza è che il test risulti significativo, quindi con p-value minore di 0,05, affinché le variabili siano correlate tra di loro.
A questo punto dovrai consultare la tabella di comunalità. La comunalità è la variabilità che ogni singolo carattere apporta al processo di estrazione dei fattori. Maggiore è tale valore, meglio la variabile si presta per questo tipo di analisi.
La comunalità iniziale è sempre uguale a 1, in quanto è la varianza spiegata da ogni fenomeno. Un valore superiore a 0,50 rappresenta una buona comunalità.
Infine, la parte fondamentale dell’ACP è stabilire il numero di fattori adeguato che possa meglio rappresentare le variabili di partenza. Tale scelta dipende dal numero di variabili che includi nell’analisi e da quanto si assomigliano.
I criteri utilizzati per la scelta del numero di componenti sono essenzialmente due: gli autovalori maggiori di 1 e l'analisi parallela.
Secondo questa regola, dettata dallo statistico Kaiser, si scelgono quelle componenti a cui è associato un autovalore superiore a 1.
L’autovalore è un numero che fornisce la varianza spiegata dalla componente: siccome inizialmente la varianza spiegata da ogni singola variabile è pari a 1, non avrebbe senso prendere una componente (che è una combinazione di variabili) con varianza inferiore a 1, da qui la regola di Kaiser.
Ad un autovalore alto corrisponde una maggiore varianza e i software come SPSS o R ti restituiscono questa tabella con valori decrescenti, pertanto il primo sarà sempre associato al fattore più importante. Puoi vedere meglio questa correlazione nel grafico decrescente degli autovalori, che ti ho riportato qui sotto, chiamato anche scree plot.
Poichè gli autovalori sono, appunto, decrescenti, ciò significa che il primo è il più elevato e di conseguenza la prima componente principale estratta sarà quella con varianza spiegata maggiore.
Sull’asse x sono elencate le componenti, mentre sull’asse y ci sono gli autovalori. Quando la curva di questo grafico fa un “gomito” è il momento per tracciare una linea, e prendere in considerazione solo i fattori che stanno sopra.
Dal grafico che puoi vedere qui sopra, ad esempio, si vede che il numero di punti che si trovano sopra al gomito è 4.
L'analisi parallela è una procedura di simulazione che genera dei numeri casuali. Gli autovalori della propria ACP che superano quelli dell’estrazione casuale determinano il numero di componenti principali da prendere in considerazione.
Questa è una procedura che quasi mai è implementata nei software statistici, e pertanto di segnalo un sito utile che può aiutarti.
Una volta stabilito il numero dei fattori da estrarre devi guardare qual è la varianza spiegata dagli stessi.
A livello numerico corrisponde alla somma degli autovalori, mentre a livello percentuale la calcoli rapportando tale somma al numero delle variabili iniziali che rappresenta la varianza totale.
In linea di massima si considera molto buona una varianza superiore al 70%, mentre molto scarsa se inferiore al 50%.
Se il valore rimane tra il 50% e il 70% si è in una situazione di incertezza, e pertanto bisogna osservare l’analisi delle componenti principali nel suo complesso. Una valutazione positiva di tutti gli altri punti potrebbe facilitare l’estrazione anche con una varianza non eccessivamente elevata.
La matrice dei componenti è una tabella in cui sono esposte le saturazioni (sinonimo di correlazioni) tra le singole variabili e le componenti.
Affinché la scelta dei fattori sia valida, occorre che ogni variabile sia correlata con un valore almeno superiore a 0.40 con un solo fattore e contemporaneamente non lo sia con gli altri. Nella tabella sottostante, ad esempio, puoi osservare una situazione ottimale che non sempre avviene nella realtà.
La parte conclusiva dell’ACP consiste nel dare un nome alle singole componenti principali trovate. Nella situazione riportata nella tabella qui sopra ti è facile individuarli, perché le variabili hanno nomi generici che racchiudono una tipologia di fattore comune.
Per esempio, le 4 variabili originarie a1-a2-a3-a4, andranno a formare una nuova variabile che chiamerai “Snack grassi”, e così via per le altre 3.
L’analisi fattoriale è collegata all’analisi delle componenti principali, ma i due metodi hanno obiettivi diversi.
Come abbiamo visto, infatti, l'analisi delle componenti principali sintetizza le informazioni in pochi fattori, mentre l'analisi fattoriale è una tecnica di analisi dati il cui scopo è quello di rilevare delle variabili latenti (cioè non misurabili) all'interno del tuo dataset di variabili analizzate.
L'analisi fattoriale si divide in Analisi Fattoriale Confermativa (AFC) e Analisi Fattoriale Esplorativa (AFE), ed è proprio questa seconda tecnica che viene spesso comparata con l'ACP, perchè seguono ragionamenti e formule molto simili.
La discriminante però, come abbiamo già detto, è l'obiettivo: l'AFE infatti si occupa di "esplorare" (come dice il nome) eventuali relazioni latenti tra le variabili, mentre l'analisi delle componenti principali stabilisce solamente se tra i dati presenti esiste una correlazione.
Se sei interessato ad acquisire le competenze statistiche di questi argomenti allora guarda la presentazione del mio secondo video corso in SPSS.
Giunto a questo punto, ti sarai reso conto che l’analisi delle componenti principali richiede diversi passaggi e calcoli. Esistono diversi software con cui può essere effettuata l’ACP e agevolare il processo. Io ti consiglio SPSS, e di seguito puoi trovare il comando da seguire.
Non c’è un comando
Analizza >>> Riduzione delle dimensioni >>> Fattore
Tre sono le componenti di cui sei formato: corpo, soffio, mente. Di queste le prime due sono tue, per quanto devi curartene; solo la terza è sovranamente tua.
(MARCO AURELIO imperatore romano)