blog
L’analisi delle componenti principali, detta anche ACP oppure PCA (dall’inglese Principal Component Analysis), è una tecnica statistica multivariata, molto utilizzata soprattutto nel campo della medicina e della psicologia, che cerca di ridurre dataset formati da tante variabili correlate tra loro, in pochi fattori.
L'analisi delle componenti principali permette di sintetizzare l’informazione fornita dalle variabili del tuo dataset in pochi fattori, detti componenti principali, minimizzando il più possibile la perdita di informazione.
In poche parole l’obiettivo dell’ACP è quello di massimizzare la varianza di tali componenti, calcolando appropriatamente i pesi da attribuire alle variabili di partenza, per poi poterle concentrare in nuove variabili, dette appunto componenti principali, che saranno combinazione lineare delle variabili iniziali.
Affinchè sia sensato condurre l’analisi delle componenti principali, devi analizzare le variabili da coinvolgere per avere chiare alcune loro caratteristiche.
L’ACP è valida solo quando le variabili su cui si opera sono di tipo numerico. Se i caratteri hanno diverse unità di misura, bisogna standardizzare le variabili prima di procedere.
Per capire quali variabili includere nell’ACP bisogna guardare la matrice di correlazione di Pearson (a questo link puoi trovare la mia lezione gratuita in cui ti spiego come calcolarla su SPSS), che si determina a partire dalla matrice di varianza/covarianza.
I coefficienti di correlazione di Pearson ti informano sul verso e sull’intensità della relazione lineare che intercorre tra i fenomeni. Valori accettabili per questo indicatore si hanno per R > 0,3 o R < -0,3.
Se, prima di vedere gli altri passaggi, vuoi ripassare velocemente la correlazione di Pearson, ti lascio questo mio video in cui te la spiego in modo semplice e chiaro utilizzando una metafora statistica.
Un altro controllo da effettuare prima di eseguire l’ACP è la presenza di valori estremi nelle variabili in gioco.
I numeri che si allontanano troppo dal centro della distribuzione possono influenzare negativamente i risultati, una situazione che capita spesso anche applicando altre tecniche statistiche. Inoltre tenere sotto controllo la variabilità dei dati è sempre una buon consiglio.
A tal fine si possono realizzare dei boxplot (te ne parlo in modo approfondito in questo articolo dove ti spiego quali sono le loro caratteristiche, come crearli e come interpretarli) oppure grafici a dispersione, detti scatterplot, dai quali è possibile dedurre relazioni lineari tra coppie di variabili.
Infine, assicurati che ciascuna delle variabili che vuoi riassumere abbia un numero sufficiente di unità statistiche, di solito tra le 10 e le 15 osservazioni per variabile.
Una volta controllato che le variabili abbiano le caratteristiche adatte per poter condurre l'analisi delle componenti principali, puoi proseguire con i diversi passaggi da seguire per poterla condurla.
Il primo passo è eseguire il test di Kaiser-Meyer-Olkin, abbreviato KMO, che è una misura di adeguatezza del campionamento e stabilisce se effettivamente le variabili considerate sono coerenti per l’utilizzo di un’analisi delle componenti principali.
In pratica questo test ti dice immediatamente se la quantità di osservazioni, quindi le righe del dataset, che stai utilizzando vanno bene oppure no. Con una numerosità bassa sono consigliabili altri tipi di analisi, o altrimenti devi necessariamente ampliare il campione.
Il suo valore varia da 0 a 1 e qua sotto ti riporto uno schema nel quale ti evidenzio tutti i range significativi.
Ti ricordo che lo schema del test KMO e tutte le altre informazioni le trovi nel mio video corso sull'analisi delle componenti principali che ho realizzato in SPSS.
Siccome l'obiettivo dell'analisi delle componenti principali è quello di avere un livello alto di correlazione tra vari item, dobbiamo valutare attraverso il coefficiente di correlazione di Pearson se tale livello è adeguato per la nostra analisi.
Bisogna quindi eseguire un test che misuri la congruenza del campione e a tale scopo si utilizza il tst di sfericità Bartlett che verifica l’ipotesi nulla di incorrelazione tra le variabili. Attento dunque:
H0 = Incorrelazione tra le variabili
La speranza è che il test risulti significativo, quindi con p-value minore di 0,05, affinché le variabili siano correlate tra di loro.
A questo punto dovrai consultare la tabella di comunalità. La comunalità è la variabilità che ogni singolo carattere apporta al processo di estrazione dei fattori. Maggiore è tale valore, meglio la variabile si presta per questo tipo di analisi.
La comunalità iniziale è sempre uguale a 1, in quanto è la varianza spiegata da ogni fenomeno. Un valore superiore a 0,50 rappresenta una buona comunalità.
Se alcune variabili hanno comunalità bassa puoi scegliere di eliminarle oppure puoi optare per tenerle se non influenzano negativamente altri parametri dell'analisi.
Infine, la parte fondamentale dell’ACP è stabilire il numero di fattori adeguato che possa meglio rappresentare le variabili di partenza. Tale scelta dipende dal numero di variabili che includi nell’analisi e da quanto si assomigliano.
I criteri utilizzati per la scelta del numero di componenti sono essenzialmente tre: gli autovalori maggiori di 1, lo scree plot, l'analisi parallela.
Secondo questa regola, proposta da Guttman nel 1954, si scelgono quelle componenti a cui è associato un autovalore superiore a 1.
Gli autovalori (in inglese eigenvalues), sono numeri che forniscono la varianza spiegata dalla componente: siccome inizialmente la varianza spiegata da ogni singola variabile è pari a 1, non avrebbe senso prendere una componente, che è una combinazione di variabili, con varianza inferiore a 1, da qui la regola di Kaiser.
A un autovalore alto corrisponde una maggiore varianza e i software come SPSS o R ti restituiscono questa tabella con valori decrescenti, pertanto il primo sarà sempre associato al fattore più importante.
Il metodo è molto buono, ma non perfetto perchè tende a sovrastimare i fattori. Nella maggior parte dei casi ci azzecca ma è consigliabile usarlo insieme alle altre procedure.
Il secondo metodo è stato proposto da Cattel nel 1966 e si tratta di rappresentare graficamente la tabella precedente con appunto il grafico decrescente degli autovalori.
Poichè gli autovalori sono decrescenti, ciò significa che il primo è il più elevato e di conseguenza la prima componente principale estratta sarà quella con varianza spiegata maggiore.
Sull’asse X sono elencate le componenti, mentre sull’asse Y ci sono gli autovalori. Quando la curva di questo grafico fa un “gomito” è il momento per tracciare una linea, e prendere in considerazione solo i fattori che stanno sopra.
Nel grafico ho aggiunto io una retta per farti capire meglio quali componenti principali dovresti prendere. Lo scopo è partire dall'ultima in basso a destra e tracciare una "retta virtuale" che cerchi di interpolare le componenti più basse.
A partire dalla seconda i punti si distaccano da questa retta facendoti scegliere appunto 2 sole componenti.
L'analisi parallela è una procedura di simulazione che genera dei numeri casuali. Gli autovalori della propria ACP che superano quelli dell’estrazione casuale determinano il numero di componenti principali da prendere in considerazione.
Questa è una procedura che quasi mai è implementata nei software statistici, e pertanto di segnalo un sito utile che può aiutarti.
Una volta stabilito il numero dei fattori da estrarre devi guardare qual è la varianza spiegata dagli stessi.
A livello numerico corrisponde alla somma degli autovalori, mentre a livello percentuale la calcoli rapportando tale somma al numero delle variabili iniziali che rappresenta la varianza totale.
In linea di massima si considera molto buona una varianza superiore al 70%, mentre molto scarsa se inferiore al 50%.
Se il valore rimane tra il 50% e il 70% si è in una situazione di incertezza, e pertanto bisogna osservare l’analisi delle componenti principali nel suo complesso. Una valutazione positiva di tutti gli altri punti potrebbe facilitare l’estrazione anche con una varianza non eccessivamente elevata.
La matrice dei componenti è una tabella in cui sono esposte le saturazioni (sinonimo di correlazioni) tra le singole variabili e le componenti.
Affinché la scelta dei fattori sia valida, occorre che ogni variabile sia correlata con un valore almeno superiore a 0.30, (meglio se 0,40) con un solo fattore e contemporaneamente non lo sia con gli altri.
Nella tabella sotto, ad esempio, puoi osservare una situazione non del tutto ottimale ed in questi casi si ricorre alla rotazione per migliorare le saturazioni.
La parte conclusiva dell’'analisi delle componenti principali consiste nel dare un nome alle singole componenti principali trovate. Nella situazione riportata nella tabella qui sopra ti è facile individuarli, perché le variabili hanno nomi generici che racchiudono una tipologia di fattore comune.
Per esempio, le 7 variabili originarie colorate in arancione, andranno a formare una nuova variabile che ho chiamato "Piacevolezza" in quanto il dataset contiene domande sul giudizio degli utenti su alcuni oggetti, mentre la seconda l'ho nominata "Stile".
In SPSS puoi creare tu i fattori facendo, per esempio, una media delle variabili o altrimenti fare calcolare al software dei fattori standardizzati che saranno tra di loro incorrelati.
L’analisi fattoriale è collegata all’analisi delle componenti principali, ma i due metodi hanno obiettivi diversi.
Come abbiamo visto, infatti, l'analisi delle componenti principali sintetizza le informazioni in pochi fattori, mentre l'analisi fattoriale è una tecnica di analisi dati il cui scopo è quello di rilevare delle variabili latenti (cioè non misurabili) all'interno del tuo dataset di variabili analizzate.
L'analisi fattoriale si divide in Analisi Fattoriale Confermativa (AFC) e Analisi Fattoriale Esplorativa (AFE), ed è proprio questa seconda tecnica che viene spesso comparata con l'ACP, perchè seguono ragionamenti e formule molto simili.
La discriminante però, come abbiamo già detto, è l'obiettivo: l'AFE infatti si occupa di "esplorare" (come dice il nome) eventuali relazioni latenti tra le variabili, mentre l'analisi delle componenti principali stabilisce solamente se tra i dati presenti esiste una correlazione.
Se sei interessato ad acquisire le competenze statistiche di questi argomenti allora guarda la presentazione del mio secondo video corso in SPSS.
Giunto a questo punto, ti sarai reso conto che l’analisi delle componenti principali richiede diversi passaggi e calcoli. Esistono diversi software con cui può essere effettuata l’ACP e agevolare il processo. Io ti consiglio SPSS, e di seguito puoi trovare il comando da seguire.
Non c’è un comando
Analizza >>> Riduzione delle dimensioni >>> Fattore
Tre sono le componenti di cui sei formato: corpo, soffio, mente. Di queste le prime due sono tue, per quanto devi curartene; solo la terza è sovranamente tua.
(MARCO AURELIO imperatore romano)
Iscriviti alla Newsletter