adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

Analisi delle componenti principali: 7 passaggi da eseguire

YouTube video
Postato il 23 Dicembre 2021
Tag

L’analisi delle componenti principali, detta anche ACP oppure PCA (dall’inglese Principal Component Analysis), è una tecnica statistica multivariata, molto utilizzata soprattutto nel campo della medicina e della psicologia, dove si lavora con dataset formati da numerose variabili.

Analisi delle componenti principali: a cosa serve e quando si usa?

L'analisi delle componenti principali permette di sintetizzare l’informazione fornita dalle variabili del tuo dataset in pochi fattori, detti componenti principali, minimizzando il più possibile la perdita di informazione. Dunque, l’obiettivo dell’ACP è quello di massimizzare la varianza di tali componenti, calcolando appropriatamente i pesi da attribuire alle variabili di partenza, per ridurre le colonne del dataset di partenza.

I requisiti dell’ACP

Affinchè sia sensato condurre l’analisi delle componenti principali, devi analizzare le variabili da coinvolgere per avere chiare alcune loro caratteristiche.

Le variabili di tipo quantitativo

L’ACP è valida solo quando le variabili su cui si opera sono di tipo numerico. Se i caratteri hanno diverse unità di misura, bisogna standardizzare le variabili prima di procedere.

La correlazione lineare tra le variabili

Per capire quali variabili includere nell’ACP bisogna guardare la matrice di correlazione di Pearson (a questo link puoi trovare la mia lezione gratuita in cui ti spiego come calcolarla su SPSS), che si calcola a partire dalla matrice di varianza/covarianza.

I coefficienti di correlazione di Pearson ti informano sul verso e sull’intensità della relazione lineare che intercorre tra i fenomeni. Valori accettabili per questo indicatore si hanno per R>0,3 o R<-0,3.

Se, prima di vedere gli altri passaggi, vuoi ripassare velocemente la correlazione di Pearson, ti lascio questo mio video in cui te la spiego in modo semplice e chiaro utilizzando una metafora statistica.

YouTube video
La correlazione di Pearson spiegata con una metafora

L'assenza di outliers

Un altro controllo da effettuare prima di eseguire l’ACP è la presenza di valori estremi nelle variabili in gioco. Infatti, numeri che si allontanano troppo dal centro della distribuzione possono influenzare negativamente i risultati, una situazione che capita spesso anche applicando altre tecniche statistiche. Anche tenere sott’occhio la varianza delle variabili è consigliato. 

A tal fine si possono realizzare dei boxplot (qui ti ho parlato in modo approfondito di cosa sono, quali sono le loro caratteristiche, come crearli e come interpretarli) oppure grafici a dispersione, detti scatterplot, dai quali è possibile dedurre relazioni lineari tra coppie di variabili.

La numerosità campionaria accettabile

Infine, assicurati che ciascuna delle variabili che vuoi riassumere abbia un numero sufficiente di unità statistiche, di solito tra le 10 e le 15 osservazioni per variabile

I passaggi per condurre l’Analisi delle componenti principali

Una volta che hai controllato che le tue variabili abbiano le caratteristiche adatte per poter condurre l'analisi delle componenti principali, passiamo a vedere i diversi passaggi che devi seguire per condurla.

L'indice KMO

Il primo passo è eseguire il test di Kaiser-Meyer-Olkin, abbreviato KMO, che è una misura di adeguatezza del campionamento e stabilisce se effettivamente le variabili considerate sono coerenti per l’utilizzo di un’analisi delle componenti principali.

Il suo valore varia da 0 a 1, e quando supera lo 0,70 è buono.

Il test di Bartlett

Successivamente devi spostarti su un altro indice che misura la congruenza del campione, ed è il test di Bartlett, che verifica l’ipotesi nulla di incorrelazione tra le variabili. La speranza è che il test risulti significativo, quindi con p-value minore di 0,05, affinché le variabili siano correlate tra di loro.

La tabella di comunalità

A questo punto dovrai consultare la tabella di comunalità. La comunalità è la variabilità che ogni singolo carattere apporta al processo di estrazione dei fattori. Maggiore è tale valore, meglio la variabile si presta per questo tipo di analisi. 

La comunalità iniziale è sempre uguale a 1, in quanto è la varianza spiegata da ogni fenomeno. Un valore superiore a 0,50 rappresenta una buona comunalità.

L'estrazione delle componenti principali

Infine, la parte fondamentale dell’ACP è stabilire il numero di fattori adeguato che possa meglio rappresentare le variabili di partenza. Tale scelta dipende dal numero di variabili che includi nell’analisi e da quanto si assomigliano. 

I criteri utilizzati per la scelta del numero di componenti sono essenzialmente due: gli autovalori maggiori di 1 e l'analisi parallela.

Gli autovalori maggiori di 1

Secondo questa regola, dettata dallo statistico Kaiser, si scelgono quelle componenti a cui è associato un autovalore superiore a 1.

L’autovalore è un numero che fornisce la varianza spiegata dalla componente: siccome inizialmente la varianza spiegata da ogni singola variabile è pari a 1, non avrebbe senso prendere una componente (che è una combinazione di variabili) con varianza inferiore a 1, da qui la regola di Kaiser.

Ad un autovalore alto corrisponde una maggiore varianza e i software come SPSS o R ti restituiscono questa tabella con valori decrescenti, pertanto il primo sarà sempre associato al fattore più importante. Puoi vedere meglio questa correlazione nel grafico decrescente degli autovalori, che ti ho riportato qui sotto, chiamato anche scree plot.

Poichè gli autovalori sono, appunto, decrescenti, ciò significa che il primo è il più elevato e di conseguenza la prima componente principale estratta sarà quella con varianza spiegata maggiore.

Grafico degli autovalori
Grafico decrescente degli autovalori

Sull’asse x sono elencate le componenti, mentre sull’asse y ci sono gli autovalori. Quando la curva di questo grafico fa un “gomito” è il momento per tracciare una linea, e prendere in considerazione solo i fattori che stanno sopra.
Dal grafico che puoi vedere qui sopra, ad esempio, si vede che il numero di punti che si trovano sopra al gomito è 4. 

L'analisi parallela (Parallel analysis)

L'analisi parallela è una procedura di simulazione che genera dei numeri casuali. Gli autovalori della propria ACP che superano quelli dell’estrazione casuale determinano il numero di componenti principali da prendere in considerazione.

Questa è una procedura che quasi mai è implementata nei software statistici, e pertanto di segnalo un sito utile che può aiutarti.

La varianza spiegata

Una volta stabilito il numero dei fattori da estrarre devi guardare qual è la varianza spiegata dagli stessi.

A livello numerico corrisponde alla somma degli autovalori, mentre a livello percentuale la calcoli rapportando tale somma al numero delle variabili iniziali che rappresenta la varianza totale.

In linea di massima si considera molto buona una varianza superiore al 70%, mentre molto scarsa se inferiore al 50%.

Se il valore rimane tra il 50% e il 70% si è in una situazione di incertezza, e pertanto bisogna osservare l’analisi delle componenti principali nel suo complesso. Una valutazione positiva di tutti gli altri punti potrebbe facilitare l’estrazione anche con una varianza non eccessivamente elevata.

La matrice dei componenti

La matrice dei componenti è una tabella in cui sono esposte le saturazioni (sinonimo di correlazioni) tra le singole variabili e le componenti.

Affinché la scelta dei fattori sia valida, occorre che ogni variabile sia correlata con un valore almeno superiore a 0.40 con un solo fattore e contemporaneamente non lo sia con gli altri. Nella tabella sottostante, ad esempio, puoi osservare una situazione ottimale che non sempre avviene nella realtà.

Analisi delle componenti principali
La matrice dei componenti

La descrizione dei fattori

La parte conclusiva dell’ACP consiste nel dare un nome alle singole componenti principali trovate. Nella situazione riportata nella tabella qui sopra ti è facile individuarli, perché le variabili hanno nomi generici che racchiudono una tipologia di fattore comune.

Per esempio, le 4 variabili originarie a1-a2-a3-a4, andranno a formare una nuova variabile che chiamerai “Snack grassi”, e così via per le altre 3.

L'analisi delle componenti principali (ACP o PCA) e l'analisi fattoriale (AF o FA)

L’analisi fattoriale è collegata all’analisi delle componenti principali, ma i due metodi hanno obiettivi diversi.

Come abbiamo visto, infatti, l'analisi delle componenti principali sintetizza le informazioni in pochi fattori, mentre l'analisi fattoriale è una tecnica di analisi dati il cui scopo è quello di rilevare delle variabili latenti (cioè non misurabili) all'interno del tuo dataset di variabili analizzate.

L'analisi fattoriale si divide in Analisi Fattoriale Confermativa (AFC) e Analisi Fattoriale Esplorativa (AFE), ed è proprio questa seconda tecnica che viene spesso comparata con l'ACP, perchè seguono ragionamenti e formule molto simili.

La discriminante però, come abbiamo già detto, è l'obiettivo: l'AFE infatti si occupa di "esplorare" (come dice il nome) eventuali relazioni latenti tra le variabili, mentre l'analisi delle componenti principali stabilisce solamente se tra i dati presenti esiste una correlazione.

Se sei interessato ad acquisire le competenze statistiche di questi argomenti allora guarda la presentazione del mio secondo video corso in SPSS.

YouTube video
L'ACP spiegata semplice con una metafora

Quale software usare per l’Analisi delle componenti principali

Giunto a questo punto, ti sarai reso conto che l’analisi delle componenti principali richiede diversi passaggi e calcoli. Esistono diversi software con cui può essere effettuata l’ACP e agevolare il processo. Io ti consiglio SPSS, e di seguito puoi trovare il comando da seguire.

Analisi delle componenti principali EXCEL

Non c’è un comando

Analisi delle componenti principali SPSS

Analizza >>> Riduzione delle dimensioni >>> Fattore

Riassumendo

  • L’ACP è una tecnica statistica multivariata che consente di riassumere numerose variabili di un dataset in pochi fattori contenenti la maggior parte delle informazioni del campione
  • Per poter condurre questa analisi le variabili quantitative coinvolte devono essere correlate tra loro e contenere un numero sufficiente di osservazioni
  • Sono 7 i passaggi che portano all’individuazione e definizione delle componenti principali
  • La scelta delle componenti si basa sul criterio di Kaiser dell’autovalore maggiore di 1 e sulla lettura del grafico scree plot
  • Il nome delle componenti principali deve essere coerente con le variabili che le compongono

Tre sono le componenti di cui sei formato: corpo, soffio, mente. Di queste le prime due sono tue, per quanto devi curartene; solo la terza è sovranamente tua.

(MARCO AURELIO imperatore romano)

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram