adriano gilardone Docente di Statistica Matematica Excel Spss sfruttare excel consulenze statistiche lezione videocorsi

Cluster analysis: le 2 principali tecniche usate

YouTube video
Postato il 28 Dicembre 2021
Tag

La cluster analysis, detta anche analisi dei cluster o dei gruppi in italiano, è una tecnica di data analysis multivariata, che permette di suddividere le osservazioni contenute nel dataset in gruppi, ciascuno dei quali contiene unità statistiche simili tra loro.

Un cluster è, appunto, un sottoinsieme di osservazioni delle variabili analizzate che contiene caratteristiche simili. 

Il clustering è una tecnica statistica diversa dalle altre, perché si basa sull’apprendimento non supervisionato, cioè consente di raggruppare un insieme di oggetti senza poter sfruttare esempi da utilizzare come base di apprendimento. Infatti, in ambito di ricerca, si usa splittare i dati da modellizzare in data test e data training, ma tale discorso va oltre l’obiettivo di questo articolo, e quindi non lo vedremo in modo approfondito.

Continuando a leggere comprenderai non solo come condurre la cluster analysis, ma conoscerai anche i diversi algoritmi di clustering che i principali software statistici come SPSS ed R includono.

Cluster analysis: a cosa serve e quando si usa?

Questo tipo di analisi possono essere utilizzate per accorpare osservazioni simili delle variabili coinvolte nello stesso cluster. Viene utilizzata in svariati campi per rispondere a diverse ipotesi di ricerca:

  1. Medicina - Quali sono i cluster diagnostici? Questo è il caso in cui si predispone un dataset che include i possibili sintomi come ansia, depressione, stanchezza, ecc. I cluster che si formano sono rappresentati dai gruppi di pazienti che hanno sintomi simili.
  2. Marketing - Quali sono i customer segments? Le variabili coinvolte hanno a che fare con gli aspetti demografici, i bisogni, le abitudini e i comportamenti dei clienti. In questo caso i cluster sono formati dai soggetti che presentano gli stessi atteggiamenti.
  3. Istruzione - Quali sono gli studenti che hanno bisogno di particolare attenzione? La cluster analysis identifica i gruppi di studenti omogenei, cioè quelli che si assomigliano ad esempio in termini di voti scolastici, velocità d’apprendimento e attitudine allo studio.
  4. Biologia - Qual è la tassonomia delle specie? Immagina di avere un dataset contenente diverse specie di piante, con differenti attributi dei loro fenotipi. Allora, con l’analisi dei cluster si può costruire la tassonomia di gruppi e sottogruppi di piante aventi gli stessi attributi.

I passi per condurre la cluster analysis

Scegli le variabili quantitative e/o qualitative

Nel caso della cluster analysis, per suddividere il dataset in gruppi si possono utilizzare sia variabili numeriche che categoriali, o includere entrambi i tipi. 

Calcola le distanze tra le osservazioni

Una volta scelte le variabili, a questo punto devi scegliere quale metrica utilizzare per calcolare la distanza tra le varie unità statistiche. Infatti, l’appartenenza di due elementi a un stesso gruppo dipende da quanto sono vicini: minore è la distanza tra essi, maggiore è la probabilità che appartengono allo stesso cluster.

Di seguito ti elenco le formule delle distanze più conosciute.

Distanza Euclidea

La distanza Euclidea è la formula della distanza più utilizzata per calcolare lo spazio tra due punti del piano cartesiano. Ogni punto è un’osservazione presente nei tuoi dati.

Distanza di Manhattan

La distanza di Manhattan è definita come la somma del valore assoluto delle differenze delle coordinate dei punti.

Distanza di Mahalanobis

La distanza di Mahalanobis è basata sulle correlazioni tra variabili.

Distanza di Hamming

La distanza di Hamming è usata soprattutto nell’ambito informatico, per calcolare la differenza tra due stringhe di bit.

Cluster analysis gerarchica o non gerarchica?

  • Nel clustering non gerarchico il numero di gruppi in cui suddividere il campione viene deciso a priori e sono disponibili diverse tecniche per questa tipologia di analisi. La più diffusa è l’algoritmo k means o delle k medie in italiano, e consiste nel creare k gruppi e calcolarne il centroide o punto medio. Nota che questo metodo si può utilizzare solo per variabili quantitative.
  • Il clustering gerarchico, adatto solo alle variabili quantitative e qualitative dicotomiche, prevede che i gruppi siano annidati e organizzati come un albero gerarchico. Tale gerarchia è visibile mediante la rappresentazione di un grafico chiamato dendrogramma che permette di capire il numero di cluster ideale da scegliere. A seconda del criterio di similarità (secondo cui due unità statistiche si considerano simili e quindi appartenenti allo stesso cluster) che si sceglie, il cluster gerarchico può essere di due tipi

Il metodo aggregativo

In questo caso si inizia considerando le singole unità statistiche per poi aggregarle nei gruppi. Tale approccio è anche noto come bottom-up, ossia dal basso verso l’alto.

L’aggregazione tra cluster può essere effettuata valutando le distanze cluster-to-cluster, cioè le misure che riguardano due gruppi. Se si opera con la matrice delle distanze (calcolata con una delle distanze viste precedentemente), questa fornisce già la distanza cluster-to-cluster al primissimo livello. Per fondere cluster con diversa cardinalità occorre definire il legame (o link) secondo cui esprimere la dissomiglianza che due cluster possono avere. Di seguito ti descrivo i vari tipi di metodi di aggregazione più popolari.

Il metodo di Ward

All’inizio del processo di aggregazione, quando ogni cluster è formato da un solo elemento, la devianza interna è zero. Quando due osservazioni si fondono in un singolo cluster si introduce un grado di variabilità destinato a crescere in funzione della numerosità del gruppo stesso. Ad ogni passo di tale processo, il metodo di Ward considera via via tutti i gruppi a due a due e procede alla fusione di quelli che minimizzano la devianza totale dal centroide del nuovo gruppo.

Il legame singolo

La distanza o dissimilarità tra due cluster coincide con la distanza minima tra due entità di cui una nel primo cluster e lʼaltro nel secondo.

Il legame completo

La distanza o dissimilarità tra due cluster coincide con la distanza massima tra due entità di cui una nel primo cluster e lʼaltro nel secondo.

Il legame medio non pesato (UPGMA)

La distanza cluster-to-cluster è la distanza media tra tutte le unità contenute nei due cluster

Il legame medio non pesato (WPGMA)

Come il precedente legame solo che si tiene conto di quante unità sono già contenute nei due cluster. Le unità inserite nel cluster più piccolo hanno un peso più piccolo

La distanza tra centroidi

Questo legame non tiene conto delle dimensioni dei cluster da aggregare

I centroidi pesati (mediana)

A differenza del precedente, questo link tiene conto delle dimensioni dei cluster da aggregare

Ma quale metodo aggregativo risulta più conveniente scegliere? Le tecniche appena viste possiedono tutte dei punti critici. Ad esempio, sono molto sensibili ai valori anomali ed ai disturbi nel calcolo delle distanze o dissimilarità (come gestire le distanze uguali?), non riescono ad intercettare bene strutture in cui sono compresenti gruppi poco numerosi e gruppi molto numerosi.

Inoltre, forti divari nelle distribuzioni multivariate creano difficoltà nella scelta del metodo di aggregazione. Ecco allora alcune linee guida che ti permettono di prendere la decisione più appropriata:    

  • Il legame singolo crea dei concatenamenti artificiali tra i cluster maggiori e favorisce l’assorbimento di quelli più piccoli. 
  • Il legame completo forma cluster di tipo sferico anche se di questi non vi è traccia nei dati. 
  • Il legame di Ward tende a formare cluster di eguale numerosità tendenzialmente piccoli.

Il metodo divisivo

Al contrario del metodo aggregativo, quello divisivo segue l’approccio top-down ossia partendo dal dataset completo e dividendolo in partizioni fino a che non si raggiunga una condizione prestabilita che la maggior parte delle volte coincide con il numero di cluster fissato.

Il metodo divisivo è più complesso rispetto a quello agglomerativo perché si basa sull’esecuzione di subroutine che permettono di suddividere il data points iniziale. In alcuni casi risulta anche essere più efficiente nel senso che il metodo divisivo converge più velocemente  rispetto a quello aggregativo. Inoltre, l’algoritmo divisivo è più accurato perché tiene conto della distribuzione globale dei dati per creare le prime partizioni.

L'interpretazione dei risultati

Nel caso della cluster analysis gerarchica, come già accennato, è necessario guardare il dendrogramma per capire quanti gruppi formare. Ad esempio, nel grafico qui sotto

cluster analysis

Nel caso della cluster analysis non gerarchica bisogna osservare le medie dei gruppi e dare un nome agli stessi. Di solito una rappresentazione con il grafico radar rende meglio l’idea. Attento che al concetto di media aritmetica va sempre associato quello di deviazione standard.

cluster analysis
Grafico radar

In conclusione, se vuoi ripassare velocemente la deviazione standard, ti lascio questo mio video in cui te la spiego in modo chiaro e semplice utilizzando una metafora statistica.

YouTube video
La deviazione standard spiegata con una metafora

La cluster analysis e l'analisi discriminante

Quando ti approccerai al software per condurre la cluster analysis, io uso SPSS, noterai che spesso si trova posizionata vicino all'analisi discriminante. Questo perchè entrambe riguardano la suddivisione di diversi dati statistici in gruppi omogenei, però sono due tecniche con obiettivi molto diversi.

La cluster analysis, come abbiamo visto, ha lo scopo di suddividere le osservazioni contenute nel dataset in gruppi, mentre l’analisi discriminante si utilizza per i dati presenti in classi distinte, e per assegnare poi nuove osservazioni in uno dei gruppi che hai precedentemente definito.

Quindi, benchè le due tecniche possano sembrare simili, in realtà vanno a delineare due diverse aree di analisi.

Quale software usare per la cluster analysis?

I maggiori software statistici come SPSS e R permettono di condurre l’analisi dei cluster usando le diverse tecniche di clustering viste sopra. Qui di seguito ti mostro i comandi da usare.

Cluster analysis EXCEL

Non c’è un comando

Cluster analysis SPSS

Analizza >>> Riduzione delle dimensioni >>> Cluster…

Riassumendo

  • La cluster analysis è una tecnica statistica multivariata che si effettua con lo scopo di suddividere le osservazioni di un campione in gruppi omogenei
  • Nella cluster analysis possono utilizzare sia variabili quantitative che qualitative in accordo con il tipo di clusterizzazione adottata
  • Si distinguono due approcci distinti: clustering gerarchico e non gerarchico. Il primo consente di capire qual è il numero ottimale di cluster da scegliere, mentre il secondo consiste nel decidere a priori il numero di gruppi per poi popolarli
  • Un altro aspetto importante della cluster analysis è la scelta della metrica da utilizzare per determinare le distanze tra le varie osservazioni

Il modo in cui una squadra gioca nel suo complesso determina il successo. Si può avere un gruppo formato dalle migliori stelle del mondo, ma se non giocano bene insieme, la squadra non varrà un centesimo.

(BABE RUTH, Giocatore di baseball statunitense)

Ripetizioni private

Ho intrapreso una interessante collaborazione con il sito di TROVAPROF.IT

Questa start-up mette in relazione studenti che cercano lezioni private con professori di qualsiasi materia. Se stai cercano delle ripetizioni per le materie che non tratto io, allora ti consiglio di fare un salto su TROVAPROF.IT, un portale completamente gratuito per dare o ricevere lezioni private.

Iscriviti alla Newsletter

Se hai bisogno d’informazioni che non hai trovato nella sezione servizi o dei video corsi, scrivimi un messaggio o chiamami.
Domande, prezzi, richieste, delucidazioni...tutto quello che ti serve. Cercherò di risponderti entro le 24h.
Newsletter

Consenso al trattamento dei dati
Utilizzerò i tuoi dati (nome ed indirizzo mail) solo per inviarti gratuitamente via mail la newsletter mensile. Niente spam, niente scocciature, ti disiscrivi in un click quando vuoi.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram