L - PowerPoint PPT Presentation

1 / 43
About This Presentation
Title:

L

Description:

L analisi dei gruppi (cluster analysis) Stefano Nobile Storia brevissima Storia brevissima La cluster analysis nasce nel 1939 per opera di Tyron, che per primo la ... – PowerPoint PPT presentation

Number of Views:72
Avg rating:3.0/5.0
Slides: 44
Provided by: Stefano115
Category:
Tags:

less

Transcript and Presenter's Notes

Title: L


1
Lanalisi dei gruppi(cluster analysis)
  • Stefano Nobile

2
Storia brevissima
  • Storia brevissima
  • La cluster analysis nasce nel 1939 per opera di
    Tyron, che per primo la presentò come una
    variante dellanalisi fattoriale.
  • Grazie al lavoro di due biologi Sokal e Sneath
    la cluster analysis riceve un forte impulso
    negli anni sessanta.
  • Nello stesso periodo, Ward (1963) elabora la sua
    tecnica di clustering a partire da un problema di
    classificazione di posizioni occupazionali.
  • Ancora negli anni sessanta, Johnson lavora alla
    cluster, concependola coma una procedura utile
    per rappresentare la struttura della matrice di
    similarità fra i casi.

3
Concetti chiave
  • Similarità e distanza
  • Sotto il profilo tecnico, i concetti di
    similarità e di distanza sono centrali per
    l'analisi della composizione dei gruppi.
  • Questi due concetti si trovano in relazione
    inversa ad una maggiore similarità corrisponde
    una minore distanza.
  • A rigore, il concetto di distanza può essere
    impiegato soltanto nel caso di variabili
    cardinali. Esso viene riferito alla distanza
    euclidea.
  • d ? (X1 X2)2 (Y1 Y2)2
  • Generalizzando, per uno spazio N-dimensionale,
    essa diventa

  • v
  • dij ? S (Xik - Xjk)2

  • k1
  • Questa distanza è nota anche come distanza di
    Manhattan.
  • La distanza tra casi può essere calcolata anche
    attraverso altre misure, come la distanza di
    Mahalanobis e la distanza di Minkovski.

4
  • Occorre distinguere le diverse misure di
    similarità/distanza in ragione del tipo di
    variabili impiegate nellanalisi.
  • Per variabili ad intervalli, le distanze sono
  • la distanza euclidea
  • la distanza euclidea al quadrato
  • la similarità calcolata col coseno
  • la similarità calcolata col coefficiente di
    correlazione di Pearson
  • la distanza di Chebycev
  • la distanza assoluta (city-Block o Manhattan)
  • la distanza di Minkowski
  • la distanza di Minkowski generalizzata
    (customized)
  • Per variabili categoriali non ordinate, le
    distanze sono
  • la distanza del chi-quadrato
  • la distanza del phi-quadrato
  • Per variabili dicotomiche, le distanze sono
  • la distanza euclidea
  • la distanza euclidea al quadrato
  • la distanza di dimensione (size)
  • la distanza di pattern
  • la varianza

5
Figura 1 - Calcolo della distanza tra due casi
rispetto a variabili aventi metrica diversa
valori non standardizzati
6
Figura 2 - Calcolo della distanza tra due casi
rispetto a variabili aventi metrica diversa
valori standardizzati
Quando diverge la metrica delle variabili che si
adottano per la cluster, è necessario
standardizzare le variabili, in modo da non
introdurre effetti distorsivi indotti dalla
stessa differenza di metrica (Figura 1 e Figura
2). Il discorso cambia se si fa invece
riferimento a variabili categoriali. In questo
caso, non si parlerà più di distanza, ma di
dissimilarità. Anche per la dissimilarità
esistono vari indici per poter calcolare la
somiglianza dei profili relativi a due individui.
7
Partizioni e ricoprimenti
  • Una partizione è una suddivisione dellinsieme
    originario in K sottoinsiemi a due a due
    disgiunti e tali da esaurire linsieme originario
    (ogni oggetto appartiene ad uno ed un solo
    sottoinsieme) (Ricolfi, 1992, p.31)
  • Un ricoprimento, invece, è una suddivisione
    dellinsieme originario in K sottoinsiemi che
    esauriscono linsieme originario ma possono anche
    essere più o meno sovrapposti fra loro (Ricolfi,
    1992, p.31)

8
Le tecniche di clustering
  • Le tecniche di Cluster Analysis sono
    riconducibili a tre grandi famiglie
  • Cluster analysis

Tecniche di Classificazione gerarchica
Tecniche basate sulle partizioni ripetute
Tecniche di overlapping clustering
9
Le tecniche di classificazione gerarchica
  • La famiglia delle tecniche di classificazione
    gerarchica si suddivide, a sua volta, in due
    generi
  • Quelle basate sugli algoritmi aggregativi
  • Quelle basate sugli algoritmi scissori

10
Le tecniche basate sugli algoritmi aggregativi
  • Queste tecniche procedono raggruppando i casi ad
    uno ad uno, fino ad arrivare ad n-1 aggregazioni.

11
(No Transcript)
12
(No Transcript)
13
Le tecniche di aggregazione possono essere
diverse e cioè
La tecnica del legame singolo (nearest
neighbor) consiste nel raggruppare i casi che
presentano la minore distanza e successivamente
nell'utilizzare come referente della distanza il
caso più vicino a quello del nuovo caso da
aggregare
14
La tecnica del legame completo (furthest
neighbor) riunisce invece i casi che sono più
vicini rispetto ai casi più lontani di ciascuno
dei gruppi che si sono formati
La tecnica del legame completo (furthest
neighbor) riunisce invece i casi che sono più
vicini rispetto ai casi più lontani di ciascuno
dei gruppi che si sono formati
15
La tecnica del legame medio (waverage linkage)
richiede che la distanza tra due gruppi si
computi sulla base della media aritmetica delle
distanze tra il caso da aggregare e i gruppi che
sono già stati formati
16
La tecnica del centroide (centroid clustering)
fa riferimento al baricentro del gruppo. La
distanza non è più calcolata in base alla media
(o alla mediana) del caso da tutti i casi del
gruppo, bensì in base al baricentro (centroide)
del gruppo.
17
  • La tecnica di Ward (Wards method) non fa altro
    che aggregare casi in modo tale da ottenere, ad
    ogni passaggio, il minimo incremento possibile
    della varianza all'interno di ciascun gruppo.

18
La trasformazione dei valori
  • Per la trasformazione dei valori sono disponibili
    le seguenti alternative
  • Punteggi Z è la normale procedura di
    standardizzazione, che genera punteggi standard
    z, ovvero z (x-Media)/Deviazione Standard
  • Ampiezza massima di 1 la procedura divide il
    valore della variabile per il valore massimo, in
    modo tale che il valore massimo ottenibile sia i
    ovvero y x/Max
  • Media di 1 la procedura standardizza i valori in
    modo che la loro media sia uguale a 1. I valori
    di una variabile sono divisi per la media della
    variabile, ovvero y x/Media
  • Deviazione standard di 1 i valori di una
    variabile sono divisi per la deviazione standard,
    ovvero y x/Deviazione Standard
  • Intervallo da 1 a 1 la procedura trasforma i
    valori in modo che lintervallo di variazione sia
    compreso tra i e i. I valori di una variabile
    sono divisi per lintervallo di variazione della
    variabile, ovvero y x/(Max Mm)
  • Intervallo da 0 a 1 sottrae dal valore di una
    variabile il valore minimo e divide il risultato
    per lintervallo, ovvero y (x Min)/(Max
    Mm).

19
Cosa accade in matrice
X1 X2
a 1 1
b 1 2
c 6 3
d 8 2
e 8 0
20
a b c d e
a 0 1 29 50 50
b 0 26 49 53
c 0 5 13
d 0 4
e 0
21
ad esempio, infatti, la distanza tra a ed e è(1
- 8)2 (1 - 0)2 50da cui deriva
X1 X2
(a, b) 1 1,5
c 6 3
d 8 2
e 8 0
22
e, da questa, la nuova matrice delle distanze
(a, b) c d e
(a, b) 0 27,25 49,25 51,25
c 0 5 13
d 0 4
e 0
23
Le tecniche del legame singolo e del legame
completo possono fare riferimento sia a misure di
similarità che di distanza. Le tecniche di Ward e
del legame medio possono invece fare riferimento
alle sole misure di distanza.
24
Il confronto tra le diverse tecniche, su un
vecchio data-base elettorale, produce queste
visibili differenze(legame singolo)
25
(legame completo)
26
(legame medio)
27
(Ward)
28
Le tecniche basate sugli algoritmi scissori
  • Queste tecniche, pur essendo più ricche di
    proprietà matematiche, hanno un carattere meno
    empirico dei metodi aggregativi, basandosi su
    note proprietà statistiche della suddivisione
    della matrice delle devianze e codevianze
    (Rizzi, 1985, p. 89). Tuttavia, esse a causa
    della complessità dei calcoli richiesti trovano
    scarso impiego allinterno della ricerca.
  • Le tecniche basate sugli algoritmi scissori si
    distinguono in due classi
  • I metodi monotetici, che realizzano la
    suddivisione dei gruppi basandosi sui valori
    assunti da una sola variabile.
  • I metodi politetici, che prendono in
    considerazione i valori assunti da tutte le
    variabili prescelte per la classificazione.
  • Il metodo divisivo più noto è quello di Edwards -
    Cavalli Sforza.
  • Il criterio seguito è quello di esaminare ad ogni
    stadio tutte le possibili suddivisioni in due
    parti di tutti i gruppi. Verrà operata la
    divisione che fa diminuire maggiormente la
    varianza entro i gruppi.

29
Lapplicazione di questo metodo divisivo porta a
risultati come il seguente
30
(legame singolo)
31
Le tecniche a partizioni ripetute
  • Rispetto alle precedenti, le tecniche di
    clustering basate sulle partizioni ripetute
    presentano il vantaggio di poter lavorare su
    numeri assai elevati di casi. Questo vantaggio
    viene controbilanciato dalla necessità di dovere
    stabilire a priori il numero di gruppi da
    formare.
  • Questo svantaggio può essere parzialmente
    superato attraverso lo spostamento effettuato
    in ragione di differenti criteri dei casi da un
    gruppo all'altro.
  • I criteri per lo spostamento dei casi sono tre
  • Le k-medie
  • Le nubi dinamiche
  • l'ottimizzazione di una funzione obiettivo

32
Le k-medie
  • Le k-medie fanno riferimento, per la
    classificazione, alle coordinate dei centroidi
    dei diversi gruppi.

33
Le nubi dinamiche
  • Le nubi dinamiche prendono invece come
    riferimento un nucleo iniziale, o "seme", attorno
    al quale vanno poi raccogliendosi i casi con una
    somiglianza maggiore.

34
Le funzioni-obiettivo
  • Le funzioni obiettivo cercano infine di
    realizzare gli spostamenti fra un gruppo e
    l'altro dei singoli casi senza uno specifico
    riferimento a considerazioni geometriche relative
    ad una funzione di distanza. Esse tengono
    piuttosto conto delle modifiche che si ottengono
    nei valori di tale funzione. A partire dalla
    funzione iniziale, vengono effettuati solo gli
    spostamenti di oggetti da un gruppo all'altro che
    migliorano (nel senso previsto) la funzione
    obiettivo. Il processo termina quando non si
    ottengono più miglioramenti significativi
    attraverso un intero ciclo di riclassificazione.

35
Esempi
  • Classificazione gerarchica matrice delle
    distanze

36
Processo di agglomerazione
37
Cluster di appartenenza
38
Grafico a stalattite
39
Dendogramma (metodo di Ward)
40
(No Transcript)
41
Appartenenza dei casi ai gruppi
42
Centri finali dei cluster
43
Numero di casi in ciascun cluster
Write a Comment
User Comments (0)
About PowerShow.com