Presentazione di PowerPoint - PowerPoint PPT Presentation

1 / 44
About This Presentation
Title:

Presentazione di PowerPoint

Description:

Title: Presentazione di PowerPoint Author: A. Di Ciaccio Last modified by: cdc2 Created Date: 10/10/2001 10:45:24 AM Document presentation format – PowerPoint PPT presentation

Number of Views:64
Avg rating:3.0/5.0
Slides: 45
Provided by: A877
Category:

less

Transcript and Presenter's Notes

Title: Presentazione di PowerPoint


1
ALBERI DI CLASSIFICAZIONE
A. Di Ciaccio
Dip. di Statistica, Probabilità e Stat.
Applicate Università di Roma La Sapienza
2
Obiettivo
Classificare un insieme di unità statistiche in
un certo numero di classi note
Esempio 1
Quando i pazienti con attacco di cuore sono
ammessi in ospedale, vengono effettuate numerose
prove per ottenere misure fisiologiche quali la
frequenza cardiaca, la pressione sanguigna e così
via. Un'ampia varietà di altre informazioni viene
inoltre raccolta, quali l'età del paziente e
l'anamnesi. I pazienti successivamente possono
essere rintracciati per vedere se sopravvivono
all'attacco di cuore, per esempio nell'arco di 30
giorni. Sarebbe utile per il trattamento dei
pazienti, se tali misure prese al momento del
ricovero ospedaliero potessero essere usate per
identificare i pazienti ad alto rischio (coloro
che non è probabile che sopravvivano a 30
giorni).
3
  • La classificazione è un processo composto da
  • due passi fondamentali
  • Si deve stimare un modello od individuare una
    regola che consenta di distinguere i soggetti tra
    le varie classi. Per fare ciò occorre avere
    osservato sia le variabili esplicative sia
    l'appartenenza alla classe.
  • Si utilizza il modello o le regole stimate al
    punto 1 per predire la classe di appartenenza su
    nuovi soggetti su cui sono state rilevate solo le
    variabili esplicative.

4
Albero di classificazione per lesempio 1
Systolic blood pressure gt 91
si
no
B
Age gt 62.5
si
no
B
Sinus tachycardia
no
si
A
B
5
(No Transcript)
6
Gli alberi partono da un nodo radice. I nodi
generano nodi figli utilizzando i dati di
training ed una regola di split. I nodi finali si
chiamano nodi foglia.
I dati di training sono costituiti da un insieme
di osservazioni di variabili esplicative X1, X2,
. e di una variabile Y che determina la classe
delle unità
Una regola di split binario assume la forma --
se X1 lt 91 allora lunità appartiene al ramo di
sinistra -- altrimenti appartiene al ramo di
destra
Si possono considerare regole che generano più di
due figli e che utilizzano più di una variabile
7
Per identificare il miglior split per ogni nodo
occorre considerare una misura della purezza
(omogeneità) del nodo. La massima purezza si ha
quando nel nodo è presente solo una classe di Y
a,a,a,a,b,b,b
b,b,b
a,a,a,a
  • Misure di purezza più utilizzate
  • Entropia
  • Indice di etereogeneità di Gini

8
  • La procedura di split continua finché
  • La purezza dei dati nei nodi foglia ha raggiunto
    un certo livello
  • I nodi foglia contengono meno di un fissato
    numero minimo di unità

Al termine della procedura ogni nodo foglia viene
assegnato ad una classe, generalmente
corrispondente alla moda (majority rule)
a,a,a,a,a,b,b,b,b, b,c,c
classe a
classe b
b,b,b,b,c
a,a,a,a,a,b,c
9
Generalizzazione dellanalisi
  • Per evitare risultati banali ed inutili è
    necessario introdurre delle procedure di
    validazione nel metodo che impediscano o riducano
    loverfitting.
  • Ciò può essere ottenuto attraverso una procedura
    di pruning o di potatura dellalbero, dopo che
    questo è stato completamente sviluppato.
  • Gli strumenti più utilizzati con il pruning sono
  • Cross validation
  • Campioni di test indipendenti

10
Metodi recenti di potenziamento delle capacità
previsive di un albero di classificazione
  • Si può ottenere un notevole potenziamento degli
    alberi di classificazione considerando le
    seguenti procedure, sviluppate negli ultimi anni,
    che costruiscono in vario modo un insieme di
    alberi dallo stesso insieme di dati
  • Bagging (Breiman 1996)
  • Boosting (Freund Shapire 1996)
  • Foreste (Breiman 1999)

11
  • Riassumendo quindi i punti cruciali da
    considerare nella costruzione di un albero
  • Regole di split
  • Misure di purezza
  • Regole di stop
  • Metodi di pruning
  • Metodi di validazione
  • Miglioramento della generalizzazione bagging
    boosting, foreste
  • Valutazione dei risultati

12
Confronto tra Analisi Discriminante e Alberi di
classificazione
Lanalisi discriminante lineare e gli alberi di
classificazione hanno lo stesso obiettivo di
analisi. Ad una analisi superficiale, l'analisi
discriminante e gli alberi di classificazione
potrebbero sembrare simili, perché entrambi
coinvolgono dei coefficienti e delle regole di
classificazione. Ma la differenza tra le regole
simultanee dell'analisi discriminante le regole
gerarchiche degli alberi di classificazione è
rilevante ed ha numerose implicazioni.
13
Un' analisi discriminante lineare tradizionale
dei dati di attacco di cuore produce un insieme
di coefficienti che definiscono la singola
combinazione lineare di pressione sanguigna,
dell' età paziente e della tachicardia che meglio
differenziano i pazienti a basso rischio dai
pazienti ad elevato rischio. Viene quindi
calcolato un punteggio per ogni paziente sulla
funzione discriminante lineare a partire dalle
misure di ogni paziente sulle tre variabili
predittive, pesate dai rispettivi coefficienti
discriminanti della funzione. La
classificazione prevista di ogni paziente come
basso rischio o alto rischio viene fatta quindi
simultaneamente considerando le misure del
paziente sulle tre variabili predittive.
14
Gli alberi di classificazione possono essere
utilizzati anche in presenza di un insieme di
variabili qualitative e quantitative. Viceversa
l'analisi discriminante lineare richiede che le
variabili predittive siano misurate almeno su
scala di intervalli. Per gli alberi di
classificazione basati sugli split univariati è
interessante osservare che ogni trasformazione
monotona delle variabili predittive ordinali
produrrà gli stessi split e quindi la stessa
classificazione (per split univariati). Quindi
non è necessario preoccuparsi del livello di
misura delle variabili o delle differenti unità
di misura.
15
Nell'analisi discriminante lineare il numero di
funzioni discriminanti lineari che possono essere
estratte è uguale al minore tra il numero di
variabili predittive e il numero di classi
(corrispondenti alla variabile dipendente) meno
uno. Il metodo ricorsivo che è utilizzato negli
alberi di classificazione non ha questa
limitazione.
Per esempio, potrebbe essere utile calcolare
molti split basati su combinazioni lineari quando
vi sono molte variabili, nonostante vi siano solo
due classi. E' evidente che l'unica combinazione
lineare che verrebbe calcolata nell'analisi
discriminante lineare trascurerebbe in questo
caso una quantità notevole delle informazioni
presenti nelle variabili predittive.
16
Analisi discriminante lin.
Alberi di classificazione



17
Esempio Iris Data
150 casi, 3 classi (con 50 casi ognuna), 4
variabili quantitative
18
(No Transcript)
19
(No Transcript)
20
Una trattazione più formale
Sia dato un training sample costituito da N casi
su cui abbiamo osservato i valori di K variabili
x1, x2, e la classe di appartenenza
jÎ1,2,J ossia (x1,j1), (x2,j2), ., (xN,jN)
con xÎ X Una regola di classificazione è una
funzione d(x) definita su X in modo tale che per
ogni x, d(x) è uguale ad uno dei numeri
1,2,.J. - equivalentemente Una regola di
classificazione è una partizione di X in J
sottinsiemi disgiunti A1, A2,.AJ, tale che per
ogni xÎAj la classe predetta è j.
21
Probabilità a priori delle classi p(j) Ossia la
probabilità che estraendo a caso ununità questa
appartenga alla classe j Costi di errata
classificazione C(i/j) poiché a volte è
richiesta una classificazione più accurata per
alcune classi Se la probabilità a priori p(j) è
stimata attraverso pj la proporzione dei casi
appartenenti alla classe j, e si assumono uguali
costi di errata classificazione In tal caso
minimizzare i costi ð minimizzare il numero di
casi malclassificati
22
Misura della impurity di un nodo
Deve essere zero se le unità nel nodo sono tutte
nella stessa classe Deve essere massima quando
le unità sono egualmente divise tra tutte le
classi Lindice di Gini soddisfa queste
proprietà
23
Indice di eterogeneità di Gini
Se le probabilità a priori delle classi sono
stimate dalla ampiezza delle classi e i costi di
errata classificazione sono costanti, tale indice
è calcolato come 1 - la somma dei quadrati delle
frequenze relative di classe per le classi
presenti nella foglia. L'espressione dell'indice
per la singola foglia è L'indice di Gini è la
misura di impurità preferita dagli sviluppatori
del CART (Breiman et. Al, 1984).
24
Indice di Entropia
Se le probabilità a priori delle classi sono
stimate dalla ampiezza delle classi e i costi di
errata classificazione sono costanti, tale indice
è calcolato come
  • Lindice varia tra 0 e 1
  • vale 0 se vi è una sola classe nel nodo
  • vale 1 se le classi hanno la stessa frequenza

25
Criteri di split basati su impurità
Condiderando un generico nodo t possiamo
indicare la misura di impurità calcolata sul nodo
t come i(t). Lindice di impurità dellintero
albero sarà dato da
Dove p(t) è la probabilità che una generica
unità appartenga al nodo t stimata come frazione
dei casi nel nodo t
26
Guadagno dello split
Per valutare la bontà dello split ad un certo
nodo si può valutare il guadagno in termini di
purezza. Consideriamo la scissione del nodo t in
più nodi t1,t2, allora definiamo
guadagno Dove pm è la probabilità che una
unità del nodo t vada nel nodo tm Ad ogni passo
il CART seleziona la variabile e lo split che
forniscono il maggiore guadagno.

27
Gain ratio
Nel caso si utilizzi lindice di entropia viene
spesso applicata una correzione al guadagno che
si chiama gain ratio. Consiste nel normalizzare
il guadagno, dividendolo per una quantità che
penalizza le variabili con molte modalità, che
altrimenti sarebbero favorite nella ricerca dello
split ottimale.
28
ESEMPIO
29
(No Transcript)
30
CART-style split
Ricerca esaustiva di split univariati tutti i
possibili split, per tutte le possibili
variabili, vengono valutati ad ogni nodo per
ricercare il migliore split. Se il carattere è
nominale con k modalità, si hanno possibili
split binari. Se il carattere è ordinale o
quantitativo con k diversi valori, si hanno k-1
possibili split.
31
Criterio del c2 (CHAID)
Vi sono anche dei criteri non basati su funzioni
di impurità. Se dividiamo il nodo t in più nodi
t1,t2,, allora si può costruire la seguente
tabella doppia di frequenze
classi
nodi
n12 è la frequenza della classe 2 nel sotto-nodo
t1 N2 è la numerosità del sotto-nodo 2 N(2) è la
numerosità della classe 2 nel nodo t
32
Lindice del c2 può valutare la diversità delle
classi nei diversi nodi generati. Si sceglie come
misura il livello di significatività p di tale
c2 Quanto più p è piccolo, tanto più vi è
associazione tra classi e nodi. Lo split
ottimale è quello che fornisce il valore più
piccolo di p.
33
Valutazione
Un albero può adattarsi perfettamente a molti
training-set (se non si mettono regole di
stop) Ossia in molti casi si può ottenere un
albero con assenza di errori di
classificazione Questa situazione si chiama
overfitting In presenza di overfitting lalbero
ha scarsa capacità previsiva
34
Non è corretto valutare un albero in base al
costo di errata classificazione sul training set
(Stima di risostituzione). Possibili
soluzioni Si può utilizzare un ulteriore
data-set, non utilizzato nella stima, per
valutare la generalizzabilità dellalbero Se non
si ha un altro data-set ma il campione è grande,
si può suddividere il campione in due parti,
diciamo A e B, A per la stima e B per il test Se
non si può suddividere il campione (troppo
piccolo) si può utilizzare la V-fold cross
validation
35
V-fold cross-validation
E molto utilizzata quando non è possibile
ottenere un test-sample. Si divide il
training-sample in V sottocampioni uguali. Si
calcola lalbero V volte, escludendo ogni volta
un diverso sottocampione. Si usa il sottocampione
escluso come test-sample La media dei V costi di
errata classificazione dellalbero permette la
valutazione finale
36
Pruning
Si parte con la costruzione di un albero molto
grande (sovradimensionato) Tmax, sulla base del
training sample. A partire da Tmax si eliminano
via via i suoi rami meno importanti, fino a
ritornare allalbero minimo Tmint1, ottenendo
la classe di alberi TmaxT1,T2,,Tk,,Tmint1
In questo processo di potatura sequenziale si
vuole assicurare la gerarchicità della sequenza
tk ossia la condizione T1gtT2gtgtTkgtgtTmin Ove
gt indica la relazione di contenimento tra due
alberi
37
Funzione obiettivo della potatura
In cui aparametro di complessità è un
coefficiente che pesa il numero di nodi
terminali a fronte della misura di performance
R(T). Introduce quindi una penalty allaumentare
del numero di nodi. Per a0 si ottiene Ta0
Tmax Al crescere di a, diminuisce la dimensione
di Ta Ripetendo loperazione di minimizzazione
per diversi valori di a (crescente) si ottiene
una sequenza gerarchica che consente di
selezionare il taglio.
38
Impurità sul training-set
Impurità sul test-set
39
A sample ROC curve.
40
ROC curves for two learning schemes.
41
Nuovi sviluppi
42
Bagging
43
Boosting
44
Bibliografia essenziale
  1. Breiman,Friedman,Olshen,Stone Classification and
    Decision Trees, Wadsworth, 1984
  2. Quinlan C4.5 Programs for Machine Learning,
    Morgan Kaufman San Mateo, CA.
  3. Hastie, Tibshirani, Friedman The Elements of
    Statistical Learning - Data Mining, Inference,
    and Prediction, Springer Series in Statistics,
    2001
Write a Comment
User Comments (0)
About PowerShow.com