Title: ART
1ART
- Un método alternativo
- para la construcción
- de árboles de decisión
Fernando Berzalfberzal_at_decsai.ugr.es
2Introducción
- Aprendizaje en Inteligencia Artificial
- Programas/sistemas autónomos.
- Sistemas de ayuda a la decisión.
- Resultado del aprendizaje
- MODELO
- Funciones descripción y/o predicción.
- Construcción manual o automática.
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
3Introducción
Objetivo Conseguir modelos de clasificación
simples, inteligibles y robustos de una forma
eficiente y escalable.
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
4Introducción
Inducción de árboles de decisión Extracción
de reglas de asociación ART Association Rule
Trees
Los desarrollos más provechosos han surgido
siempre donde se encontraron dos formas de pensar
diferentes. Heisenberg
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
5Árboles de decisión
Introducción
- Representación del conocimiento Árbol
- Nodo internos ? Preguntas
- Nodos hoja ? Decisiones
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
6Construcción de árboles
Introducción gt Árboles de decisión
- Algoritmos TDIDT
- Top-Down Induction on Decision Trees
- Estrategia divide y vencerás para la
construcción recursiva del árbol de decisión de
forma descendente. - Reglas de división
- Reglas de parada
- Reglas de poda
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
7Reglas de división
Introducción gt Árboles de decisión
Criterios heurísticos para evaluar la bondad de
una partición p.ej. Medidas de
impureza Ganancia de información (ID3)
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
8Reglas de división
Introducción gt Árboles de decisión
Criterio de proporción de ganancia
(C4.5) Índice de diversidad de Gini (CART)
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
9Reglas de división
Introducción gt Árboles de decisión
Otros criterios
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
10Reglas de división
Introducción gt Árboles de decisión
- Alternativas de formulación más simple
- MAXDIF
- Índice Generalizado de Gini
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
11Reglas de división
Introducción gt Árboles de decisión
- Pese a su sencillez, MAXDIF y el Índice
Generalizado de Gini obtienen resultados
satisfactorios en la práctica. - Las distintas reglas de división propuestas
mejoran marginalmente la precisión de los árboles
de decisión y lo hacen sólo en situaciones
concretas. - ? Berzal, Cubero, Cuenca Martín-Bautista
- On the quest for easy-to-understand splitting
rules - Data Knowledge Engineering, 2002
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
12Inducción de reglas
Introducción
IDEA Emplear reglas como bloque de construcción
de clasificadores Una regla (del tipo IF-THEN)
divide el dominio del problema en aquellos casos
que satisfacen la regla y aquéllos que no
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
13Ejemplos
Introducción gt Inducción de reglas
Metodología STAR Aprendizaje incremental de
expresiones lógicas en forma normal disyuntiva
para describir conceptos Listas de
decisión Lista ordenada de reglas if ... then ...
else if ... else ... Estrategia separa y
vencerás
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
14Reglas de asociación
Introducción
- Item
- En bases de datos transaccionales
- Artículo involucrado en una transacción.
- En bases de datos relacionales
- Par (atributo, valor)
-
- k-itemset
- Conjunto de k items
- Soporte de un itemset (support)
- soporte(I) P(I)
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
15Reglas de asociación
Introducción
- Regla de asociación
- X ? Y
- Soporte de una regla de asociación
- soporte(X?Y) soporte(XUY) P(XUY)
- Confianza de una regla de asociación
- confianza(X?Y) soporte(XUY) / soporte(X)
- P(YX)
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
16Clasificadores asociativos
Introducción gt Reglas de asociación
- Modelos de clasificación parcial
- vg Bayardo
- Modelos de clasificación asociativos vg CBA
(Liu et al.) - Clasificadores bayesianos
- vg LB (Meretakis et al.)
- Patrones emergentes
- vg CAEP (Dong et al.)
- Árboles de reglas
- vg Wang et al.
- Reglas generales con excepciones
- vg Liu et al.
- Introducción
- Árboles
- Reglas
- Asociación
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
17Índice general
- Introducción
- El modelo de clasificación ART
- Construcción de hipótesis candidatas
- Manejo de atributos continuos
- Conclusiones
18El modelo ART
- Presentación
- Construcción del clasificador ART
- Ejemplo
- Uso del clasificador ART
- Propiedades del clasificador ART
- Resultados experimentales
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
19Presentación
El modelo ART
IDEA Aprovechar la eficiencia de los algoritmos
de extracción de reglas de asociación para
construir un modelo de clasificación en forma de
árbol de decisión. ART Association Rule
Tree CLAVE Reglas de asociación Ramas
else Híbrido árbol de decisión lista de
decisión
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
20Un caso real SPLICE
El modelo ART
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
21Construcción
El modelo ART
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
22Construcción
El modelo ART
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
- Extracción de reglas Hipótesis candidatas
- MinSupp Umbral de soporte mínimo
- MinConf Umbral de confianza mínima
- Umbral fijo
- Selección automática
23Construcción
El modelo ART
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
- Selección de reglas
- Reglas agrupadas por conjuntos de atributos.
- Criterio de preferencia.
24Ejemplo Conjunto de datos
El modelo ART
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
25Ejemplo Nivel 1 K 1
El modelo ART
- NIVEL 1 - Extracción de reglas de asociación
- Umbral de soporte mínimo 20
- Selección automática del umbral de confianza
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
S1 if (Y0) then C0 with confidence 75 if
(Y1) then C1 with confidence 75 S2 if (Z0)
then C0 with confidence 75 if (Z1) then
C1 with confidence 75
26Ejemplo Nivel 1 K 2
El modelo ART
- NIVEL 1 - Extracción de reglas de asociación
- Umbral de soporte mínimo 20
- Selección automática del umbral de confianza
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
S1 if (X0 and Y0) then C0 (100) if (X0
and Y1) then C1 (100) S2 if (X1 and Z0)
then C0 (100) if (X1 and Z1) then C1
(100) S3 if (Y0 and Z0) then C0 (100)
if (Y1 and Z1) then C1 (100)
27Ejemplo Nivel 1
El modelo ART
NIVEL 1 Selección del mejor conjunto de
reglas p.ej. S1
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
S1 if (X0 and Y0) then C0 (100) if (X0
and Y1) then C1 (100)
X0 and Y0 C0 (2) X0 and Y1 C1 (2)
else ...
28Ejemplo Nivel 1 ? Nivel 2
El modelo ART
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
29Ejemplo Nivel 2
El modelo ART
NIVEL 2 Extracción de reglas
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
S1 if (Z0) then C0 with confidence 100 if
(Z1) then C1 with confidence 100
RESULTADO
X0 and Y0 C0 (2) X0 and Y1 C1 (2)
else Z0 C0 (2) Z1 C1 (2)
30Ejemplo ART vs. TDIDT
El modelo ART
ART
TDIDT
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
31Uso del clasificador
El modelo ART
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
? Berzal, Cubero, Sánchez Serrano ART A
hybrid classification model Machine Learning
32Uso del clasificador
El modelo ART
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
33Uso del clasificador
El modelo ART
- Conversión del árbol en reglas
- Conjunto
- de reglas
- Lista de decisión
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
34Propiedades
El modelo ART
- Estrategia de búsqueda
- Algoritmo greedy separa y vencerás
- Robustez del clasificador
- Ruido y claves primarias
- Complejidad del árbol
- Profundidad
- Factor de ramificación 1/MinSupp
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
35Resultados experimentales
El modelo ART
- Implementación
- Java 2 SDK (Sun Microsystems)
- AspectJ
- Experimentación
- 10-CV Tests estadísticos
- JDBC (InterBase 6)
- Windows NT 4.0 Workstation
- Conjuntos de datos
- UCI Machine Learning Repository
- http//www.ics.uci.edu/mlearn/MLRepository.html
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
36Precisión del clasificador
El modelo ART gt Resultados experimentales
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
37Complejidad
El modelo ART gt Resultados experimentales
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
38Tiempo de entrenamiento
El modelo ART gt Resultados experimentales
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
39Operaciones de E/S
El modelo ART gt Resultados experimentales
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
40Operaciones de E/S
El modelo ART gt Resultados experimentales
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
41Operaciones de E/S
El modelo ART gt Resultados experimentales
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
42Comentarios finales
El modelo ART
- Modelos de clasificación obtenidos
- Precisión aceptable
- Complejidad reducida
- Interacciones entre atributos
- Método de construcción de clasificadores
- Algoritmo eficiente
- Método escalable
- Selección automática de parámetros
- Introducción
- El modelo ART
- Presentación
- Construcción
- Ejemplo
- Uso
- Propiedades
- Resultados
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
43Índice general
- Introducción
- El modelo de clasificación ART
- Construcción de hipótesis candidatas
- Manejo de atributos continuos
- Conclusiones
44Hipótesis candidatas
- Extracción de reglas de asociación
- El algoritmo TBAR
- TBAR en ART
- Evaluación de las reglas obtenidas
- Medidas disponibles
- Resultados experimentales
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
45Extracción de reglas
Hipótesis candidatas
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
46Reglas de asociación
Hipótesis candidatas gt Extracción de reglas
- Extracción de reglas de asociación
- Umbrales mínimos
- MinSupport
- MinConfidence
- Estrategia divide y vencerás
- Encontrar todos los itemsets frecuentes.
- Generar las reglas de asociación que se derivan
de los itemsets frecuentes.
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
47Reglas de asociación
Hipótesis candidatas gt Extracción de reglas
- Obtención de los itemsets frecuentes Lk
- Algoritmos de la familia Apriori
- Generación de candidatos Ck
- a partir de Lk-1 x Lk-1
- Recorrido secuencial de la base de datos
- para obtener Lk a partir de Ck
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
48TBAR
Hipótesis candidatas gt Extracción de reglas
Algoritmo de la familia Apriori IDEA Árbol de
itemsets Tree-Based Association Rule mining
? Berzal, Cubero, Marín Serrano TBAR An
efficient method for association rule mining
in relational databases Data Knowledge
Engineering, 2001
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
49TBAR Árbol de itemsets
Hipótesis candidatas gt Extracción de reglas
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
50TBAR vs. Apriori
Hipótesis candidatas gt Extracción de reglas
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
vg CENSUS
51TBAR
Hipótesis candidatas gt Extracción de reglas
http//frontdb.ugr.es/
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
52TBAR en ART
Hipótesis candidatas gt Extracción de reglas
- Extracción de itemsets
- En la última iteración, LMaxSize1, se
eliminan los itemsets candidatos que no incluyen
el atributo de la clase. - Generación de reglas
- Se sustituye la fase de generación de reglas por
una exploración adecuada del árbol de itemsets.
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
53Evaluación de las reglas
Hipótesis candidatas
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
54Medidas de cumplimiento
Hipótesis candidatas gt Evaluación de las reglas
- Medidas alternativas
- Confianza
- Convicción
- Interés
- Divergencia Hellinger
- Factores de certeza
- Utilidad
- ...
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
55Resultados experimentales
Hipótesis candidatas gt Evaluación de las reglas
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
56Comentarios finales
Hipótesis candidatas
- Formulación de hipótesis candidatas
- Extracción de reglas de asociación
- Algoritmo TBAR
- Evaluación de hipótesis candidatas
- Existencia de criterios alternativos
- Confianza / Utilidad
- Factores de certeza / Convicción
- Introducción
- El modelo ART
- Hipótesis candidatas
- Extracción
- Evaluación
- Atributos continuos
- Conclusiones
57Índice general
- Introducción
- El modelo de clasificación ART
- Construcción de hipótesis candidatas
- Manejo de atributos continuos
- Conclusiones
58Atributos continuos
- Discretización
- vg Discretización contextual
- Árboles n-arios con atributos continuos
- Resultados experimentales
- Manejo de atributos continuos en ART
- Anexo Medidas de similitud
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
59Discretización
Atributos continuos
- Métodos de agrupamiento
- Basados en centroides
- Jerárquicos
- Aglomerativos
- Divisivos
- Métodos de discretización
- Discretización supervisada vs. no supervisada
- Uso local vs. global
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
60Discretización contextual
Atributos continuos
- IDEA
- Medir la similitud existente entre los vectores
característicos de los valores adyacentes del
atributo continuo. - Discretización supervisada
- Discretización jerárquica
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
61Discretización contextual
Atributos continuos
Versión Versión aglomerativa
divisiva
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
62Discretización contextual
Atributos continuos
Ejemplo
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
63Árboles n-arios
Atributos continuos
- Atributos continuos en árboles de decisión
- Árboles binarios
- Árboles n-arios
- Métodos de discretización
- Local
- Global
- vg Discretización local jerárquica
- Variante aglomerativa
- Variante aglomerativa con pre-discretización
- Variante divisiva
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
64Árboles n-arios
Atributos continuos
- Resultados experimentales
- Discretización en los algoritmos TDIDT
- Precisión similar a la obtenida por C4.5.
- Árboles más pequeños (tanto en número de hojas
como en profundidad media). - La discretización global mejora la eficiencia,
manteniendo la precisión y reduciendo la
complejidad del árbol.
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
65Resultados experimentales
Atributos continuos
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
66Resultados experimentales
Atributos continuos
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
67Resultados experimentales
Atributos continuos
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
Error
68Resultados experimentales
Atributos continuos
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
Complejidad
69Comentarios finales
Atributos continuos
- ART con atributos continuos...
- Precisión similar a la obtenida por los
algoritmos TDIDT. - Árboles mucho más pequeños que los obtenidos por
otros métodos. - Mejor si se utiliza discretización global
- Mayor precisión.
- Menor complejidad.
- Mayor eficiencia.
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Discretización
- Árboles n-arios
- Resultados
- Conclusiones
70Índice general
- Introducción
- El modelo de clasificación ART
- Construcción de hipótesis candidatas
- Manejo de atributos continuos
- Conclusiones
71Conclusiones
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
Técnicas de clasificación
72Conclusiones
- ART
- Árboles n-arios politéticos con ramas else
- vs. TDIDT Árboles más pequeños
- vs. DL Extracción más eficiente de reglas
- Sin mecanismos artificiales adicionales.
- Ajuste automático de parámetros.
- Método escalable (reglas de asociación).
- Modelos de clasificación simples y precisos.
- vg ADN
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones
73Conclusiones
- Resultados complementarios
- Algoritmo TBAR.
- Algoritmos TDIDT
- Reglas de división alternativas MaxDif y el
Índice Generalizado de Gini. - Árboles n-arios arbitrarios con técnicas de
discretización jerárquica. - Discretizador contextual.
- Introducción
- El modelo ART
- Hipótesis candidatas
- Atributos continuos
- Conclusiones