Aprendizaje en rboles de Decisin - PowerPoint PPT Presentation

1 / 11
About This Presentation
Title:

Aprendizaje en rboles de Decisin

Description:

Clasifican instancias recorriendo el rbol hacia abajo de la ra z a las hojas ... decisi n desde el mas simple hacia incrementalmente mas complejos, guiado por la ... – PowerPoint PPT presentation

Number of Views:150
Avg rating:3.0/5.0
Slides: 12
Provided by: Gabr241
Category:

less

Transcript and Presenter's Notes

Title: Aprendizaje en rboles de Decisin


1
Aprendizaje en Árboles de Decisión
  • Semana 2, Clase 3
  • Gabriela Ochoa

2
Contenido
  • Características de los Arboles de Decisión
  • Problemas adecuados
  • Representación
  • Entropía y Ganancia de Información
  • Búsqueda en el espacio de Hipotesis

3
Árboles de Decisión
  • Robustos a datos ruidosos, con errores
  • Capaz de aprender expresiones disyuntivas
  • Método para aproximar funciones objetivos con
    valores discretos ( booleanas, o mas)
  • Método mas utilizado y practico para inferencia
    inductiva

4
Problemas Adecuados para Árboles de Decisión
  • Instancias son representadas por pares
    atributo-valor
  • Instancias descritas por un conjunto fijo de
    atributos (Ej.., temperatura) y sus valores
    (Ej.., hot).
  • Preferiblemente un numero pequeño de posibles
    valores (Ej., hot, mild, cold).
  • Extensiones al algoritmo básico permiten manejar
    atributos con valores reales (Ej., a floating
    point temperatura).

5
  • Función objetivo tiene valores de salida
    discretos
  • Caso mas sencillo, función booleana
  • Puede extenderse para aprender funciones con mas
    de dos valores de salida
  • Se requieren descripciones disyuntivas
  • Datos de entrenamiento pueden tener errores
  • Errores en el valor o ausencia de algún atributo
  • Errores en la clasificación

6
Representación Árboles de Decisión
  • Ordenamiento de preguntas, que determina la
    pregunta o test adecuado para cada paso
  • Representan una disyunción de conjunciones de
    restricciones sobre valores de los atributos
  • Clasifican instancias recorriendo el árbol hacia
    abajo de la raíz a las hojas
  • La hoja provee la clasificación de la instancia
  • Cada Nodo representa una pregunta sobre cada
    atributo.
  • Las ramas descendentes de un nodo atributo
    corresponden a los valores de dicho atributo

7
Arbol se construye a partir de los Datos de
Entrenamiento
Árbol de Decisión
Datos
Predicciones en datos no observados
Reglas de Decisión
8
Algoritmo Básico ID3
  • Construye árboles top-down
  • Pregunta Cual atributo debe ser chequeado en la
    raíz del árbol?
  • El mejor atributo es seleccionado y colocado
    como test en la raiz
  • Se crea una rama para cada valor del atributo
  • Se repite el proceso utilizando ejemplos de
    entrenamiento asociados con cada rama para
    seleccionar mejor atributo en cada paso
  • Algoritmo Greedy, sin backtracking

9
Como seleccionar el mejor atributo?
  • Medida para evaluar que tan bueno es un atributo.
    Propiedad estadistica information gain
  • Mide que tan bien un atributo dado separa a los
    ejemplos de entrenamiento
  • Entropía medida de teoria de la informacion,
    caracteriza la (im)pureza u homogeneidad en una
    colección arbitraria de ejemplos

10
Ejemplo Calculo de Entropía
  • S colección de 14 ejemplos de un concepto
    booleano, 9 ejemplos y 5 9,5-
  • E(9,5-) -(9/14)log(9/14) - (5/14)log(5/14)
    0.940
  • La entropía es 0 si todos los miembros de S
    pertenecen a la misma clase. Si p 1, p- 0,
    E(S) -1log(1) 0log(0) -10
    0log(0) 0
  • La entropía es 1 cuando S contiene el mismo
    numero de ejemplos positivos y negativos. Si p
    1/2, p- 1/2, E(S) -1/2log(1/2)
    1/2log(1/2) -1/2-1 1/2-1 1

11
Búsqueda en el espacio de Hipótesis
  • En cada paso del algoritmo mantiene un solo árbol
    o hipótesis (diferente al algoritmo del capitulo
    dos que mantiene un conjunto)
  • ID3 Busca en el espacio de posibles árboles de
    decisión desde el mas simple hacia
    incrementalmente mas complejos, guiado por la
    heurística de la ganancia de información
Write a Comment
User Comments (0)
About PowerShow.com