Title: Reglas de Asociacin
1Reglas de Asociación
- Ejemplo
- Tenemos un base de datos con transacciones de
venta en un Supermercado. - Qué productos se compran juntos?
- Venta de cerveza y pañales
- Proceso
- Busca reglas para concluir la venta de un
producto a partir de la venta del otro.
2Reglas de Asociación - Definiciones 1
- Confidence
- La regla X gtY tiene confidence c si c de
las transacciones en T con X también contienen Y.
- Ejemplo Productos 1, 2, 3, 4, 5
- Transacciones
- T (1, 3, 4), (2, 3, 5), (1, 2, 3, 5), (2, 5)
- (2, 3) gt (5) tiene confidence 100
- (2 de 2 transacciones que contienen (2, 3)
también contienen (5))
3Reglas de Asociación - Definiciones 2
- Support
- La regla XgtY tiene support s en el conjunto
de transacciones D si s de las transacciones en
T contienen (X e Y).
- Ejemplo Productos 1, 2, 3, 4, 5
- Transacciones
- T (1, 3, 4), (2, 3, 5), (1, 2, 3, 5), (2, 5)
- (2, 3) gt (5) tiene support 50
- (2 de 4 transacciones de T contienen (2, 3, 5))
4Clasificador de Bayes
Teorema de Bayes Clasificación X (x1,
..., xn) vector con valores de n atributos m
clases C1, ..., Cm más información
http//w3.mor.itesm.mx/emorales/emorales-esp.html
5Clasificador de Bayes
Asignación de X a clase Cj con probabilidad
máxima P(Ci) estimar a partir de los
datos P(XCi) (en caso de independencia
de atributos) Herramienta Hugin
(www.hugin.dk)
6Support Vector Machines Motivación
- Caso particular de dos conjuntos linealmente
disjuntos en R2
No cierra Cierra
Saldo promedio
Antigüedad
7Teoría de Aprendizaje Estadístico (I)
- Minimización del riesgo empírico
- Queremos encontrar una función f que minimice
- Donde y es el valor conocido del objeto x y
f(x) es la función de inducción. Además se tienen
n objetos
8Teoría de Aprendizaje Estadístico (II)
- Minimización del Riesgo Estructural (Vapnik,1998)
- Queremos encontrar una función f que minimice
Capacidad de Generalización
9Support Vector Machines (SVM)
- IDEA
- Construir una función clasificadora que
- Minimice el error en la separación de los objetos
dados (del conjunto de entrenamiento) - Maximice el margen de separación (mejora la
generalización del clasificador en conjunto de
test)
10Formulación del problema mediante SVM
- Dado un conjunto (de entrenamiento) de n objetos
con m atributos cada uno, la tarea es discriminar
entre dos clases dadas usando la menor cantidad
de los atributos originales como sea posible.
Dos objetivos
Minimizar Error (ajuste del modelo)
Maximizar Margen (generalización)
11Formulación matemática (SVM)
Error en clasificación
1/Margen
W Normal al hiperplano separador. b Posición
del hiperplano Xi Objetos de entrenamiento Yi
Clase del objeto i. Error en la
separación
12Clasificador
- El clasificador lineal de los SVM es
- Se determina el signo de la función f(x)
- Si signo(f(x)) 1 pertenece a clase 1
- Si signo(f(x)) -1 pertenece a clase -1
13Características de Support Vector Machines
- Herramienta matemática
- No tiene mínimos locales (árboles de decisión)
- No tiene el problema de Overfitting (Redes
Neuronales) - Solución no depende de estructura del
planteamiento del problema. - Aplicabilidad en distintos tipos de problemas
(Clasificación, Regresión, descubrimiento de
patrones en general)
14Características de Support Vector Machines
- Permite trabajar con relaciones no lineales entre
los datos (Genera funciones no lineales, mediante
Kernel) - No trabaja directamente con variables categóricas
- Fue inicialmente creado para clasificación
binaria - No es bueno para la selección de atributos
- Por qué?