Title: Sin t
1Capítulo 2 Aproximación Paramétrica
2Contenidos
- Introducción
- La función de densidad de probabilidad normal
- Funciones discriminantes para la f.d.p normal
- Diseño de clasificadores lineales y cuadráticos
- El problema de la estimación de los parámetros
- Detección de puntos dudosos
31. Introducción
Clasificación supervisada paramétrica
41. Introducción
- Supervisado El aprendizaje supervisado requiere
disponer de un conjunto de prototipos (conjunto
de entrenamiento) a partir del cual construiremos
y evaluaremos un clasificador. - Paramétrico Se supone un completo conocimiento
a priori de la estructura estadística de las
clases. Podemos modelar las clases mediante
funciones de densidad de probabilidad conocidas.
51. Introducción
- Clasificador de Bayes
- La función de densidad normal (gaussiana) es la
más tratada en la literatura. Propiedades
1. Parámetros que especifican la distribución.
La f.d.p. Normal queda completamente especificada
por pocos parámetros. 2. Incorrelación e
independencia. Dado un conjunto de patrones que
siguen una distribución normal, si las variables
asociadas están incorreladas, entonces son
independientes.
61. Introducción
1. Introducción
3. Justificación física. Aproximación razonable
para la mayor parte de los datos tomados de la
naturaleza. La función de densidad normal es
acertada en situaciones en las que un conjunto de
patrones de una determinada clase toman valores
en un rango contínuo y alrededor de un patrón
promedio. Considera que los patrones de clases
diferentes tienen distintos valores pero los
valores de los patrones de una clase son lo más
parecidos posibles. 4. Densidades marginales y
condicionales. Las densidades marginales y
condicionadas de una distribución normal son
también normales.
71. Introducción
5. Invarianza frente a transformaciones
lineales. La distribución que sigue cualquier
combinación lineal de una variable aleatoria
normal es también normal (con diferentes
parámetros). Siempre puede encontrarse, para una
distribución normal, un nuevo conjunto de ejes
tal que las nuevas variables son independientes
en este nuevo sistema.
82. Función de densidad de prob. normal
- 2.1 La f.d.p. normal unidimensional.
- Forma funcional.
- donde
- es la media
de la clase i -
es la varianza de la clase i
92. Función de densidad de prob. normal
Fdp normales de media 0 y varianzas 0.15, 1 y 2
102. Función de densidad de prob. normal
- Una propiedad interesante y útil
- El área bajo la curva de la función de densidad
de probabilidad normal puede calcularse de forma
precisa según el número de desviaciones típicas. - El 68.3 de las observaciones están en el
intervalo ?- ? ? ? - El 95.4 de las observaciones están en el
intervalo ? - 2? ? 2? - El 99.7 de las observaciones están en el
intervalo ?- 3? ? 3?
112. Función de densidad de prob. normal
Áreas bajo la curva de la fdp gaussiana en
función del número de desviaciones típicas
122. Función de densidad de prob. normal
- Parámetros que especifican la distribución
- - La fdp normal está completamente especificada
por los parámetros ?i y ?i2 - - En la práctica, ?i y ?i2 son desconocidos y
deben estimarse a partir de los puntos de
entrenamiento - Estimadores no sesgados de ?i y ?i2
- donde
- Ni es el número de prototipos de la clase
i. - xj es el j-ésimo prototipo de la clase i.
132. Función de densidad de prob. normal
- 2.2 La f.d.p. normal multidimensional.
- Forma funcional.
- ?i matriz de covarianza de la clase i
- ?i determinante de ?i
- ?i-1 matriz inversa de ?i
- (X - ?i)T vector traspuesto de (X- ?i)
142. Función de densidad de prob. normal
Representación de una fdp normal dibimensional
152. Función de densidad de prob. normal
- Parámetros que especifican la distribución
- - La fdp normal multivariante está completamente
especificada por los parámetros ?i y ?i - - En la práctica, estos parámetros son
desconocidos y deben estimarse a partir de
prototipos.
162. Función de densidad de prob. normal
Estimadores no sesgados de ?i y de ?i
donde Ni es el número de
prototipos de la clase i. Xl es el
l-ésimo prototipo de la clase.
172. Función de densidad de prob. normal
- Estimación alternativa (elemento a
elemento) para j, k 1, 2, ..., d donde
Xjl componente j-ésima del prot. l-ésimo de wi
ij componente j-ésima del vector medio de
wi
182. Función de densidad de prob. normal
- Ejemplo.
- Disponemos de 5 prototipos de la clase wi
- Estimación de ?i.
- Estimación de ?i (completa)
- 1. Vectores (X l - )
192. Función de densidad de prob. normal
202. Función de densidad de prob. normal
2. Matrices (X l - )(X l - )T
212. Función de densidad de prob. normal
3. Finalmente,
Parámetros estimados para esta clase
222. Función de densidad de prob. normal
Estimación de ?i (elemento a elemento)
232. Función de densidad de prob. normal
- Propiedades de ?i
- 1. ?i es simétrica. Como ?ijk ?ikj , hay que
calcular únicamente d (d 1)/2 componentes. - 2. ?i es (semi)definida positiva (?igt0)
- 3. ?ijk es la covarianza de la clase i entre las
variables j y k (j,k 1,2,...,d
j ? k) y se interpreta como la relación o
dependencia entre estas dos variables. - 4. Los valores de la diagonal de la matriz de
covarianza son las varianzas de las variables
individuales, esto es, ?ijj ?2ij - 5. Si ?ijk 0, las variables j y k son
estadísticamente independientes. Si no, existe
correlación entre ellas.
242. Función de densidad de prob. normal
A) Vars. independientes B) Vars. correladas
252. Función de densidad de prob. normal
- 2.2 La f.d.p. normal multidimensional.
- 2.2.1 La distancia de Mahalanobis
- Los puntos para puntos para los que el valor de
la fdp es constante están situados en
hiperelipsoides en las que la forma cuadrática
(X- ?)T ?-1(X- ?) es constante distancia de
Mahalanobis (al cuadrado) de X a ?.
262. Función de densidad de prob. normal
A) Dens. de prob B) Diagrama de dispersión
272. Función de densidad de prob. normal
- Las direcciones de los ejes principales de
estos hiperelipsoides están determinadas por los
autovectores de ? y sus longitudes por los
autovalores correspondientes. - Al estar ponderada por ?, esta métrica considera
la distinta dispersión de las variables en el
espacio. - Importante con una métrica de este tipo, el
concepto de distancia es muy distinto al concepto
de distancia en nuestro mundo Euclídeo
282. Función de densidad de prob. normal
Dos distribuciones normales con igual media y
diferentes matrices de covarianza
292. Función de densidad de prob. normal
2.2 La f.d.p. normal multidimensional. 2.2.2
Correlación de variables
A) Alta covarianza B) Baja covarianza. En ambos
casos, ?21 5.7 y ?227.1
302. Función de densidad de prob. normal
- Coeficiente de correlación.
- Medida normalizada del grado de relación entre
las variables, independiente de las unidades de
medida. - Este coeficiente verifica que ?ij ? 1
312. Función de densidad de prob. normal
- Relación entre covarianzas y correlaciones ?
? R ?
322. Función de densidad de prob. normal
- ?ij , entonces ?ij ?j ?i ?ij .
Además, como ?ij ?ji, entonces ?ij
?ji - Como ?ii
1. ?ii ?i ?i ?ii ?i2 porque ?ij 1
332. Función de densidad de prob. normal
- Interpretación del factor de correlación
- Si proyectamos la nube de puntos sobre un plano
definido por los ejes (abscisas) y (ordenadas) - - Superficie determinada por ? (desviaciones
típicas). - - Forma determinado por R (correlaciones).
- Dado que ?ij ?1 (-1 ? ?ij ?1)
- 1. Si ?ij 0, la correlación es nula (son
independientes) los puntos se disponen
aleatoriamente en un círculo (?1 ?2) o en una
elipse (?1 ? ?2) cuyo centro es (?i,?j). Una
correlación con valor 0 indica que no existe
relación lineal en absoluto.
342. Función de densidad de prob. normal
Ejemplos de correlación nula
352. Función de densidad de prob. normal
2. Si 0 lt ?ij lt 1 los puntos se disponen en una
elipse centrada en (?i,?j). El eje principal
tiene una pendiente positiva y una forma más o
menos circular dependiendo de si ?ij está más o
menos cercano a 0.
Ejemplos de correlación positiva
362. Función de densidad de prob. normal
3. Si ?ij 1, la correlación el lineal y
perfecta ( Xj depende linealmente de Xi) los
puntos se disponen a lo largo de una línea recta
con pendiente positiva
Ejemplos de correlación lineal
372. Función de densidad de prob. normal
4. Para -1 lt ?ij lt 0, similar a caso 2 y para
?ij -1, similar a caso 3 (ahora con pendiente
negativa). La orientación y longitud de los
ejes de las elipses que caracterizan las
distribuciones se deducen de los autovectores y
autovalores de la matriz de covarianza.
Ejemplos de correlación negativa
383. Funciones discriminantes para la f.d.p normal.
- El clasificador de mínimo error (Bayes) puede
expresarse en términos de funciones
discriminantes - Forma general de las funciones discriminantes
asumiendo f.d.p. normales
393. Funciones discriminantes para la f.d.p normal.
- Casos particulares
- - Caso 1. ?i ?2 I (Clasif. Lineal)
- - Caso 2. ?i ? (Clasif. Lineal)
- - Caso 3. ?i arbitrarias (Clasif. Cuadrático)
403. Funciones discriminantes para la f.d.p normal.
- 3.1 Clasificadores lineales
- 3.1.1 Caso 1 ?i ?2 I
- Variables estadísticamente independientes
(incorreladas) y todas tienen la misma varianza,
?2. - Las matrices de covarianza son diagonales con
valor ?2
413. Funciones discriminantes para la f.d.p normal.
Clasificador lineal con ?i ?2 I
423. Funciones discriminantes para la f.d.p normal.
- Simplificaciones de las funciones
discriminantes. - - En este caso
- Sustituyendo en (10)
- - Considerando que ? es la norma Euclídea
433. Funciones discriminantes para la f.d.p normal.
- Si ?i son iguales, no son significativas para
Alternativamente, Regla de mínima
distancia Euclídea.
443. Funciones discriminantes para la f.d.p normal.
- Funciones discriminantes lineales
- Superficies de decisión
- donde
453. Funciones discriminantes para la f.d.p normal.
Front. de dec. Para un clasificador de mín.
distancia
463. Funciones discriminantes para la f.d.p normal.
- 3.1.2 Caso 2 ?i ?
- Las variables no son estadísticamente
independientes (cor- reladas) y las varianzas
individuales son diferentes. - Geométricamente patrones distribuidos en
agrupamientos hiperelipsoidales de igual tamaño y
forma. Cada agrupamiento centrado en su media
correspondiente, ?i
Clasif. Lineal con ?i? (?12?0,?1??2)
473. Funciones discriminantes para la f.d.p normal.
Clasif. Lineal con ?i? (?120,?1??2)
483. Funciones discriminantes para la f.d.p normal.
- Simplificación de las funciones discriminantes.
- Si ?i son iguales, no son significativas para
- Alternativamente,
- Regla de mínima distancia Mahalanobis.
493. Funciones discriminantes para la f.d.p normal.
- Funciones discriminantes lineales
- Superficies de decisión.
503. Funciones discriminantes para la f.d.p normal.
- 3.2 Clasificadores cuadráticos
- 3.2.1 Caso 3 ?i arbitrarias
- Fronteras de decisión expresadas como una
función cuadrática (círculos, elipses, parábolas,
hipérbolas). - Este es el caso más general (caso 3), del cual
se derivan como casos particulares los dos
estudiados anteriormente.
513. Funciones discriminantes para la f.d.p normal.
Clasificadores Cuadráticos
523. Funciones discriminantes para la f.d.p normal.
- Simplificación de las funciones discriminantes.
- Si ?i son iguales, no son significativas para
- Funciones discriminantes cuadráticas
- donde
533. Funciones discriminantes para la f.d.p normal.
Fronteras de decisión (en dos dimensiones)
544. Diseño de clasificadores. Clasif. de mín.
distancia
- Motivación Porqué no usar el caso 3 siempre?
- 1. Considerar los costes computacionales de
calcular - Caso 3
- Caso 2
- Caso1
554. Diseño de clasificadores. Clasif. de mín.
distancia
- 2. Estabilidad de los estimadores.
- Etapas
- 1. Análisis del conjunto de aprendizaje.
- 2. Aprendizaje.
- 3. Clasificación.
564. Diseño de clasificadores. Clasif. de mín.
distancia
4.1. Diseño de clasificadores. 1. Análisis del
conjunto de aprendizaje. Estudiar y sacar
conclusiones sobre los conjuntos de aprendi-
zaje test de normalidad, comprobación de la
suficiencia del número de muestras de aprendizaje
para estimaciones y estudio de la estructura
estadísticas de las clases.
En resumen decidir el clasificador
(casos 1,2 ó 3).
574. Diseño de clasificadores. Clasif. de mín.
distancia
2. Aprendizaje. Estimación de los parámetros de
cada clase 1.- Estimar ?i (i 1,2, ..., J) 2.-
Si acaso 2 ó 3, Estimar ?i (i 1,2,
..., J) Si acaso 2,
Calcular ? 3. Clasificación. Calcular
para i1,2,...,J (según el caso)
584. Diseño de clasificadores. Clasif. de mín.
distancia
4.2. Clasificadores de mínima distancia. Casos
particulares de los clasificadores estudiados
como los casos 1 y 2 cuando no se consideran las
probabilidades a priori (todas son iguales) 1.
Distancia Euclídea - Vars. Estadísticamente
independientes- - Vars. Igualmente escaladas en
todas las direcciones. 2. Distancia de
Mahalanobis - Vars. correladas. - Vars.
posiblemente escaladas de forma diferente
594. Diseño de clasificadores. Clasif. de mín.
distancia
4.2.1 Clasif. de mínima distancia Euclídea.
Cálculo de la distancia Euclídea
604. Diseño de clasificadores. Clasif. de mín.
distancia
- Regla óptima de clasificación
- donde
- Clasificador de mínima distancia Euclídea
614. Diseño de clasificadores. Clasif. de mín.
distancia
- Estamos resumiendo una clase por su valor
medio toda la información de interés de una
clase (para la clasificación) está concentrada en
su media
Un clasificador Euclídeo para tres clases
624. Diseño de clasificadores. Clasif. de mín.
distancia
- Derivación de funciones discriminantes lineales
para el clasificador de mínima distancia Euclídea
634. Diseño de clasificadores. Clasif. de mín.
distancia
Expresado en forma de funciones
discriminantes De manera aún más compacta
644. Diseño de clasificadores. Clasif. de mín.
distancia
Demostración
654. Diseño de clasificadores. Clasif. de mín.
distancia
- 4.2.2 Clasif. de mínima distancia de Mahalanobis.
- Distancia de Mahalanobis.
- Regla óptima de clasificación
- donde
- Clasificador de mínima distancia Euclídea
664. Diseño de clasificadores. Clasif. de mín.
distancia
Dist. de Mahalanobis frente a dist. Euclídea
674. Diseño de clasificadores. Clasif. de mín.
distancia
Dist. de Mahalanobis frente a dist. Euclídea (2)
685. El problema de la estimación de parámetros
- En teoría, el error de Bayes decrece conforme la
dimensionalidad de los datos se incrementa. - En la práctica, se usa un número fijo de
muestras, N, para construir el clasificador los
estimadores están sesgados por las muestras
disponibles. - Si suponemos distribuciones normales se
requiere
- Clasif. Cuadrático
estimaciones - Clasif. Lineal
estimaciones
695. El problema de la estimación de parámetros
705. El problema de la estimación de parámetros
- Interpretación
- Existe un valor óptimo de dimensionalidad que es
función del tamaño del conjunto de entrenamiento. - Si el número de muestras de entrenamiento es
suficiente y la dimensionalidad de los datos es
alta el fenómeno de Hughes se manifiesta debido a
que los estimadores obtenidos son inestables y
segados. Este fenómeno es más acusado cuanto
mayor sea la dimensionalidad. - Diferencia entre las curvas
- - Clasificador cuadrático proporcional a d2/N
- - Clasificador lineal proporcional a d/N
715. El problema de la estimación de parámetros
- Conclusiones
- Aunque la decisión de adoptar un clasificador
cuadrático o un clasificador lineal depende
fundamentalmente de la forma de las matrices de
covarianza de las clases, el clasificador
cuadrático requiere muchas más muestras de
entrenamiento que un clasificador lineal para
conseguir resultados similares. - Soluciones
- 1. Obtener más muestras de entrenamiento
- 2. Utilizar las variables más relevantes
(selección y/o extracción de características)
726. Detección de puntos dudosos
- Motivación
- Algunos patrones deben descartarse (asignarse a
w0)
736. Detección de puntos dudosos
746. Detección de puntos dudosos
- Técnica Umbralización
- Sea wc tal que P(x wc)
- Cálculo del umbral para el clasificador
cuadrático. - Sea wc tal que
756. Detección de puntos dudosos
La clasificación es aceptable (d(X) wc)
si Sigue una distribución ?2 con d grados de
libertad si X está normalmente distribuida.
766. Detección de puntos dudosos
- Procedimiento 1.- Consultar la tabla ?2 para
determinar el valor de (X-
?c)T?c-1(X- ? c) por debajo del cual hay un
determinado porcentaje de puntos. En esta
figura, indicamos el valor de la ?2 que tiene la
probabilidad P de ser sobrepasada (la proporción
de la población con un valor ?2 mayor que un
valor determinado)
776. Detección de puntos dudosos
2.- Una vez consultado el valor, ?, 3.- El
valor exacto de Tc se calcula directamente,
conociendo las probabilidades a priori y las
matrices de covarianza de esa clase.
78(No Transcript)