Sin t - PowerPoint PPT Presentation

About This Presentation
Title:

Sin t

Description:

Cap tulo 2 Aproximaci n Param trica – PowerPoint PPT presentation

Number of Views:79
Avg rating:3.0/5.0
Slides: 79
Provided by: Sergi133
Category:
Tags: ecuacion | plano | recta | sin

less

Transcript and Presenter's Notes

Title: Sin t


1
Capítulo 2 Aproximación Paramétrica
2
Contenidos
  1. Introducción
  2. La función de densidad de probabilidad normal
  3. Funciones discriminantes para la f.d.p normal
  4. Diseño de clasificadores lineales y cuadráticos
  5. El problema de la estimación de los parámetros
  6. Detección de puntos dudosos

3
1. Introducción
  • Objeto de estudio

Clasificación supervisada paramétrica
4
1. Introducción
  • Supervisado El aprendizaje supervisado requiere
    disponer de un conjunto de prototipos (conjunto
    de entrenamiento) a partir del cual construiremos
    y evaluaremos un clasificador.
  • Paramétrico Se supone un completo conocimiento
    a priori de la estructura estadística de las
    clases. Podemos modelar las clases mediante
    funciones de densidad de probabilidad conocidas.

5
1. Introducción
  • Clasificador de Bayes
  • La función de densidad normal (gaussiana) es la
    más tratada en la literatura. Propiedades

1. Parámetros que especifican la distribución.
La f.d.p. Normal queda completamente especificada
por pocos parámetros. 2. Incorrelación e
independencia. Dado un conjunto de patrones que
siguen una distribución normal, si las variables
asociadas están incorreladas, entonces son
independientes.
6
1. Introducción
1. Introducción
3. Justificación física. Aproximación razonable
para la mayor parte de los datos tomados de la
naturaleza. La función de densidad normal es
acertada en situaciones en las que un conjunto de
patrones de una determinada clase toman valores
en un rango contínuo y alrededor de un patrón
promedio. Considera que los patrones de clases
diferentes tienen distintos valores pero los
valores de los patrones de una clase son lo más
parecidos posibles. 4. Densidades marginales y
condicionales. Las densidades marginales y
condicionadas de una distribución normal son
también normales.
7
1. Introducción
5. Invarianza frente a transformaciones
lineales. La distribución que sigue cualquier
combinación lineal de una variable aleatoria
normal es también normal (con diferentes
parámetros). Siempre puede encontrarse, para una
distribución normal, un nuevo conjunto de ejes
tal que las nuevas variables son independientes
en este nuevo sistema.
8
2. Función de densidad de prob. normal
  • 2.1 La f.d.p. normal unidimensional.
  • Forma funcional.
  • donde
  • es la media
    de la clase i

  • es la varianza de la clase i

9
2. Función de densidad de prob. normal
Fdp normales de media 0 y varianzas 0.15, 1 y 2
10
2. Función de densidad de prob. normal
  • Una propiedad interesante y útil
  • El área bajo la curva de la función de densidad
    de probabilidad normal puede calcularse de forma
    precisa según el número de desviaciones típicas.
  • El 68.3 de las observaciones están en el
    intervalo ?- ? ? ?
  • El 95.4 de las observaciones están en el
    intervalo ? - 2? ? 2?
  • El 99.7 de las observaciones están en el
    intervalo ?- 3? ? 3?

11
2. Función de densidad de prob. normal
Áreas bajo la curva de la fdp gaussiana en
función del número de desviaciones típicas
12
2. Función de densidad de prob. normal
  • Parámetros que especifican la distribución
  • - La fdp normal está completamente especificada
    por los parámetros ?i y ?i2
  • - En la práctica, ?i y ?i2 son desconocidos y
    deben estimarse a partir de los puntos de
    entrenamiento
  • Estimadores no sesgados de ?i y ?i2
  • donde
  • Ni es el número de prototipos de la clase
    i.
  • xj es el j-ésimo prototipo de la clase i.

13
2. Función de densidad de prob. normal
  • 2.2 La f.d.p. normal multidimensional.
  • Forma funcional.
  • ?i matriz de covarianza de la clase i
  • ?i determinante de ?i
  • ?i-1 matriz inversa de ?i
  • (X - ?i)T vector traspuesto de (X- ?i)

14
2. Función de densidad de prob. normal
Representación de una fdp normal dibimensional
15
2. Función de densidad de prob. normal
  • Parámetros que especifican la distribución
  • - La fdp normal multivariante está completamente
    especificada por los parámetros ?i y ?i
  • - En la práctica, estos parámetros son
    desconocidos y deben estimarse a partir de
    prototipos.

16
2. Función de densidad de prob. normal
Estimadores no sesgados de ?i y de ?i
donde Ni es el número de
prototipos de la clase i. Xl es el
l-ésimo prototipo de la clase.
17
2. Función de densidad de prob. normal
- Estimación alternativa (elemento a
elemento) para j, k 1, 2, ..., d donde
Xjl componente j-ésima del prot. l-ésimo de wi
ij componente j-ésima del vector medio de
wi
18
2. Función de densidad de prob. normal
  • Ejemplo.
  • Disponemos de 5 prototipos de la clase wi
  • Estimación de ?i.
  • Estimación de ?i (completa)
  • 1. Vectores (X l - )

19
2. Función de densidad de prob. normal
20
2. Función de densidad de prob. normal
2. Matrices (X l - )(X l - )T
21
2. Función de densidad de prob. normal
3. Finalmente,
Parámetros estimados para esta clase
22
2. Función de densidad de prob. normal
Estimación de ?i (elemento a elemento)
23
2. Función de densidad de prob. normal
  • Propiedades de ?i
  • 1. ?i es simétrica. Como ?ijk ?ikj , hay que
    calcular únicamente d (d 1)/2 componentes.
  • 2. ?i es (semi)definida positiva (?igt0)
  • 3. ?ijk es la covarianza de la clase i entre las
    variables j y k (j,k 1,2,...,d
    j ? k) y se interpreta como la relación o
    dependencia entre estas dos variables.
  • 4. Los valores de la diagonal de la matriz de
    covarianza son las varianzas de las variables
    individuales, esto es, ?ijj ?2ij
  • 5. Si ?ijk 0, las variables j y k son
    estadísticamente independientes. Si no, existe
    correlación entre ellas.

24
2. Función de densidad de prob. normal
A) Vars. independientes B) Vars. correladas
25
2. Función de densidad de prob. normal
  • 2.2 La f.d.p. normal multidimensional.
  • 2.2.1 La distancia de Mahalanobis
  • Los puntos para puntos para los que el valor de
    la fdp es constante están situados en
    hiperelipsoides en las que la forma cuadrática
    (X- ?)T ?-1(X- ?) es constante distancia de
    Mahalanobis (al cuadrado) de X a ?.

26
2. Función de densidad de prob. normal
A) Dens. de prob B) Diagrama de dispersión
27
2. Función de densidad de prob. normal
  • Las direcciones de los ejes principales de
    estos hiperelipsoides están determinadas por los
    autovectores de ? y sus longitudes por los
    autovalores correspondientes.
  • Al estar ponderada por ?, esta métrica considera
    la distinta dispersión de las variables en el
    espacio.
  • Importante con una métrica de este tipo, el
    concepto de distancia es muy distinto al concepto
    de distancia en nuestro mundo Euclídeo

28
2. Función de densidad de prob. normal
Dos distribuciones normales con igual media y
diferentes matrices de covarianza
29
2. Función de densidad de prob. normal
2.2 La f.d.p. normal multidimensional. 2.2.2
Correlación de variables
A) Alta covarianza B) Baja covarianza. En ambos
casos, ?21 5.7 y ?227.1
30
2. Función de densidad de prob. normal
  • Coeficiente de correlación.
  • Medida normalizada del grado de relación entre
    las variables, independiente de las unidades de
    medida.
  • Este coeficiente verifica que ?ij ? 1

31
2. Función de densidad de prob. normal
  • Relación entre covarianzas y correlaciones ?
    ? R ?

32
2. Función de densidad de prob. normal
- ?ij , entonces ?ij ?j ?i ?ij .
Además, como ?ij ?ji, entonces ?ij
?ji - Como ?ii
1. ?ii ?i ?i ?ii ?i2 porque ?ij 1
33
2. Función de densidad de prob. normal
  • Interpretación del factor de correlación
  • Si proyectamos la nube de puntos sobre un plano
    definido por los ejes (abscisas) y (ordenadas)
  • - Superficie determinada por ? (desviaciones
    típicas).
  • - Forma determinado por R (correlaciones).
  • Dado que ?ij ?1 (-1 ? ?ij ?1)
  • 1. Si ?ij 0, la correlación es nula (son
    independientes) los puntos se disponen
    aleatoriamente en un círculo (?1 ?2) o en una
    elipse (?1 ? ?2) cuyo centro es (?i,?j). Una
    correlación con valor 0 indica que no existe
    relación lineal en absoluto.

34
2. Función de densidad de prob. normal
Ejemplos de correlación nula
35
2. Función de densidad de prob. normal
2. Si 0 lt ?ij lt 1 los puntos se disponen en una
elipse centrada en (?i,?j). El eje principal
tiene una pendiente positiva y una forma más o
menos circular dependiendo de si ?ij está más o
menos cercano a 0.
Ejemplos de correlación positiva
36
2. Función de densidad de prob. normal
3. Si ?ij 1, la correlación el lineal y
perfecta ( Xj depende linealmente de Xi) los
puntos se disponen a lo largo de una línea recta
con pendiente positiva
Ejemplos de correlación lineal
37
2. Función de densidad de prob. normal
4. Para -1 lt ?ij lt 0, similar a caso 2 y para
?ij -1, similar a caso 3 (ahora con pendiente
negativa). La orientación y longitud de los
ejes de las elipses que caracterizan las
distribuciones se deducen de los autovectores y
autovalores de la matriz de covarianza.
Ejemplos de correlación negativa
38
3. Funciones discriminantes para la f.d.p normal.
  • El clasificador de mínimo error (Bayes) puede
    expresarse en términos de funciones
    discriminantes
  • Forma general de las funciones discriminantes
    asumiendo f.d.p. normales

39
3. Funciones discriminantes para la f.d.p normal.
  • Casos particulares
  • - Caso 1. ?i ?2 I (Clasif. Lineal)
  • - Caso 2. ?i ? (Clasif. Lineal)
  • - Caso 3. ?i arbitrarias (Clasif. Cuadrático)

40
3. Funciones discriminantes para la f.d.p normal.
  • 3.1 Clasificadores lineales
  • 3.1.1 Caso 1 ?i ?2 I
  • Variables estadísticamente independientes
    (incorreladas) y todas tienen la misma varianza,
    ?2.
  • Las matrices de covarianza son diagonales con
    valor ?2

41
3. Funciones discriminantes para la f.d.p normal.
Clasificador lineal con ?i ?2 I
42
3. Funciones discriminantes para la f.d.p normal.
  • Simplificaciones de las funciones
    discriminantes.
  • - En este caso
  • Sustituyendo en (10)
  • - Considerando que ? es la norma Euclídea

43
3. Funciones discriminantes para la f.d.p normal.
- Si ?i son iguales, no son significativas para
Alternativamente, Regla de mínima
distancia Euclídea.
44
3. Funciones discriminantes para la f.d.p normal.
  • Funciones discriminantes lineales
  • Superficies de decisión
  • donde

45
3. Funciones discriminantes para la f.d.p normal.
Front. de dec. Para un clasificador de mín.
distancia
46
3. Funciones discriminantes para la f.d.p normal.
  • 3.1.2 Caso 2 ?i ?
  • Las variables no son estadísticamente
    independientes (cor- reladas) y las varianzas
    individuales son diferentes.
  • Geométricamente patrones distribuidos en
    agrupamientos hiperelipsoidales de igual tamaño y
    forma. Cada agrupamiento centrado en su media
    correspondiente, ?i

Clasif. Lineal con ?i? (?12?0,?1??2)
47
3. Funciones discriminantes para la f.d.p normal.
Clasif. Lineal con ?i? (?120,?1??2)
48
3. Funciones discriminantes para la f.d.p normal.
  • Simplificación de las funciones discriminantes.
  • Si ?i son iguales, no son significativas para
  • Alternativamente,
  • Regla de mínima distancia Mahalanobis.

49
3. Funciones discriminantes para la f.d.p normal.
  • Funciones discriminantes lineales
  • Superficies de decisión.

50
3. Funciones discriminantes para la f.d.p normal.
  • 3.2 Clasificadores cuadráticos
  • 3.2.1 Caso 3 ?i arbitrarias
  • Fronteras de decisión expresadas como una
    función cuadrática (círculos, elipses, parábolas,
    hipérbolas).
  • Este es el caso más general (caso 3), del cual
    se derivan como casos particulares los dos
    estudiados anteriormente.

51
3. Funciones discriminantes para la f.d.p normal.
Clasificadores Cuadráticos
52
3. Funciones discriminantes para la f.d.p normal.
  • Simplificación de las funciones discriminantes.
  • Si ?i son iguales, no son significativas para
  • Funciones discriminantes cuadráticas
  • donde

53
3. Funciones discriminantes para la f.d.p normal.
Fronteras de decisión (en dos dimensiones)
54
4. Diseño de clasificadores. Clasif. de mín.
distancia
  • Motivación Porqué no usar el caso 3 siempre?
  • 1. Considerar los costes computacionales de
    calcular
  • Caso 3
  • Caso 2
  • Caso1

55
4. Diseño de clasificadores. Clasif. de mín.
distancia
  • 2. Estabilidad de los estimadores.
  • Etapas
  • 1. Análisis del conjunto de aprendizaje.
  • 2. Aprendizaje.
  • 3. Clasificación.

56
4. Diseño de clasificadores. Clasif. de mín.
distancia
4.1. Diseño de clasificadores. 1. Análisis del
conjunto de aprendizaje. Estudiar y sacar
conclusiones sobre los conjuntos de aprendi-
zaje test de normalidad, comprobación de la
suficiencia del número de muestras de aprendizaje
para estimaciones y estudio de la estructura
estadísticas de las clases.
En resumen decidir el clasificador
(casos 1,2 ó 3).
57
4. Diseño de clasificadores. Clasif. de mín.
distancia
2. Aprendizaje. Estimación de los parámetros de
cada clase 1.- Estimar ?i (i 1,2, ..., J) 2.-
Si acaso 2 ó 3, Estimar ?i (i 1,2,
..., J) Si acaso 2,
Calcular ? 3. Clasificación. Calcular
para i1,2,...,J (según el caso)
58
4. Diseño de clasificadores. Clasif. de mín.
distancia
4.2. Clasificadores de mínima distancia. Casos
particulares de los clasificadores estudiados
como los casos 1 y 2 cuando no se consideran las
probabilidades a priori (todas son iguales) 1.
Distancia Euclídea - Vars. Estadísticamente
independientes- - Vars. Igualmente escaladas en
todas las direcciones. 2. Distancia de
Mahalanobis - Vars. correladas. - Vars.
posiblemente escaladas de forma diferente
59
4. Diseño de clasificadores. Clasif. de mín.
distancia
4.2.1 Clasif. de mínima distancia Euclídea.
Cálculo de la distancia Euclídea
60
4. Diseño de clasificadores. Clasif. de mín.
distancia
  • Regla óptima de clasificación
  • donde
  • Clasificador de mínima distancia Euclídea

61
4. Diseño de clasificadores. Clasif. de mín.
distancia
  • Estamos resumiendo una clase por su valor
    medio toda la información de interés de una
    clase (para la clasificación) está concentrada en
    su media

Un clasificador Euclídeo para tres clases
62
4. Diseño de clasificadores. Clasif. de mín.
distancia
  • Derivación de funciones discriminantes lineales
    para el clasificador de mínima distancia Euclídea

63
4. Diseño de clasificadores. Clasif. de mín.
distancia
Expresado en forma de funciones
discriminantes De manera aún más compacta
64
4. Diseño de clasificadores. Clasif. de mín.
distancia
Demostración
65
4. Diseño de clasificadores. Clasif. de mín.
distancia
  • 4.2.2 Clasif. de mínima distancia de Mahalanobis.
  • Distancia de Mahalanobis.
  • Regla óptima de clasificación
  • donde
  • Clasificador de mínima distancia Euclídea

66
4. Diseño de clasificadores. Clasif. de mín.
distancia
Dist. de Mahalanobis frente a dist. Euclídea
67
4. Diseño de clasificadores. Clasif. de mín.
distancia
Dist. de Mahalanobis frente a dist. Euclídea (2)
68
5. El problema de la estimación de parámetros
  • En teoría, el error de Bayes decrece conforme la
    dimensionalidad de los datos se incrementa.
  • En la práctica, se usa un número fijo de
    muestras, N, para construir el clasificador los
    estimadores están sesgados por las muestras
    disponibles.
  • Si suponemos distribuciones normales se
    requiere

- Clasif. Cuadrático
estimaciones - Clasif. Lineal
estimaciones
69
5. El problema de la estimación de parámetros
  • Fenómeno de Hughes.

70
5. El problema de la estimación de parámetros
  • Interpretación
  • Existe un valor óptimo de dimensionalidad que es
    función del tamaño del conjunto de entrenamiento.
  • Si el número de muestras de entrenamiento es
    suficiente y la dimensionalidad de los datos es
    alta el fenómeno de Hughes se manifiesta debido a
    que los estimadores obtenidos son inestables y
    segados. Este fenómeno es más acusado cuanto
    mayor sea la dimensionalidad.
  • Diferencia entre las curvas
  • - Clasificador cuadrático proporcional a d2/N
  • - Clasificador lineal proporcional a d/N

71
5. El problema de la estimación de parámetros
  • Conclusiones
  • Aunque la decisión de adoptar un clasificador
    cuadrático o un clasificador lineal depende
    fundamentalmente de la forma de las matrices de
    covarianza de las clases, el clasificador
    cuadrático requiere muchas más muestras de
    entrenamiento que un clasificador lineal para
    conseguir resultados similares.
  • Soluciones
  • 1. Obtener más muestras de entrenamiento
  • 2. Utilizar las variables más relevantes
    (selección y/o extracción de características)

72
6. Detección de puntos dudosos
  • Motivación
  • Algunos patrones deben descartarse (asignarse a
    w0)

73
6. Detección de puntos dudosos
74
6. Detección de puntos dudosos
  • Técnica Umbralización
  • Sea wc tal que P(x wc)
  • Cálculo del umbral para el clasificador
    cuadrático.
  • Sea wc tal que

75
6. Detección de puntos dudosos
La clasificación es aceptable (d(X) wc)
si Sigue una distribución ?2 con d grados de
libertad si X está normalmente distribuida.
76
6. Detección de puntos dudosos
- Procedimiento 1.- Consultar la tabla ?2 para
determinar el valor de (X-
?c)T?c-1(X- ? c) por debajo del cual hay un
determinado porcentaje de puntos. En esta
figura, indicamos el valor de la ?2 que tiene la
probabilidad P de ser sobrepasada (la proporción
de la población con un valor ?2 mayor que un
valor determinado)
77
6. Detección de puntos dudosos
2.- Una vez consultado el valor, ?, 3.- El
valor exacto de Tc se calcula directamente,
conociendo las probabilidades a priori y las
matrices de covarianza de esa clase.
78
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com