Title: Presentaci
16. ANÁLISIS DISCRIMINANTE
- Introducción
- Regla discriminante lineal de Fisher
- Versión poblacional
- Versión muestral
- El problema general de clasificación para
- dos poblaciones
- Probabilidad a priori
- Costes de clasificación
- Coste esperado por mala clasificación
- Regiones óptimas
1
26. ANÁLISIS DISCRIMINANTE
- Clasificación para dos poblaciones normales
- Versión poblacional
- Versión muestral
- Clasificación general para g poblaciones
- Costes de clasificación
- Coste esperado por mala clasificación
- Regiones óptimas
2
36. ANÁLISIS DISCRIMINANTE
- Clasificación para g poblaciones normales
- Score cuadrático de clasificación
- Versión muestral
- Clasificación para g poblaciones normales con
- matrices de covarianzas iguales
- Score lineal de clasificación
- Versión muestral
3
4Introducción
Supervisada
Análisis discriminante Clasificación
No supervisada Análisis de
conglo-
merados (clustering) El
análisis discriminante es una técnica
de clasificación para asignar nuevas
observaciones a grupos ya conocidos.
4
ANÁLISIS DISCRIMINANTE
5Regla discriminante lineal de Fisher
Sea la variable y dos poblaciones
y Sean y Se busca una
combinación lineal de la forma que sea óptima
para clasificar una observación en alguna de las
dos poblaciones.
5
ANÁLISIS DISCRIMINANTE
6Regla discriminante lineal de Fisher
Se tiene que
6
ANÁLISIS DISCRIMINANTE
7Regla discriminante lineal de Fisher
Hay que buscar l que optimice la separación entre
las dos poblaciones se maximiza la separación
entre las medias
7
ANÁLISIS DISCRIMINANTE
8Regla discriminante lineal de Fisher
Si se maximiza sin restricciones, el máximo puede
no ser finito se maximiza dividiendo por la
varianza La solución que se obtiene es
Nota es común.
Función discriminante lineal de Fisher
8
ANÁLISIS DISCRIMINANTE
9Regla discriminante lineal de Fisher
En el caso en que , se tiene
l1 y l2 determinan la recta
9
ANÁLISIS DISCRIMINANTE
10Regla discriminante lineal de Fisher
El punto medio es
- Dada una nueva observación x0
- Asignar x0 a p1 si
- Asignar x0 a p2 si
10
ANÁLISIS DISCRIMINANTE
11Regla discriminante lineal de Fisher
Proposición
11
ANÁLISIS DISCRIMINANTE
12Regla discriminante lineal de Fisher Versión
muestral
Dadas dos poblaciones y , se tienen las
siguientes matrices de datos
y sean
Nota no es necesario n1n2
12
ANÁLISIS DISCRIMINANTE
13Regla discriminante lineal de Fisher Versión
muestral
La regla lineal es
Función discriminante lineal muestral de Fisher
que es óptima para clasificar entre las dos
poblaciones.
El punto medio es
13
ANÁLISIS DISCRIMINANTE
14Regla discriminante lineal de Fisher Versión
muestral
YlX
Y2
x0
m
lx0
Y1
- Dada una nueva observación x0 , la regla de
clasificación - sería
- Asignar x0 a p1 si
- Asignar x0 a p2 si
14
ANÁLISIS DISCRIMINANTE
15Clasificación
Ejemplo
- Calcular la función de discriminación lineal.
- Clasificar la observación
15
ANÁLISIS DISCRIMINANTE
16El problema general de clasificación para dos
poblaciones
Dada la variable y dos poblaciones
y
siendo f1 la función de densidad de y f2 la
función de densidad de
16
ANÁLISIS DISCRIMINANTE
17El problema general de clasificación para dos
poblaciones
El problema es separar el espacio muestral ?
en dos regiones R1 y R2 disjuntas tales que
17
ANÁLISIS DISCRIMINANTE
18El problema general de clasificación para
dos poblaciones
- Probabilidad de clasificar en si viene de
- Probabilidad de clasificar en si viene de
- Probabilidad de clasificar en si viene de
- Probabilidad de clasificar en si viene de
18
ANÁLISIS DISCRIMINANTE
19El problema general de clasificación para
dos poblaciones
- p1 probabilidad de que venga de
- p2 probabilidad de que venga de
- P(clasificar correctamente en )
- P(clasificar incorrectamente en )
- P(clasificar correctamente en )
- P(clasificar incorrectamente en )
19
ANÁLISIS DISCRIMINANTE
20El problema general de clasificación para dos
poblaciones
El objetivo es encontrar la mejor regla de
clasificación, que proporcionará las regiones que
minimicen el coste esperado por mala
clasificación.
20
ANÁLISIS DISCRIMINANTE
21El problema general de clasificación para dos
poblaciones
El coste esperado por mala clasificación para dos
regiones es
El objetivo es hallar dos regiones que minimicen
el CEMC.
21
ANÁLISIS DISCRIMINANTE
22El problema general de clasificación para dos
poblaciones
Teorema Las regiones R1 y R2 que minimizan el
coste esperado por mala clasificación son
22
ANÁLISIS DISCRIMINANTE
23El problema general de clasificación para dos
poblaciones
Corolario
23
ANÁLISIS DISCRIMINANTE
24El problema general de clasificación para dos
poblaciones
24
ANÁLISIS DISCRIMINANTE
25Clasificación para dos poblaciones normales
En este caso se conoce la función de densidad
para
Dada la variable y las dos
poblaciones con
, respectivamente, el objetivo
es hallar las dos regiones R1 y R2 que minimizan
el CEMC.
25
ANÁLISIS DISCRIMINANTE
26Clasificación para dos poblaciones normales
Teorema Las regiones R1 y R2 que minimizan el
CEMC son
siendo
26
ANÁLISIS DISCRIMINANTE
27Clasificación para dos poblaciones normales
- Observación
- Si la regla de clasificación es
cuadrática. - Si se obtienen las regiones
27
ANÁLISIS DISCRIMINANTE
28Clasificación para dos poblaciones normales
Si se considera ,
entonces se llega a la regla discriminante
lineal de Fisher.
28
ANÁLISIS DISCRIMINANTE
29Clasificación para dos poblaciones
normales Versión muestral
Dadas dos poblaciones y las matrices
de datos
Nota no es necesario n1 n2
29
ANÁLISIS DISCRIMINANTE
30Clasificación para dos poblaciones
normales Versión muestral
estimando y , se tiene
30
ANÁLISIS DISCRIMINANTE
31Clasificación general para g poblaciones
Sea la variable y las g poblaciones
siendo sus respectivas funciones
de densidad y las probabilidades
a priori.
31
ANÁLISIS DISCRIMINANTE
32Clasificación general para g poblaciones
El coste de clasificar en viniendo de
es C(ik), siendo C(ii) 0,
Las g regiones en las se puede clasificar
vienen dadas por
32
ANÁLISIS DISCRIMINANTE
33Clasificación general para g poblaciones
La probabilidad de clasificar en si viene
de es
La probabilidad de clasificar en si viene
de es
33
ANÁLISIS DISCRIMINANTE
34Clasificación general para g poblaciones
El objetivo es encontrar la mejor regla de
clasificación, que dará lugar a las regiones que
hacen mínimo el coste por mala clasificación.
34
ANÁLISIS DISCRIMINANTE
35Clasificación general para g poblaciones
El coste esperado por mala clasificación dado que
la observación viene de es
En general, el coste esperado por mala
clasificación es
35
ANÁLISIS DISCRIMINANTE
36Clasificación general para g poblaciones
El CEMC también se puede escribir como
36
ANÁLISIS DISCRIMINANTE
37Clasificación general para g poblaciones
Teorema El CEMC se minimiza asignando la
observación x a la población para la cual
Corolario Si todos los costes de clasificación
son iguales, el CEMC se minimiza cuando
es mínima, es decir, cuando se
clasifica x en la población donde
es máxima.
37
ANÁLISIS DISCRIMINANTE
38Clasificación general para g poblaciones
La región de puntos que se clasifican en la
población i es
38
ANÁLISIS DISCRIMINANTE
39Clasificación para g poblaciones normales
En este caso se conoce la función de densidad para
Dada la variable y las g
poblaciones con
respectivamente, el
objetivo es hallar las g regiones R1,R2 ,...,Rg
que minimizan el CEMC.
39
ANÁLISIS DISCRIMINANTE
40Clasificación para g poblaciones normales
La función de densidad en el caso normal para
las poblaciones es
Si los costes son iguales, hay que maximizar
.
40
ANÁLISIS DISCRIMINANTE
41Clasificación para g poblaciones normales
Se clasifica x en si
, es decir, si
41
ANÁLISIS DISCRIMINANTE
42Clasificación para g poblaciones normales
Como las matrices de covarianzas son distintas,
se tiene una expresión cuadrática
Score cuadrático de clasificación
Se clasifica x en si
Nota Si no hay probabilidades a priori, log pi
0.
42
ANÁLISIS DISCRIMINANTE
43Clasificación para g poblaciones normales Versión
muestral
Sea y sean g poblaciones conocidas
. g matrices de datos, de
tamaños n1, n2,...,ng, no necesariamente iguales
43
ANÁLISIS DISCRIMINANTE
44Clasificación para g poblaciones normales Versión
muestral
Sean
44
ANÁLISIS DISCRIMINANTE
45Clasificación para g poblaciones normales Versión
muestral
La función de densidad estimada es
El score cuadrático de clasificación es
Se clasifica x en si
, es decir, si
45
ANÁLISIS DISCRIMINANTE
46Clasificación para g poblaciones normales
con matrices de covarianzas iguales Score lineal
de clasificación
- Nota
- si las matrices de covarianzas son
- Iguales caso lineal
- Distintas caso cuadrático
Sean
Si todas las poblaciones tienen distribución
normal, el score cuadrático sería
46
ANÁLISIS DISCRIMINANTE
47Clasificación para g poblaciones normales
con matrices de covarianzas iguales Score lineal
de clasificación
Si desarrollando la forma
cuadrática se llega al score lineal de
clasificación.
47
ANÁLISIS DISCRIMINANTE
48Clasificación para g poblaciones normales
con matrices de covarianzas iguales Score lineal
de clasificación
Para clasificar, hay que maximizar
Score lineal de clasificación
La regla de clasificación por tanto, es
clasificar x en si
48
ANÁLISIS DISCRIMINANTE
49Clasificación para g poblaciones normales
con matrices de covarianzas iguales Versión
muestral
Sea la variable y las g
poblaciones con distribuciones estimada
s
respectivamente. Si se estima con SiS, el
score lineal de clasificación queda
Score lineal muestral de clasificación
49
ANÁLISIS DISCRIMINANTE
50Clasificación para g poblaciones normales
con matrices de covarianzas iguales Versión
muestral
La regla de clasificación es asignar x a si
es el estimador de la media y S es el
estimador de ?
50
ANÁLISIS DISCRIMINANTE