Title: Componentes Principales
1Componentes Principales
2 3- Objetivo dada una matriz de datos de dimensiones
nxp que representa los valores de p variables en
n individuos, investigar si es posible
representar los individuos mediante r variables
(rltp) con poca (o ninguna si es posible) pérdida
de información.
4- Nos gustarÃa encontrar nuevas variables Z,
combinación lineal de las X originales, tales
que - r de ellas contengan toda la información
- las restantes p-r fuesen irrelevantes
5Primera interpretación de componentes
principales Representación gráfica óptima de los
datos
6Proyección de un punto en una dirección
maximizar la varianza de la proyección equivale
a minimizar las distancias
ri
xi
zi
xiT xi riT ri zTi zi
a
7(No Transcript)
8Minimizar las distancias a la recta es lo mismo
que maximizar la varianza de los puntos
proyectados (estamos suponiendo datos de media
cero)
9Segunda interpretación de componentes
Predicción óptima de los datos
Encontrar una variable zi aXi que sea capaz de
prever lo mejor posible el vector de variables
Xi en cada individuo. Generalizando, encontrar
r variables, zi Ar Xi , que permitan prever los
datos Xi para cada individuo lo mejor posible,
en el sentido de los mÃnimos cuadrados
Puede demostrarse que la solución es que zi aXi
tenga varianza máxima.
10Tercera interpretación Ejes del elipsoide que
contiene a la nube de puntos
Recta que minimiza las distancias ortogonales,
proporciona los ejes del elipsoide que contiene a
la nube de puntos
Coincide con la idea de regresión ortogonal de
Pearson
11(No Transcript)
12(No Transcript)
13(No Transcript)
14Ejemplo. Datos de gastos de familias EPF
15Segundo componente
16Ejemplo gastos EPF
17(No Transcript)
18(No Transcript)
19Propiedades de los CP
20Propiedades
- Conservan la varianza generalizada
- Conservan la varianza efectiva
21Propiedades
- La variabilidad explicada es la proporción del
valor propio a la suma
22Propiedades
La covarianza entre los componentes y las
variables es proporcional al vector propio que
define el componente
Y como
23Propiedades
- Las covarianzas entre los componentes y las
- variables son proporcionales al vector propio y
el factor de proporcionalidad es el valor propio
24Propiedades
25Propiedades
26CP como predictores óptimos
Queremos prever cada fila de la matriz
Mediante un conjunto de variables
Con el mÃnimo error
27CP como predictores óptimos
Dado el vector a el coeficiente c se obtiene por
regresión
Con lo que
Para obtener a tenemos que minimizar
28CP como predictores óptimos
29CP como predictores óptimos
El resultado de la aproximación es
30CP como predictores óptimos
Y en general, la mejor aproximación de la matriz
con otra de Rango rltp es
31- Los CP son los predictores óptimos de las
variables originales - La aproximación de CP puede aplicarse a cualquier
matriz aunque tengamos más variables que
observaciones
32Propiedades
- En lugar de trabajar con la matriz de varianzas
podemos hacerlo con la de correlaciones - Esto equivale a trabajar con variables
estandarizadas
33CP sobre correlaciones
34Ejemplo Inves
35Ejemplo Inves
36(No Transcript)
37Ejemplo Medifis
38(No Transcript)
39(No Transcript)
40Ejemplo mundodes
41Ejemplo Mundodes
42(No Transcript)
43Ejemplos para análisis de imagenes
44(No Transcript)
45En lugar de tener que transmitir 16 matrices de N2
Pixeles transmitimos un vector 16x3 con los
valores de los componentes y una matriz 3xN2 con
los vectores propios De esta manera ahorramos
Ahorramos el 70 . Si en lugar de 16 imágenes
tenemos 100 el ahorro puede ser del 95
46Generalización
- Buscar direcciones de proyección interesantes
desde algun punto de vista. - Esta es la idea de Projection Pursuit. Buscar
proyecciones que produzcan distribuciones de los
datos tan alejadas de la normalidad como sea
posible.