Title: 2.%20AN
12. ANÁLISIS DE COMPONENTES PRINCIPALES
- Objetivo
- Transformar un conjunto de variables en un
nuevo conjunto, componentes principales,
incorrelacionadas entre sí. Se consigue una
representación simplificada, más sencilla y fácil
de ver. - Metodología
- Los datos se presentan en una tabla
rectangular con n líneas (individuos) y p
columnas (variables) (matriz R, nxp). Puede ser
disimétrica y con variables heterogéneas. Hay dos
espacios - Rp n individuos con los valores que toman para
cada una de las p variables. - Rn p variables para cada individuo.
- Finalidad
- Buscar un subespacio Rq, qltp que contenga
la mayor cantidad posible de información de la
nube primitiva, y que mejor se ajuste a la nube
de puntos y la deforme lo menos posible. El
criterio de ajuste es el de mínimos cuadrados. Se
obtendrán nuevas variables, combinaciones
lineales de las variables originales llamadas
factores o componentes.
2Gráficamente ui es el vector unitario
o propio y zi es la proyección de xi en Fi. Como
medida de la cantidad de información incorporada
en una componente se utiliza su varianza. Cuanto
mayor sea, mayor es la información incorporada a
dicha componente. La primera componente será la
de mayor varianza. Para obtener los factores o
componentes que diferencian al máximo a los
individuos entre sí, medidos a través de
caracteres métricos, la extracción se realiza
sobre variables tipificadas, con matriz X, para
evitar problemas de escala. La suma de las
varianzas es igual a p, ya que la de cada una de
ellas es igual a 1 y habrá tantas componentes
como número de variables originales. Mientras
más correlacionadas estén las variables
originales entre sí, más alta será la
variabilidad que se pueda explicar con menos
componentes. Si existiera incorrelación, el ACP
carecería de sentido, ya que las variables
originales y las componentes o nuevas variables
coincidirían.
3MATRIZ DE DATOS
Cálculo de medias y desviaciones típicas
X MATRIZ DE DATOS TIPIFICADOS
R XX MATRIZ DE CORRELACIONES
Diagonalización de R, cálculo de valores propios,
varianza explicada y correlaciones
COMPONENTES PRINCIPALES
4Resumen
- Las componentes principales son combinaciones
lineales de las variables originales. - Los coeficientes de las combinaciones lineales
son los elementos de los vectores característicos
asociados a la matriz de covarianzas de las
variables originales. Por tanto, la obtención de
componentes principales es un caso típico de
cálculo de raíces y vectores característicos de
una matriz simétrica. -
- La primera componente se asocia a la mayor raíz
característica a que va asociada. - Si se tipifican las variables originales, su
proporción de variabilidad total captada por una
componente es igual a su raíz característica
dividida por el número de variables originales. - La correlación entre una componente y una
variable original se determina con la raíz
característica de la componente y el
correspondiente elemento del vector
característico asociado, si las variables
originales están tipificadas
5SPSS versión 10.0 para windows
- Coeficientes Matriz de los coeficientes de
correlación entre todas las variables analizadas. - Niveles de significación Unilaterales para cada
uno de los coeficientes de correlación. - Determinante muestra el determinante de la
matriz que recoge los coeficientes de
correlación. - KMO y prueba de esfericidad de Bartlett Calcula
la medida de la adecuación muestral de
Kaiser-Meyer-Olkin que es el estadístico de
contraste de la hipótesis de que las
correlaciones parciales entre las variables son
pequeñas. - Inversa muestra la inversa de la matriz de
correlaciones. - Reproducida Matriz de correlaciones obtenida a
partir del modelo factorial estimado. Muestra las
correlaciones residuales como medida del nivel de
error de estas estimaciones, es decir, las
diferencias entre las correlaciones observadas de
las variables originales y las estimadas. - Anti-imagen Matriz con los negativos de los
coeficientes de correlación parcial. Para que el
modelo factorial sea considerado bueno la mayoría
de los elementos fuera de la diagonal principal
deben ser pequeños, mientras que en la diagonal
principal se muestran los valores de la
adecuación muestral para cada una de las
variables consideradas individualmente.
6- Como mínimo habrá que pedir la media y la
desviación típica y los coeficientes de la matriz
de correlaciones lineal de Pearson entre las
variables dos a dos. En general, se debería usar
alguna de las otras opciones, como son - Los niveles de significación, obtenidos en un
test de hipótesis de los coeficientes de
correlación lineal. - El índice KMO (Kaiser-Meyer-Olkin) Se obtendrá
mediante la siguiente ecuación -
-
-
- donde
- rij coeficiente de correlación lineal de
Pearson entre las variables i,j - aij coeficiente de correlación parcial entre
las variables i,j - Índice KMO alto, implica que el nivel de
correlación entre las variables analizadas es
alto y por tanto tiene sentido el Análisis de
Componentes Principales, puesto que se podrá
reducir la dimensionalidad del problema agrupando
variables con una alta correlación entre ellas. - La prueba de esferidad de Bartlett se utiliza
para verificar si la matriz de correlaciones es
una matriz de identidad o no. Indica la
inadecuación del modelo factorial propuesto.
7Elección del numero de ejes
Criterio de la media aritmética Se seleccionan
las componentes cuya varianza (valor propio) o
inercia asociada a cada componente, exceda de la
media de las raíces características. Por tanto,
se debe verificar que Si las variables
originales están tipificadas, , por lo
que la media de la inercia es igual a 1. Se
retendrán los factores cuya inercia sea mayor que
1.
8Comando Extracción SPSS
- Método factorial Análisis de Componentes
Principales - Matriz de correlaciones. Entre las variables.
Punto muy importante - Solución factorial sin rotar Definir cada una de
las componentes retenidas. - Gráfico de sedimentación de los autovalores
Ayuda a en la elección del número de factores.
Según el cambio de pendiente del gráfico,
confirmará a partir de qué factor la cantidad de
varianza explicada disminuye drásticamente. - Extraer Elección del número de componentes. Por
defecto, las componentes con autovalores mayores
que 1, siguiendo el criterio de la media
aritmética.
9Obtención de las puntuaciones factoriales
- Guardar las puntuaciones factoriales de cada
individuo como variables añadidas al fichero de
datos inicial. - Método El más usual es el de Regresión
10Posicionamiento de países de la U E frente al
cumplimiento de las condiciones de Maastricht
- Encargo Una asociación de empresarios dedicados
a la exportación de productos a Europa, encarga
un estudio del entorno económico europeo. - Objetivo
- Conocer la situación de cada país de la UE en
cuanto a las previsiones de entrada en el MUE y
la similitud o disimilitud entre ellos. - Fase cualitativa
- Se consideraron las cuatro variables para el
cumplimiento de las condiciones de Maastricht
Inflación, deuda, déficit y crecimiento.
11Datos
- Fuente Informe Previsiones Económicas de
primavera del año 1997. Club Mediterranée
12Resultados
13Valores propios y de variación explicada
14Correlaciones de las variables con los factores y
coordenadas de países con los factores
15Rotación de los ejes Procedimientos
- Objetivo
- Obtener nuevos factores más fáciles de
interpretar. Cada variable original tendrá una
correlación lo más próxima a 1 con uno de los
factores y lo más próximas a 0 con el resto. Cada
factor tendrá correlación alta con un grupo de
variables y baja con el resto. - 1. Rotación ortogonal Queda preservada la
incorrelación entre los factores. - VARIMAX. Los ejes de los factores rotados se
obtienen maximizando la suma de varianzas de las
cargas factoriales al cuadrado dentro de cada
factor. Problema Las variables con mayores
comunalidades tienen mayor influencia en la
solución final. Para evitarlo normalización de
Kaiser Cada carga factorial al cuadrado se
divide por la comunalidad de la variable
correspondiente (VARIMAX normalizado). Ventaja
queda inalterada tanto la varianza total
explicada por los factores como la comunalidad de
cada una de las variables - EQUAMAX y el QUARTIMAX
- 2. Rotación oblicua Factores no
incorrelacionados. Se compensarse si se consigue
una asociación más nítida de cada variable con el
factor correspondiente. - OBLIMIN Se utilizan algoritmos para controlar el
grado de no ortogonalidad. Tampoco se ve
modificada la comunalidad en la rotación oblicua
16Interpretación simultanea Rotación VARIMAX
17(No Transcript)