Title: An
1Análisis de Cluster K-means
- ALGORITMOS DE CLASIFIACIÓN
- Técnicas jerárquicas (pasos sucesivos)
- Procedimientos ascendentes o aglomerativos
- Descendentes o divisivos
- Técnicas no jerárquicas o de partición
(determinar el - número de grupos)
- Procedimiento K- Means
- Combinación de medidas de distancia y/o
semejanza con algoritmos - de clasificación los más utilizados son el
del vecino más próximo - o promedio entre grupos con la distancia
euclidea al cuadrado
2Ejemplo Aplicación del análisis de cluster a una
encuesta de actitudes políticas Objetivo Conocer
la composición interna del electorado de un
partido político, el peso de las diferentes
tendencias dentro del partido. Los resultados
analizados corresponden a una encuesta sobre
actitud política, a partir de los que se quiere
saber la estructura de ese electorado potencial
de derecha componente de centro, derecha
tradicional y católica, derecha liberal...
3Procedimiento Técnica no Jerárquica o
de Partición, K-MEANS Definir previamente un
número de grupos Tipificar las variables y
Análisis de Componentes Principales si fuera
necesario Análisis de resultados Distancia de
los componentes de cada grupo a su
centroide Distancia de los componentes de otros
grupos al centroide del grupo 1
4Esta tabla recoge la distancia de cada elemento
del grupo a su centroide de modo que puede
observarse si por término medio esta es grande o
pequeña, indicando una mayor o menor cohesión del
grupo. Todo ello también puede representarse
gráficamente del a partir del siguiente gráfico
5(No Transcript)
6La visión conjunta de las distribuciones de
frecuencia permite ver la nitidez y fuerza de la
tendencia del cluster 1. Vemos que la mayor
parte de los Componentes del grupo 1 se
solapan con los componentes de otros grupos,
lo que indica la inconsistencia del grupo 1, ya
que hay elementos de otros grupos más cercanos
al centroide del cluster 1, que muchos de los
componentes de este grupo, aun estando más
cercanos a los centroides de sus respectivos
grupos. También pude observarse gráficamente qué
grupo es el más distante del 1, en este caso el
nº 5
7(No Transcript)
8Es importante observar el comportamiento de las
Variables en cada cluster para descubrir la
tendencia que se esconde en él. Las variables
representativas en cada grupo serán aquellas
que presenten un rango de variación pequeño y
con valores cercanos a la media (con valores
altos), y una desviación típica también pequeña
9En este caso puede observarse que las variables
más importantes para dar sentido a este grupo,
son las relativas a la cercanía a los líderes y
a los partidos
10Análisis de Cluster
Esta matriz nos informa de la distancia entre
los centroides de los Grupos. Si estos están
demasiado Próximos difícilmente podemos hablar de
tendencias naturales dentro del electorado. El
ANÁLISIS DE VARIANZA nos Informa sobre que
variables son las que más discriminan a los
grupos, es decir que más homogéneos son los
grupos respecto a ellas y más diferentes entre
sí más claras las diferentes tendencias