Title: Decisiones Gerenciales I
1(No Transcript)
2Análisis de Conglomerados (Cluster Analysis)
- El análisis de conglomerados es una técnica
estadÃstica para agrupar a los elementos de la
muestra en grupos, denominados conglomerados, de
forma tal que, respecto a la distribución de los
valores de las variables, por un lado, cada
conglomerado sea lo más homogéneo posible y, por
otro, los conglomerados sean muy distintos entre
sÃ.
3Análisis de Conglomerados (Cluster Analysis)
- En marketing esta técnica es de particular
interés porque muchas veces las firmas necesitan
clasificar consumidores de forma tal de poder
segmentar su mercado en grupos de consumidores
que sean lo más homogeneos posibles (es decir que
se comporten de forma similar). - Esta segmentación luego sirve para que las
empresas testeen nuevos productos, precios,
campañas de promoción etc.
4Análisis de Conglomerados (Cluster Analysis)
- La segmentación puede basarse en muchas
caracterÃsticas socioeconómicas, comportamiento
del comprador, psicológicas, etc. - En general, la segmentación se basa en un gran
número de variables lo que representa un problema
para quién realiza la clasificación. - El análisis de conglomerados ofrece una forma
posible de clasificación. Este análisis trata
especÃficamente de como asignar objetos a grupos
tales que dentro de los grupos exista mucha
similaridad y entre grupos mucha diferencia.
5Análisis de Conglomerados (Cluster Analysis)
- Formulación del problema Si n es el número de
observaciones en la muestra y p es el número de
variables observadas, la tabla de datos que
contiene las n p observaciones tendrá n filas y
p columnas. - Cada fila se considera como como un punto en el
espacio de p dimensiones. Las coordenadas de cada
punto se obtienen a partir de los valores de las
p variables de la observación correspondiente.
6Análisis de Conglomerados (Cluster Analysis)
- A partir de la representación de los n puntos en
el espacio, teniendo en cuenta la distancia entre
ellos, se tratará de agruparlos en conglomerados
de forma tal que, por un lado, las distancias
dentro de un mismo conglomerado sean pequeñas y,
por el otro, las distancias entre conglomerados
sean grandes.
7Análisis de Conglomerados (Cluster Analysis)
- Ejemplo supongamos que una agencia de venta de
autos quiere promocionar la venta de un nuevo
automovil deportivo. El problema que enfrenta es
seleccionar clientes potenciales similares. Para
ello recurre a sus archivos donde encuentra
información acerca de 14 clientes anteriores
sobre los cuales tiene la siguiente información
Ingreso annual (Y), edad (E), número de hijos
(H). - Además tiene información acerca de la importancia
de los siguiente atributos de un automovil
velocidad (V), seguridad (S), espacio (P), diseño
del auto (D).
8Análisis de Conglomerados (Cluster Analysis)
- Por lo tanto, cada cliente puede ser considerado
como un punto en un espacio de p7 dimensiones
(una dimensión por cada variable). - A partir de la representación de los n14 puntos,
se trata de, teniendo en cuenta la distancia
entre ellos, agruparlos en conglomerados de tal
forma que, respecto del resultado de las
variables, las personas pertenecientes a un mismo
conglomerado sean semejantes entre sà y
diferentes de las que pertenecen a otros
conglomerados.
9Análisis de Conglomerados (Cluster Analysis)
- Antes de poder agrupar a los clientes en
conglomerados, debemos definir que es lo que se
entiende por distancia entre los mismos. - Existen diferentes medidas de distancia entre
observaciones, pero la más común es la distancia
euclÃdea. - La distancia euclÃdea entre dos observaciones se
define como la raÃz cuadrada de la suma de los p
cuadrados de las diferencias entre los valores
observados de las p variables para las dos
observaciones correspondientes.
10Análisis de Conglomerados (Cluster Analysis)
- Es decir, esta distancia será positiva cuando las
dos observaciones (en nuestro caso clientes)
difieran en al menos un valor de los resultados
de las variables y será cero cuando los dos
individuos presenten los mismos resultados en las
p7 variables.
11Análisis de Conglomerados (Cluster Analysis)
- En nuestro ejemplo, consideremos los individuos k
y j. Cada una de estas personas está representada
por un punto de siete dimensiones de la forma - k Yk, Ek, Hk, Vk, Sk, Pk, Dk
- j Yj, Ej, Hj, Vj, Sj, Pj, Dj
- La distancia euclÃdea entre ellos se define como
- d(k,j) ( Yk - Yj)2 (Dk - Dj)21/2
12Análisis de Conglomerados (Cluster Analysis)
- Como puede observarse, el número de variables
implicadas en el cálculo de la distancia puede
ser grande. Si algunas de estas variables brindan
información similar, estarán relacionadas de
alguna manera, esto es, estarán correlacionadas. - Al calcular la distancia entre dos personas, la
componente debida a una variable tendrá la misma
ponderación que cada una de las restantes
variables.
13Análisis de Conglomerados (Cluster Analysis)
- Por lo tanto si, por ejemplo, tres variables
contienen la misma información, dicha información
tendrá una ponderación tres veces mayor al de
otra variable que no tenga la misma información
y, en consecuencia, en el proceso de formación de
los grupos, la primera información será más
determinante que la segunda. - Para evitar este tipo de situaciones, lo que se
hace es reducir el conjunto original de variables
a un subconjunto de variables que no esten
correlacionadas entre sÃ.
14Análisis de Conglomerados (Cluster Analysis)
- Una forma de hacer esto es simplemente calcular
la matriz de correlaciones entre las 7 variables
originales y agrupar las variables de acuerdo a
esa matriz. - Otra forma de hacer esto es partiendo de la
teorÃa. Si la teorÃa me dice que dos variables me
dan la misma información entonces pertenecen al
mismo grupo.
15Análisis de Conglomerados (Cluster Analysis)
- Supongamos que en nuestro ejemplo los tres
conjuntos de variables no correlacionadas entre
sà son - S, P, H, Y, E y V, D
- De estos tres grupos, el subconjunto de variables
elegidas es S, Y y V.
16Análisis de Conglomerados (Cluster Analysis)
- La distancia euclÃdea entre dos personas
considerando únicamente la información del
subconjunto de variables es - d(k,j) (Sk - Sj)2 (Yk - Yj)2
- (Vk - Vj)21/2
17Análisis de Conglomerados (Cluster Analysis)
- Observe que esta medida tiene el inconveniente de
que su valor depende de las unidades de medida de
las variables. - Si esto ocurre el problema que se presenta es que
si, por ejemplo, dos personas tienen iguales
medidas en dos de las variables y difieren en una
unidad en la tercera, si las variables no están
medidas en las mismas unidades esa diferencia de
una unidad puede ser una cantidad muy grande o
muy pequeña.
18Análisis de Conglomerados (Cluster Analysis)
- Para solucionar este inconveniente, lo que
hacemos en la práctica es considerar a las
variables en forma estandarizada. - Esto es, la variable original menos su media
dividida por la desviación estándar. Creamos
nuevas variables de la siguiente forma
19Análisis de Conglomerados (Cluster Analysis)
- Estas nuevas variables tendrán media cero y
varianza igual a uno. En esta nueva situación la
distancia euclÃdea entre las personas k y j es - d(k,j) (ZSk - ZSj)2 (ZYk - ZYj)2
- (ZVk -ZVj)21/2
- Una vez establecida la distancia entre las
observaciones, el siguiente paso consiste en
definir el criterio para la formación de los
conglomerados.
20Análisis de Conglomerados (Cluster Analysis)
- Existen varios métodos para la formación de los
conglomerados, a continuación se expondrán dos de
esos métodos. - El Método de las K-medias
- Este método de formación de conglomerados realiza
una partición de las observaciones en K grupos,
donde K es un número que debe ser fijado a
priori.
21Análisis de Conglomerados (Cluster Analysis)
- El procedimiento del método de las K-medias es
- Paso 1 Elegir el número de conglomerados, K.
- Paso 2 Especificar los centros de los K
conglomerados iniciales (en el caso de que sean
desconocidos estimarlos) - Paso 3 En función del centro más próximo,
agrupar a los individuos en conglomerados. - Paso 4 Calcular los nuevos centros de los
conglomerados obtenidos en el Paso 3. - Paso 5 Repetir los pasos 3 y 4 hasta que llegue
un punto en el que los centros en dos pasos
sucesivos sean iguales.
22Análisis de Conglomerados (Cluster Analysis)
- En la práctica, lo que se hace es representar
gráficamente las observaciones (cuando las
variables estandarizadas son menores a cuatro) en
función de los valores de las variables
estandarizadas y se realiza un primer
agrupamiento de acuerdo a la proximidad de las
observaciones. - Supongamos que se detectan 4 grupos diferentes,
entonces K se fija en 4. Si no fuera posible
representar gráficamente los valores, entonces K
se fija arbitrariamente.
23Análisis de Conglomerados (Cluster Analysis)
- El segundo paso consiste en determinar los
centros de estos K conglomerados. - La solución adoptada en la práctica consiste en
estimar centros iniciales temporales a partir de
los primeros K casos del archivo de datos. A
partir de estos centros y a partir de un proceso
iterativo se trata de mejorar la solución inicial
procediendo de la siguiente forma si la menor
distancia de una observación a un centro es mayor
que la menor distancia entre dicho centro y los
restantes o que la distancia entre los dos
centros más cercanos, se sustituirá la
observación por el centro más próximo.
24Análisis de Conglomerados (Cluster Analysis)
- En nuestro caso, la solución inicial corresponde
a los valores de las tres variables para las
cuatro primeras personas de la muestra.
Supongamos que los valores son - Persona ZS ZY ZV
- 1 0.5030 1.8384 0.2861
- 2 0.5030 -0.1649 -2.4870
- 3 0.5030 -1.1230 0.2861
- 4 -1.9255 -0.1649 0.5942
25Análisis de Conglomerados (Cluster Analysis)
- Teniendo en cuenta que los valores de las tres
variables están estandarizados se puede
considerar que un valor mayor a 1 (en valor
absoluto) corresponde a un valor extremo de la
variable. - Hecha esta consideración, se observa que el
primer centro (Conglomerado 1 ó Cluster 1)
corresponde a una persona con alto valor en ZY. - Análogamente, los centros dos, tres y cuatro
tienen valores bajos de ZV, ZY y ZS,
respectivamente.
26Análisis de Conglomerados (Cluster Analysis)
- A partir de esta solución inicial, se procede con
las iteraciones indicadas más arriba hasta
obtener centros finales. - Obviamente, hay programas econométricos que
realizan estas iteraciones automáticamente y nos
brindan la solución final. - Estimados los centros finales, el siguiente paso
consiste en calcular la distancia de cada
observación con cada uno de ellos.
27Análisis de Conglomerados (Cluster Analysis)
- En función de la mÃnima distancia obtenida, las
observaciones se agruparán en cuatro
conglomerados. - Cada grupo estará formado por la persona
correspondiente al centro inicial y todos
aquellos tales que la distancia a dicho centro
sea la mÃnima entre las cuatro posibles.
28Análisis de Conglomerados (Cluster Analysis)
- Agrupadas las observaciones en conglomerados, el
paso siguiente consiste en estimar centros de
cada uno de los conglomerados para proceder a la
siguiente agrupación. - El centro de un conglomerado es el vector de las
medias de las variables para el grupo de
observaciones correspondientes. Es decir, se
toman las personas pertenecientes a un
determinado conglomerado y se calcula la media de
las tres variables para esas personas. Esto se
repite para cada uno de los conglomerados.
29Análisis de Conglomerados (Cluster Analysis)
- Calculados los centros de los conglomerados, el
siguiente paso es agrupar a las observaciones con
respecto a estos nuevos centros, obteniendo una
nueva solución de conglomerados. - Para esto se calcula la distancia entre cada
observación y cada uno de los cuatro centros. En
función de la mÃnima distancia obtenida, las
observaciones se agruparán en cuatro nuevos
conglomerados. - Cada grupo estará formado por todos aquellos
clientes tales que la distancia al centro sea la
mÃnima de las cuatro posibles.
30Análisis de Conglomerados (Cluster Analysis)
- Este proceso se repite tantas veces como sea
necesario hasta que ninguno de los centros
obtenidos en una iteración se despalce respecto
al de la iteración anterior. - La solución final nos agrupará a las
observaciones en cuatro aglomerados con las
caracterÃsticas deseadas.
31Análisis de Conglomerados (Cluster Analysis)
- El Método Jerárquico de Promedio entre Grupos
- En los métodos jerárquicos aglomerativos, el
análisis comienza con tantos conglomerados como
observaciones (cada observación es un
conglomerado inicial). - A partir de esas unidades se van formando nuevos
conglomerados de forma ascendente, agrupando en
cada etapa a los individuos de los dos
conglomerados más próximos.
32Análisis de Conglomerados (Cluster Analysis)
- Al final del proceso todos los individuos
deberÃan estar agrupados en un único
conglomerado. - La diferencia entre los diversos métodos
jerárquicos reside en la distancia considerada
para medir la proximidad entre conglomerados. - En el método del Promedio entre Grupos se define
la distancia entre dos conglomerados como el
promedio de las distancias entre todos los pares
de individuos, en los que cada componente del par
pertenece a un conglomerado distinto.
33Análisis de Conglomerados (Cluster Analysis)
- La ventaja de este método radica en que el
proceso de formación de conglomerados se puede
seguir etapa por etapa. - En consecuencia, el número de conglomerados que
se desea formar se puede elegir a posteriori, en
función de la solución obtenida en cada etapa.