Title: AN
1ANÁLISIS EXPLORATORIO DE DATOS
2Análisis Exploratorio de Datos
- La exploración de los datos puede ayudar a
determinar si las técnicas estadísticas que
estamos considerando utilizar en el análisis son
apropiadas. El procedimiento EXPLORAR de SPSS
proporciona una variedad de resúmenes númericos y
visuales de los datos, tanto para todos los datos
en su conjunto, como para grupos de casos
separadamente. La variable dependiente debe
estar medida en una escala cuantitativa,
mienstras que las variables de grupo pueden ser
ordinales o nominales. - Con el procedimiento EXPLORAR de SPSS podemos
- Escrutar los datos
- Identificar casos atípicos (outliers)
- Revisar los supuestos
- Caracterizar las diferencias entre grupos de casos
3Análisis Exploratorio de Datos
- Queremos explorar la variable gasto por turista y
día, para el conjunto de la muestra, cumple los
supuestos exigidos para la mayoría de las
técnicas estadísticas, así como, para cada uno de
los grupos de turistas definidos según sexo. - Haremos uso de la base de datos Base Turistas.sav
que se encuentra en la carpeta \\Escritorio\Asigna
turas\Empresariales\Métodos\ de nuestro PC. - El fichero recoge la información referida a una
muestra de 797 turistas entrevistados al término
de sus vacaciones en Tenerife.
4Análisis Exploratorio de Datos
- Para empezar el análisis, de la barra de menús
elegimos - Analizar
- Estadísticos Descriptivos
- Explorar
5Análisis Exploratorio de Datos
- Elegimos como variable dependiente el gasto por
turista y día, y como factor la variable sexo. - Elegimos los estadísticos descriptivos,
intervalo de confianza para la media al 95,
estimadores robustos centrales, valores atípicos
y percentiles. - Elegimos los gráficos diagrama de cajas, tallos
y hojas, histograma, y gráficos con prueba de
normalidad - Estimación de la potencia
- Elegimos que nos muestre los valores perdidos.
6Resultados del AED
- La tabla de resumen del procesamiento de los
casos muestra tres secciones la primera recoge
el número de casos válidos según sexo, la segunda
muestra el número de casos perdidos según sexo, y
por último, el número total de casos, también
según sexo.
7Resultados del AED
8Resultados del AED
9Resultados del AED
- Los estimadores-M son medidas robustas de
tendencia central que se pueden usar como
alternativas a la media y la mediana.
10Resultados del AED
- Los percentiles indican el porcentaje de casos
que están por debajo de los valores mostrados.
11Resultados del AED
- La tabla de valores extremos muestra los casos
con los 5 valores mayores y menores.
12Resultados del AED
- El estadístico de Kolmogorov-Smirnov contrasta la
hipótesis de que los datos se distribuyen
normalmente.
13Resultados del AED
- El estadístico de Levene contrasta la hipótesis
de igualdad de varianzas de la variable
dependiente para los grupos definidos por la
variable factor categórica.
14Resultados del AED
15Resultados del AED
16Resultados del AED
LNgtd Stem-and-Leaf Plot for Sexo masculino
Frequency Stem Leaf 3,00 Extremes
(lt1,5) 2,00 1 . 11,00
2 . 1333 13,00 2 . 7899 46,00
3 . 000000001222334444444 63,00
3 . 555555666666777777788889999999 73,00
4 . 00001122222222222333333344444444444
75,00 4 . 55555566666666666667778888888888
9999 52,00 5 . 00011111112222233333333
4 8,00 5 . 557 4,00 6 .
2 1,00 6 . Stem width
1,00 Each leaf 2 case(s) denotes
fractional leaves.
GAsto por turista y día Stem-and-Leaf Plot
for Sexo femenino Frequency Stem Leaf
32,00 0 . 000011111111111 61,00
0 . 222222222222222333333333333333 59,00
0 . 44444444444444444444555555555
31,00 0 . 666666666777777 34,00
0 . 8888888888999999 30,00 1 .
00000000001111 23,00 1 .
22222222222 13,00 1 . 444445
22,00 1 . 6667777777 15,00 1 .
8888889 12,00 2 . 01111 2,00
2 . 3 12,00 2 . 445555 ,00
2 . 1,00 2 . 13,00
Extremes (gt292) Stem width 100,00 Each
leaf 2 case(s)
17Resultados del AED
18Resultados del AED
19Resultados del AED
- El diagrama de cajas nos permite comparar cada
grupo utilizando cinco valores resumen la
mediana, los percentiles 25 y 75, y los valores
mínimo y máximo que no son estadísticamente
atípicos. Los valores atípicos y extremos se les
da una atención especial. - La línea negra que está dentro de la caja marca
el percentil 50 o mediana dicha distribución.
Nótese que las medianas varían muy poco entre
grupos de turistas según su sexo. - Los bordes de las cajas marcan los percentiles 25
y 75 de cada distribución. - Los bigotes que aparecen por encima y por debajo
de cada caja, señalan los valores mínimo y máximo
no considerados estadísticamente atípicos. - Los valores atípicos se representan con un
círculo y los extremos con un asterisco.