Title: Diapositiva 1
1DIPLOMADO DE ESPECIALIZACION DE POSTGRADO EN
ASESORIA DE TESIS
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
ESTADISTICOS
Dr. Carlos Calderón Cabada
Lima, Junio 2006
2PRUEBAS ESTADISTICAS PARAMETRICAS
3QUE ES LA PRUEBA t ?
- ES UNA PRUEBA ESTADISTICA PARA EVALUAR SI DOS
GRUPOS DIFIEREN ENTRE SI DE MANERA SIGNIFICATIVA
RESPECTO DE SUS MEDIAS.
4SIMBOLO
5SE CALCULA PARA MUESTRAS PEQUEÑAS DE DISTRIBUCION
NORMAL
6SE CALCULA PARA MUESTRAS GRANDES DE DISTRIBUCION
NORMAL
7HIPOTESIS A PROBAR
- Se trata de comparar dos grupos
- La hipótesis alternativa plantea que los grupos
difieren significativamente entre si y la
hipótesis nula propone que los grupos no
difieren significativamente entre si.
8VARIABLE INVOLUCRADA
- LA COMPARACION SE REALIZA SOBRE LA VARIABLE
INDEPENDIENTE, SI EXISTEN OTRAS SE DEBE EFECTUAR
VARIAS PRUEBAS t UNA POR CADA VARIABLE. - EL NIVEL DE MEDICION DE LAS VARIABLES ES EL DE
INTERVALO O RAZON -
9INTERPRETACION
- PARA GRUPOS PEQUEÑOS (n lt 30)
- X la media del grupo.
- µ la media poblacional
- S la Desv. Estandar
- n tamaño de muestra
10INTERPRETACION
- Para saber si el valor t es significativo, se
aplica la formula y se calculan los grados de
libertad. - La prueba t se basa en una distribución
muestral o poblacional de diferencia de medias
conocidas como la t de Student, - Esta distribución es identificada por los grados
de libertad, los cuales constituyen el numero de
maneras como los datos pueden variar libremente.
11RECOMENDACION
- Mientras mayor sea el numero de grados de
libertad la distribución t de Student se
acerca mas a ser una distribución normal. - Si los grados de libertad exceden los 120 la
Distribución Normal es utilizada como una
aproximación adecuada de la t de Student. - Calculado t y los gl (grados de libertad) SE
ELIGE el nivel de significancia y se compara el
valor obtenido con el mostrado en la Tabla
12Distribución t-Student
Para muestras pequeñas de población normal
PRUEBA t
13CALCULO DE LOS GRADOS DE LIBERTAD
- gl (N1 N2) 2
- N1 y N2 representan al tamaño de cada grupo
comparado.
14EVALUACION DE RESULTADOS
- Si nuestro valor calculado es igual o mayor que
el de la Tabla, se acepta la hipótesis
alternativa. - Pero si el valor es menor se acepta la hipótesis
nula.
USO DE LA TABLA..
15EJERCICIOS
- Tomar la Tabla t y calcular
- Media Muestral
- Media Poblacional
- a
- n
- gl. (t-1)
16DESCANSO
17HIPOTESIS A CONTRASTAR
Se definen ? Las hipótesis nula y
alternativa con una distribución de probabilidad
conocida ? Regla de decisión(nivel de
significación a) ? Valor crítico o tabulado
datos de la muestra
Se calcula una medidaasociada a la hipótesis
que se desea docimar
Se comparan los valores calculado con tabulado
se rechaza Ho?
H1
SI
NO
Se extraen conclusiones
18Utilizar prueba de Z
Si
Se conoce ?
No
Si
Utilizar prueba de Z
Es n 30?
Utilizar prueba de Z
No
Si
Si
Se conoce?
No
Se sabe q la población es normal?
Utilizar prueba de t
Utilizar prueba de Z (por el teorema central
del límite)
Si
No
Se conoce?
No
Utilizar prueba de Z (por el teorema central
del límite)
Si
Utilizar una prueba no paramétrica
Es n 30?
19 Esquema cuando se comprar la diferencia entre dos
medias o proporciones muéstrales
Se acepta la hipótesis nula si el estadístico de
la prueba cae dentro de esta región.
Se rechaza la hipótesis nula
Se rechaza la hipótesis nula
Area A área B y (AB) el nivel deseado de
significancia
Area A
Area B
Valor teórico de la diferencia
Valor critico
Valor critico
20(No Transcript)
21(No Transcript)
22Hipótesis estadística según Número de grupo y
tipo de variable
23Prueba de Correlación de Rango de SPEARMAN
24PRUEBA DE CORRELACION DE RANGO DE SPEARMAN
- El coeficiente de correlación por rango se define
como - Donde
- N de observaciones, de individuos o
fenómenos clasificados por rango. - di Diferencia en los rangos atribuida a dos
características diferentes del i-ésimo individuo
o fenómeno.
La correlación por rangos de Spearman mide la
relación entre dos variables que han sido
clasificadas por orden de menos a mayor (o de
mayor a menor)
25EJEMPLO
- Una empresa contrató a 7 técnicos en informática,
que fueron sometidos a un examen de conocimientos
básicos. Luego de un año de servicio, se calificó
su rendimiento en el trabajo. A continuación, se
muestran los resultados
Técnico Puntuación en el examen Clasificación por rendimiento
J. Manzo 82 4
M. Contreras 73 7
C. Gutarra 60 6
F. Olaechea 80 3
D. Barrientos 67 5
F. Estombelo 94 1
J. Cordova 89 2
26- Se utiliza la correlación por rangos de Spearman
para determinar, si hay relación entre las
calificaciones del examen y el rendimiento en el
trabajo
1º Se elabora la clasificación de las
puntuaciones del examen
Técnico Puntuación en el examen Clasificación por el examen (X) Clasificación por rendimiento (Y)
J. Manzo 82 3 4 -1 1
M. Contreras 73 5 7 -2 4
C. Gutarra 60 7 6 1 1
F. Olaechea 80 4 3 1 1
D. Barrientos 67 6 5 1 1
F. Estombelo 94 1 1 0 0
J. Cordova 89 2 2 0 0
272º Se calcula del coeficiente de correlación por
rangos de Spearman rs
Un coeficiente de correlación oscila entre -1 y
1 los resultados muestran una fuerte relación
positiva entre las puntuaciones de examen de cada
técnico y su rendimiento en le trabajo
28Contrastando la hipotes
H0 ?s 0, no hay relación entre las dos
variables H1 ?s ? 0, hay relación entre las dos
variables
Tabla N, con a0.10, n7 los valores críticos
serían 0.6786
Se acepta
Se Rechaza
Se Rechaza
0.05
0.05
0.857
-0.6786 Valor critico
0.6786 Valor critico
Como rs está fuera de la región de aceptación,
rechazamos la H0. Se concluye, al 90 de
confianza, existe relación entre las puntuaciones
del examen y el orden de rendimiento en el trabajo
29Intervalo de confianza para la diferencia de
medias
- b) Si las varianzas ?12 y ?22 son
desconocidas - Para muestras grandes
donde
30Cambiar de tema
31ANALISISNOPARAMETRICO
32CONSIDERACIONES
- La mayoría no de estos análisis no requiere de
presupuestos acerca de la forma de la
Distribución Poblacional. - Las Variables no necesariamente deben estar
medidas en un nivel de intervalo (orden y
categoría cero no real) o de razón ( el cero es
real) . - Pueden analizarse datos nominales (sin orden ni
categoría -Sexo) u ordinales (orden de mayor a
menor- primero, segundo). - En todo caso la variables deben ser categóricas.
- ( en días, meses, años, etc.)
33METODOS O PRUEBAS NO PARAMETRICAS MAS EMPLEADAS
- 1) LA Ji CUADRADA CHI-CUADRADA
- 2) COEFICIENTES DE CORRELACION E INDEPENDNENCIA
PARA TABULACIONES CRUZADAS. - 3) LOS COEFICIENTES DE CORRELACION PARA RANGOS
ORDENADOS DE SPERMAN Y KENDALL
34Ji - CUADRADA
- Es una prueba estadística para evaluar hipótesis
acerca de la relación entre dos variables. - Se simboliza por ?²
- Prueba hipotesis Correlacionales
- Variables involucradas dos ( no considera
relaciones causales) - Nivel de medicion de variables Nominal y Ordinal.
35Ji - CUADRADA
- La Chi Cuadrada se calcula a traves de una
Tabla de contingencia o Tabulacion cruzada, que
constituye una Tabla de dos dimensiones o matriz
de dos x dos. - Cada dimension contiene una variable.
- Cada variable se subdivide en dos o mas
categorias.
36La Prueba Ji-Cuadrado
- Supóngase que se tiene una serie de variables
aleatorias independientes con distribución normal
estándar, , entonces la
variable aleatoria ,
sigue una distribución Ji-Cuadrado.
37La Prueba Ji-Cuadrado
FUNCIÓN DE DENSIDAD MEDIA Y VARIANZA.
38Procedimientos para usar el análisis de ji
cuadrada y probar la independencia de dos
variables nominales
Hipótesis nula Las variables son independientes
Se construye o se obtiene una tabla de tabulación
cruzada para las frecuencias reales observadas
(Oij )
Suponiendo que las variables son independientes,
se construye una tabla de tabulación cruzada para
las frecuencias teóricas ( Eij)
Se determina el nivel de significado deseado en
la prueba.
Se determina el valor calculado del estadístico
ji cuadrada
39USO DE LA TABLA
Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado
Probabilidad de un valor superior Probabilidad de un valor superior Probabilidad de un valor superior Probabilidad de un valor superior Probabilidad de un valor superior
Grados de libertad 0,1 0,05 0,025 0,01 0,005
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
El área sombreada de naranja representa la
probabilidad que se
determinada por , donde
es el valor critico del margen superior de
la tabla, y son los grados de libertad del
margen izquierdo de la tabla.
40Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado Tabla 4. Distribución de ji-cuadrado
Probabilidad de un valor superior Probabilidad de un valor superior Probabilidad de un valor superior Probabilidad de un valor superior Probabilidad de un valor superior
Grados de libertad 0,1 0,05 0,025 0,01 0,005
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
Uso de la tabla Ji-Cuadrado
41EJEMPLO
Martha Revilla, directora de mantenimiento de la
calidad en MEGA, elige 29 bicicletas y halla una
varianza en la distancia entre ejes de 32.7
pulgadas cuadradas. Si la señora Revilla tienen
que garantizar que la variación no supere 27
pulgadas cuadradas indica esto que se cumplen
las normas de producción? (a0.05)
Hipótesis
- Prueba de una cola a la derecha
420.05
41.337
33.91
- Como X233.91lt41.337 la señora Revilla no
rechazará la H0 y confiará al 95 en que se
cumplen las normas de producción
43Que pasaría, si las instrucciones de la señora
Revilla fueran que la variación se mantuviera
inferior a 27 pulgadas cuadradas?
- Prueba de una cola a la izquierda
0.05
16.928
33.91
- X2 33.91, la señora Revilla no rechazará la H0 y
confiará al 95 en que se cumplen las normas de
producción
44La señora Revilla, ahora elabora un intervalo de
confianza del 90 para la varianza de la
distancia entre ejes.
0.90
0.05
0.05
16.928
41.337
0.95
- Revilla puede confiar al 90 en que la varianza
de la distancia entre ejes se encuentra entre
22.15 y 54.09 pulgadas cuadradas
45Prueba Ji-Cuadrado de Independencia
H0 Las variables X e Y son independientes H1
Existe asociación entre X e Y
Y X Categ. 1 ...... Categ. s Total
Cat. 1 O11 ...... O1s R1
......... ....... ...... ....... .....
Cat. r Or1 ...... Ors Rr
Total C1 ...... Cs n
46Prueba Ji-Cuadrado de Independencia
47Ejemplo de Prueba Ji-Cuadrado de independencia
Para verificar la suposición de que la
fabricación de cierto producto está asociado con
enfermedades respiratorias, a 450 trabajadores de
una empresa que fabrica el producto se evaluó
respecto a la presencia de síntomas de
alteraciones respiratorias y se los clasificó a
su vez de acuerdo al nivel de exposición al
producto. Los resultados se presentan en la tabla
siguiente
Presencia de Síntoma Nivel de Exposición Nivel de Exposición Nivel de Exposición Total
Presencia de Síntoma Alto Medio Bajo Total
Si 175 43 27 245
No 90 60 55 205
Total 265 103 82 450
48 H0 Las alteraciones respiratorias son
independientes de la exposición al
producto.
H1 Las alteraciones respiratorias están
asociadas a la exposición al producto
Frecuencias Esperadas
Por ejemplo
Presencia de Síntoma Nivel de Exposición Nivel de Exposición Nivel de Exposición Total
Presencia de Síntoma Alto Medio Bajo Total
Si 144.3 56.1 44.6 245
No 120.7 46.9 37.4 205
Total 265 103 82 450
49 50Que sigue una distribución Ji-cuadrado con
(n-1)(C-1)( 2-1)(3-1)2 grados de libertad
En conclusión, se rechaza la H0 (p lt 0.05), es
decir las alteraciones respiratorias están
asociadas a la exposición al producto
51Distribución F de Snedecor
- Si y son variables Ji-cuadrado
distribuidas en forma independiente con y
grados de libertad, respectivamente, la variable - sigue la distribución F con y grados de
libertad.
52Tabla F de Fisher
a0.05 con letra normal. a0.01 con letra negrita
53Ejemplo de uso de la tabla F de Fisher
54Ejemplo de Aplicación
- De dos aulas de 5ª año de secundaria se tomaron
muestras de tamaños 10 y 15 de las notas
promedios de alumnos para probar si la dispersión
de las notas es la misma para las dos aulas. Los
resultados obtenidos son los siguientes - Aula 1 15, 16, 12, 14, 14, 15, 16, 13, 14, 15.
- Aula 2 12, 14, 15, 16, 16, 17, 15, 16, 18, 14,
12, 15, 16, 14, 13.
Deseamos probar las hipótesis
55- Luego
- Si , entonces para
las cuantilas y
Luego concluimos que la dispersión de las notas
entre los alumnos para las dos aulas de 5ª año
son las mismas, pues no se encuentra diferencia
significativa.
56EJEMPLO
La compañía llantera Good Year del Perú, ha
efectuado un estudio sobre los hábitos de manejo
de varios grupos ocupacionales. En una muestra de
35 profesores universitarios, el número promedio
de kilómetros recorridos al año fue de 14,500 con
una desviación standart de 3,200 km. En una
muestra de 40 dentistas, el kilometraje fue de
13,400, con una desviación standart de 1,950 km.
Se tiene
57Primero se verificará la condición siguiente ?1
? ?2
Planteamos las Hipótesis
58Para a0.05
0.95
0.025
0.025
0.515
1.9
2.693
Se rechaza la H0, es decir que ?1 ? ?2
59Luego, se prueba la hipótesis
Diferencia de las medias muestrales
Valores críticos
Y los valores críticos son -1,220.3 y 1,220.3
60Se acepta la hipótesis nula
Se Rechaza
Se Rechaza
Área 0.025
Área 0.025
Z -1.96
Z 1.96
-1220.3 Valor critico
1220.3 Valor critico
1050 diferencia observada entre las medias
muestrales.
61Ejercicio
- Como la diferencia entre las medias muestrales
es de 1050 millas y se acepta un margen de error
de 1220 millas, en consecuencia, no hay
diferencias significativas entre los dos grupos
62EJEMPLO
Freddy Lopez, operador de la cadena de
restaurantes Las Tejas, ha hecho una encuesta
entre los clientes en dos ciudades, pues desea
averiguar si les gustaría que en el menú se
incluyeran sandwiches de jamón y queso. De las
500 personas encuestadas en la capital, 200
contestaron afirmativamente, mientras que 150 de
las 300 encuestadas en una ciudad cercana también
contestaron afirmativamente. Freddy quiere saber
si, en un nivel de 0.05 esos resultados son
significativamente diferente.
En resumen
63Primero se determinará si se cumple lo siguiente
?1 ? ?2
Se tiene
Planteamos las Hipótesis
64Para a0.05
0.95
0.025
0.025
0.8184
1.228
0.576
Se rechaza la H0, es decir que ?1 ? ?2
65Luego, se prueba la hipótesis
Diferencia de las proporciones muestrales
Valores críticos
Y los valores críticos son -0.071 y 0.071
66Se acepta la hipótesis nula
Se rechaza
Se rechaza
Área 0.025
Área 0.025
Z -1.96
Z 1.96
Diferencia observada entre las proporciones
muestrales (0.40-.050) -0.10
-0.071 Valor critico
0.071 Valor critico
67Ejercicio
- Como la diferencia entre las proporciones
muestrales es de -0.10 y se acepta un margen de
error de 0.071, en consecuencia, si hay
diferencias significativas entre los dos grupos
68FIN