Estad - PowerPoint PPT Presentation

About This Presentation

Title:

Estad

Description:

Title: Tema 0: Presentaci n del curso Author: Fco. Javier Bar n L pez Keywords: Bioestad stica, estad stica descriptiva Last modified by: Francisco Javier Bar n ... – PowerPoint PPT presentation

Number of Views:124

Avg rating:3.0/5.0

Slides: 39

Provided by: Fco60

Category:

more less

Transcript and Presenter's Notes

Title: Estad

1
Estadísticamultivariada

Programa de doctorado Calidad de vida,
Bienestar Social y Salud Pública

2
Notas previas Leyendo modelos estadísticos

Altura 170
La altura media en la población es de 170 cm
Cada individuo introduce además un término de
error aleatorio
170 5
170 3
Los términos de error tienen algún tipo de
distribución conocida
Normal,
Igualmente distribuidos en grupos
Independientes
Incorrelados temporalmente,

3
Modelos con variables dicotómicas
Código 0 Grupo de control, caso base
Código 1 Grupo de tratamiento,

Altura 160 10 Sexo
Codificación de los grupos por sexo
0 mujeres
1 hombres
Interpretación
La altura media en las mujeres es de 160 cm
La altura media en los hombres es de 170 cm
El sexo influye en la altura. El sexo hombre
tiene un efecto no nulo de 10 cm sobre la altura
media.

Promedio delcaso base
Efecto de sexo 1
160 0
160 10
4
Modelos con variables numéricas

Precio casa 100.000 10.000 Habitación
Interpretación
El precio de una casa con cero habitaciones es
100.000
Extraño!
En realidad es mejor interpretarlo como lo que
habría que añadir a una casa con un numero medio
de habitaciones para que tuviese un precio medio.
Las casas aumentan de precio en función del
número de habitaciones.
El efecto de añadir una habitación es aumentar el
precio de la casa en 10.000.

Intercepción, Intersección,
Pendiente.Aumento de valor de una casa por cada
habitación.
5
Modelos con variables dicotómicas y numéricas

Precio casa 100.000 10.000 Habitación
30.000 Barrio
Codificación del barrio
0 Bajo
1 Alto

6
y con variables cualitativas en general

Precio casa 100.000 10.000 Habitación
10.000 Barrio1 20.000 Barrio2
Codificación del barrio

Variables indicadoras, mudasNos ayudarán a
comprender mejorlos efectos, interacciones,
Barrio1 Barrio2
Bajo 0 0
Medio 1 0
Alto 0 1
Grupo de control
Tratamiento 1
Tratamiento 2
Variable cualitativa inicial
7
esperad, aún hay más

Precio casa
100.000 10.000 Habitación
10.000 Barrio1 20.000 Barrio2
6.000 Aparcamiento
Codificación del aparcamiento
0 Sin aparcamiento
1 Con aparcamiento

8
y faltan las interacciones.

Precio casa
100.000 10.000 Habitación
10.000 Barrio1 20.000 Barrio2
6.000 Aparcamiento
2.000 Aparcamiento Barrio1
4.000 Aparcamiento Barrio2

9
El modelo no debe quedarse corto ni pasarse

Un modelo muy simple no explicará bien la
variabilidad presente en los datos.
Precio 100.000
Un modelo muy complicado será difícil de
comprender.
Además podemos encontrarnos sorpresas
correlaciones entre variables explicativas (falta
de ortogonalidad), inestabilidad numérica,
Precio 100.000 10.000 Hab 30.000 Barrio
6.000 Aparcamiento

10
Complicar el modelo lo justito

Elegir modelo que explique lo observado y que sea
tan simple como sea posible.
Precio 100.000
Bondad de ajuste corregida 1. Significación
0,0001
Muy simple. No explica la variabilidad.
Compliquémoslo.
Precio 100.000 10.000 Hab.
Bondad de ajuste corregida 10. Significación
0,01
Mejor. Pero hay mucha variabilidad por explicar.
Compliquémoslo.
Precio 100.000 10.000 Hab 30.000 Barrio
Bondad de ajuste corregida 41. Significación
0,12
Tal vez no valga la pena complicarlo más.
Precio 100.000 10.000 Hab 30.000 Barrio
6.000 Aparcamiento
Bondad de ajuste corregida 40. Significación
0,15
No ha merecido la pena la complicación.

OJO! SPSS sólo enseñadirectamente
lasignificación del modelo mínimofrente al que
nosotrospropongamos. Raroserá que no
seasignificativo un modelotan simple. Un
cálculo manual nospermitirá comparar
unosmodelos con otros.
11
Dos técnicas para abordar problemas multivariados

En función del tipo de la variable respuesta
vamos a considerar dos técnicas que son casos
particulares del modelo lineal generalizado. Este
abarca buena parte de las técnicas estadísticas
que se aplican en Medicina
Modelo lineal generalizado
Respuesta numérica (Regresión lineal)
T-student en 2 muestras
ANOVA de 1 vía
ANOVA de 2 vias con/sin interaccciones
Modelos factoriales
Respuesta dicotómica (Regresión Logística)
Vivo/Muerto
Enfermo/Sano

12
Marco general

Tenemos una serie de variables explicativas,
X1,,Xp
Numéricas
Ordinales
Dicotómicas
Cualitativas codificadas en forma de múltiples
dicotómicas
Interacciones,
Tenemos una sola variable explicada (univariante)
Numérica Modelo lineal de regresión
Y b0 S bi xi
Dicotómica Regresión logística
Ln (Odds) b0 S bi xi

13
1
0
14
Un contraste de igualdad de medias (t-student)

Hipótesis nula
Es el salario medio inicial igual para hombres y
mujeres
Salario b0
Hipótesis alternativa
El Género tiene un efecto no nulo sobre el
salario
Salario b0 b1 Genero
Este problema puede formularse en términos de un
análisis de regresión
Salario b0 b1 Genero

La hipótesis nula afirma quees cero. Si signif.
pequeña la rechazamos.
Valor medio del grupo controlGENERO0 (mujer)
Efecto del tratamientoGENERO1 (hombre)
15
Se rechaza elmodelo simple
Salario promedio del grupo control (mujeres)
Se rechaza elmodelo simple
Efecto del genero 1 en el salario medio
16
Sin embargo el modelo alternativo no es bueno
Los modelos con muchos parámetros tienden a
exagerarla bondad del modelo. Corrección de
honestidad sobre la bondad. Si al introducir
variables vemos que no aumenta o que baja,
deberíamos reconsiderar la complejidad del
modelo.
Sólo un 21 de la variabilidad presente Puede ser
explicada por un modelo que contenga Al género
como variable explicativa. Debe haber más razones
para esa variabilidad
17
Y si consideramos el nivel de estudios?

Hipótesis nula
Es el salario medio inicial igual para hombres y
mujeres y para cualquier nivel de estudios
Increíblemente simple!
Salario b0
Hipótesis alternativa
El Género y los años de estudios tienen un efecto
no nulo sobre el salario
Salario b0 b1 Genero b2 Estudios

18
Por supuesto, seguimos teniendoevidencia contra
la hipótesis nula (modelo simple)Desde ahora lo
ignoramos.
La nueva variable aumenta notablemente la
variabilidad explicada.Podremos mejorarlo
introduciendo otra variable?
Aparentemente estas variables tienen algo que
decir, pero habrá variables confusoras?
19
Y si añadimos la categoría laboral?

Hipótesis nula
Es el salario medio inicial igual para hombres y
mujeres y para cualquier nivel de estudios y
categoría laboral
No me lo puedo creer!
Salario b0
Hipótesis alternativa
El Género, los años de estudios y la categoría
laboral directivo tienen un efecto no nulo sobre
el salario
Salario b0 b1 Genero b2 Estudios b3 SEGUR
b4 DIRECT

SEGUR DIRECT.
Admin 0 0
Seguridad 1 0
Directivo 0 1
20
El nuevo modelo mejora claramente al anterior
pero parece que parte del modelo no era
necesario. El término que mide el efecto de ser
empleado de seguridad no tiene un efecto muy
diferente del caso base.
21
Simplifiquemos el modelo

Hipótesis nula
Es el salario medio inicial igual para hombres y
mujeres y para cualquier nivel de estudios,
aunque sea directivo
Salario b0
Hipótesis alternativa
El Género, los años de estudios y ser directivo
tienen un efecto no nulo sobre el salario
Salario b0 b1 Genero b2 Estudios b3 SEGUR
b4 DIRECT

El modelo es más simple, pero no disminuye La
variabilidad explicada Lo preferimos así!
22
Habrá interacciones?

Hipótesis nula
Es el salario medio inicial igual para hombres y
mujeres y para cualquier nivel de estudios,
aunque sea directivo
Salario b0
Hipótesis alternativa
El género, los años de estudios y ser directivo
tienen un efecto no nulo sobre el salario, y
también tiene un premio especial ser hombre
directivo (interacción).
Salario b0 b1 Genero b2 Estudios b3
DIRECT b4 GeneroDIRECT

Coeficiente de la interacción Si positivo
sinérgias Si negativo efectos antagónicos Si
nulo No hay interacción
En SPSS podemos introducir interacciones con otro
modelo. Para seguir con el modelo de regresión
introducimos otra variable.
23
(No Transcript)
24
Sube ligeramente la variabilidad explicada. Vale
la pena considerarlael efecto de la interacción?
Tenemos evidenciaen contra de que ninguno de
los coeficientes es nulo. Deberíamos considerar
más variables? Más interacciones?
25
Marco general (recordatorio)

Tenemos una serie de variables explicativas,
X1,,Xp
Numéricas
Ordinales
Dicotómicas
Cualitativas codificadas en forma de múltiples
dicotómicas
Interacciones,
Tenemos una sola variable explicada (univariante)
Numérica Modelo lineal de regresión
Y b0 S bi xi
Dicotómica Regresión logística
Ln (Odds) b0 S bi xi

26
Regresión Logística

La variable respuesta (explicada) es dicotómica)
Vivo/Muerto
Sano/Enfermo
Claramente el modelo lineal tal cual no es
adecuado.
En epidemiología es frecuente usar modelos
multiplicativos en lugar de aditivos
Fumar multiplica por 10 las odds de enfermedad.
Usar el casco disminuye por 20 la odds de
lesión grave.

Es decir, preferimos un modelo del tipo
Odds(fumar,beber,..) Odds(base) OR(fumar)
OR(beber)

28
Fumadores Odds1/12 44/12
Factor Riesgo Fumar Odds Ratio 4
Los individuos de control Ni fuman ni
beben Odds1/12
Factor Riesgo Beber Odds Ratio 3
Bebedores Odds1/12 33/12
Fumadores bebedores Odds1/12 4 312/12
Factor Riesgo Fumar y Beber Odds Ratio 3412
29

El modelo de regresion logística es equivalente
a

Variación de oddsdebido a x2 Odds Ratio
Variación de oddsdebido a x1 Odds Ratio
Odds caso base
30
Caso simple Una variable explicativa dicotómica

X10 No está presente el factor de riesgo
X11 Sí hay factor de riesgo

Odds del caso base
Odds Ratio De X1
Odds del caso base
31

Si b1 es el coeficiente de la variable x1
Si b10 entonces OR1
No es realmente un factor de riesgo
Si b1gt0 entoces ORgt1
Aumenta el riesgo
Si b1lt0 entonces ORlt1
Disminuye el riesgo

32
Un ejemplo Condenas a pena de muerte en Florida

Variables explicativas
Raza de la víctima
1Blanco (factor de riesgo, con perdón)
Raza del acusado
1Negro (intuitivamente, factor de riesgo,
glubs!)
Variable explicada
1Condena a pena de muerte

33
Será la raza negra del acusado un factor de
riesgo?
En principio un simple estudio descriptivo parece
modtrar que no.Incluso parece que reduce el
riesgo.
34
Será la raza negra del acusado un factor de
riesgo?

Veamos que dice el modelo de regresión logística

35
Será la raza negra del acusado un factor de
riesgo?
La prueba es no significativa
El intervalo de confianza para OddsRatio
incluye al valor1 No tenemos evidenciaen contra
de que laraza no sea factorde riesgo.
El coeficiente es negativo.Más bien debe reducir
el riesgo ser Acusado de raza negra. Para
encontrar la Odds Ratio hay que mirar la columna
Exp(B)
Odds Ratio
36
Y si incluimos en el modelo la raza de la
víctima?
Aparentemente, al tener en cuenta la raza de la
víctima, parece ser que si la víctima es blanca,
la probabilidad de ser condenado a muerte es
mayor. Veamos que dice el modelo logístico.
37
(No Transcript)
38
Odds Ratios de cada factor de riesgo
Con la confianza habitual 1 no forma parte de
ningún intervalo de confianza.
Ambos coeficientes son positivos.Parecen ser
factores de riesgo.
Significativos

Write a Comment

User Comments (0)