Title: Correlaci
1Correlación y Regresión Lineal Simple Modelo
lineal
- Relación entre variables cuantitativas
- Variable dependiente e independiente
- Coeficiente de correlación significativo.
- Buen coeficiente de correlación(rgt0,7)
- Coeficiente de determinación porcentaje de la
varianza que explica el modelo.
2Correlación y Regresión Lineal Simple Ejemplo
Calidad de vida y nivel de integración social
CV 0.7813 0.7637 IS
- La IS esta significativamente relacionada con la
CV - Por cada unidad adicional en la escala de IS, la
CV aumenta en 0,76 unidades. - La IS explica el 55 de la varianza de la CV. El
ajuste es aceptable, pero hay otros factores
determinantes de la CV que no se han considerado.
3Correlación y Regresión Lineal Simple Validación
del modelo
Siempre hay una diferencia entre el valor real de
la variable respuesta y la estimación a partir de
la ecuación de regresión el residuo
Validación
- Los resultados de la regresión sólo son fiables
si el modelo cumple ciertas hipótesis sobre los
residuos - Es preciso realizar una validación del modelo
4- Introducción a las Técnicas Multivariantes
- Regresión Lineal Múltiple
- Regresión Logística
- Kaplan-Meier y Regresión de Cox
5Técnicas Multivariantes
- Muchas variables pueden explicar mas ? ? ? ?
? ? (multivariante)
- BIVARIANTE vs MULTIVARIANTE
RLM RLOG RCOX
Continua Dicotómica Tiempo hasta B
OR HR
- Variable dependiente
- Qué índice explica
- Qué hago con los que no están
- MODELO PREDICTIVO (rentabilidad)
R2 Clasificación -2LL
6Regresión Lineal Múltiple Variables
Variables implicadas
Respuesta
Explicativa (MÚLTIPLES)
Cuantitativa
Cuantitativas o dicotómicas
- Tensión arterial
- Concentración sérica
- Tamaño de una lesión
- Porcentaje de absorción
- Calidad de vida
- Satisfacción del paciente
- Nivel de colesterol
- Peso en kgs.
- Edad
- Dosis de un fármaco (mg)
- Nivel de ansiedad
- Sexo
Ejemplos
7Regresión Lineal Múltiple Modelo
Variables implicadas una variable respuesta y
varias explicativas.
Cómo se expresa la relación entre las
variables? varresp a b1 varexpl_1 b2
varexpl_2 ... bp varexpl_p
pendiente 1
ordenada
pendiente p
aumento de la var. Resp. cuando la var. exp_1
aumenta una unidad
valor de la var. Resp. para un valor nulo de las
var. exp
aumento de la var. resp cuando la var. exp_p
aumenta una unidad
8Regresión Lineal Múltiple Calidad del modelo
- Calidad del modelo
- Para determinar hasta que punto las variables
explicativas permiten estimar a la variable
respuesta seguimos usando el R2 (COEFICIENTE DE
DETERMINACIÓNVARIANZA EXPLICADA). - Cuanto más cercano a 1 más adecuado es el modelo
- Cuanto más cercano a 0 peor resulta el modelo. Es
decir, las variables explicativas no se ajustan
linealmente a la variable respuesta. - R2 aumenta con muchas VI y en muestras pequeñas
? R2 ajustado
Un R2 bajo no necesariamente indica que las
variables seleccionadas no permiten estimar
adecuadamente la variable respuesta. Es posible
que la relación no sea lineal.
9Regresión Lineal MúltipleContrastes
- Contrastes de hipótesis
- Se puede contrastar si cada pendiente
individualmente es significativa o no, es decir,
si cada variable explicativa influye realmente
sobre la variable respuesta (t) - Se puede contrastar si globalmente todas las
variables explicativas influyen sobre la variable
respuesta (F).
- Las siguientes paradojas pueden darse,
- Individualmente una variable explicativa puede
estar significativamente relacionada con la
variable respuesta, pero no ser un predictor
significativo en el modelo de regresión lineal
múltiple - Una variable individualmente puede NO estar
significativamente relacionada con la variable
respuesta, pero en un modelo de regresión lineal
múltiple SÍ lo está
10Regresión Lineal MúltipleValidación
- Validación del modelo
- Los residuos del modelo debe seguir cumpliendo
ciertas hipótesis básicas - Media cero
- Incorrelación
- Normalidad
Para poder interpretar adecuadamente los
coeficientes estimados y hacer uso de la recta de
regresión es imprescindible que el modelo sea
válido.
11Regresión Lineal Múltiple Ejemplo Calidad de
Vida en pacientes de Alzheimer
Con los datos correspondientes a 40 sujetos que
sufren Alzheimer, intentaremos explicar la
Calidad de Vida de este tipo de pacientes a
partir de otras variables
- POSIBLES PREDICTORES
- 1. MEMORIA (0-10)
- 2. CAPACIDAD MOTORA (0-10)
- 3. INGRESOS ECONÓMICOS
- 4. INTEGRACIÓN SOCIAL (0-10)
12Regresión Lineal MúltipleEjemplo Descriptiva y
correlaciones
- La matriz de correlaciones permite identificar
qué variables explicativas están relacionadas con
la CALIDAD DE VIDA - Para medir el efecto de cada variable sobre la
CALIDAD DE VIDA se usará una Regresión Lineal
Múltiple.
13Regresión Lineal MúltipleEjemplo Modelo inicial
- Globalmente, el modelo es estadísticamente
significativo, no nulo. - La MEMORIA y la INTEGRACIÓN SOCIAL son
individualmente significativos. No así, la
Capacidad Motora ni los Ingresos. - Los predictores consiguen explicar de forma
conjunta el 68.44 de la CALIDAD DE VIDA. - Siguiente paso Selección de variables hacia
delante, con el objetivo de depurar y
reespecificar el modelo.
14Regresión Lineal MúltipleEjemplo Modelo óptimo
- El modelo va incorporando variables paso a paso
- En el paso 1, la variable INTEGRACIÓN SOCIAL
entra en el modelo, porque es la que más explica
la CALIDAD DE VIDA. - En el paso 2, se incorpora la MEMORIA.
- Las restantes variables no aportan capacidad
explicativa al modelo, por lo que se quedan
fuera. - En cada paso podemos saber cuánto somos capaces
de explicar de la CALIDAD DE VIDA.
15Regresión Lineal Múltiple Ejemplo Coeficientes
definitivos e IC
- INTEGRACIÓN SOCIAL aunque su efecto se ha
estimado puntualmente como 0,64, éste puede
oscilar entre 0,43 y 0,84. - MEMORIA aunque su efecto se ha estimado
puntualmente como 0,36, éste puede oscilar entre
0,16 y 0,56.
16Regresión Logística Esquema y objetivos
Variables implicadas
Modelizar la probabilidad de aparición de una
enfermedad o patología, por el nivel de diversos
factores o características de los pacientes.
Respuesta
Explicativas
Dicotómica
Cuantitativa o Dicótómica
- Hipertensión (si/no)
- Diabetes (si/no)
- Ictus (si/no)
- Suceso (si/no)
- Colesterol
- Tabaquismo
- Edad
- Zona de residencia (dicotomizada)
Obtener una función logística que permita
clasificar a los individuos en uno de los dos
grupos de la variable repuesta.
Ejemplos
LA DIFERENCIA !!! La variable respuesta es
dicotómica. Se modeliza la probabilidad de
ocurrencia de la variable respuesta.
17Regresión LogísticaPreguntas y objetivos
Posibles preguntas se pretende analizar si
padecer una enfermedad o patología, está influido
por uno o más factores (variables independientes).
Ejemplo Si la aparición de ECV se encuentra
relacionada con los factores edad, ser fumador,
hábitos de vida, alcohol, dieta, etc.
- Se obtiene probabilidad de padecer ECV para un
determinado sujeto con unas determinadas
características - Se cuantifica el riesgo (OR) de cada factor
Indica que el efecto combinado de varios factores
de riesgo sobre el riesgo individual de padecer
la enfermedad es mínimo para valores pequeños del
factor, para aumentar rápidamente a partir de un
determinado umbral.
ECV Enfermedad Cardio Vascular
18Regresión LogísticaForma funcional
1
Bivariante
Prob (Enf./A)
-(b0 b1A)
1e
1
Multivariante
Prob (Enf./A1, A2, A3)
-(b0 b1a1b2A2b3A3)
1e
19Regresión LogísticaLinealización
Las probabilidades están limitadas entre 0 y 1 y
se transforman a escala de valores de B y a esto
se le llama transformación logística
Se encuentra directamente relacionada con el
concepto de la razón de Odds de la enfermedad
NO DA EL VALOR DIRECTO DE LA RESPUESTA SINO QUE
ESTIMA LA p(Enf)
20Regresión Logística Interpretación de b1
Con el coeficiente b1 del modelo se puede
calcular el OR para esa variable exposición y nos
indica que al pasar de un subgrupo a otro de
dicha variable, la probabilidad de enfermedad
se multiplica en OR veces.
21Regresión Logística Calidad del modelo y
contrastes
- Contrastes de hipótesis
- Se trata de obtener una combinación lineal que
permita estimar las probabilidades de pertenecer
a cada uno de los dos grupos establecidos por los
valores de la variable dependiente.
- Efectividad del modelo
- Tabla de clasificación 2x2 da el porcentaje de
casos correctamente clasificados sobre la muestra
existente. - Cuanto mayor sea el porcentaje de aciertos, más
efectivo es el modelo.
22Regresión Logística Modelo múltiple
- El modelo múltiple incluye más variables
independientes (dicotómicas, ordinales). - Los OR hacen referencia a cada variable
independiente incluida en el modelo pero AJUSTADO
por el resto de las mismas.
NO DA EL VALOR DIRECTO DE LA RESPUESTA SINO QUE
ESTIMA LA p(Enf)
23Regresión Logística Interpretación de Resultados
B b0 b1A1 b2A2
Conclusiones
- La/s explicativa/s influye/n sobre la respuesta.
- Su interpretación se realiza mediante OReb.
- Cátegórica una variable 0/1 nos indica que para
la presencia del factor (1), este es el valor que
toma B.
- Estimación
- Contraste de hipótesis son significativos?
- En concreto, es b1 ó b2 significativamente no
nulos?
- Odds Ratio (OR)
- Mayor de 1 factor de riesgo.
- Menor de 1 factor de protección.
24Regresión Logística Ejemplo
Muestra 70 pacientes víctimas de accidentes de
tráfico con daño cerebral. Se desea saber si
variables como el tipo de lesión, la atención, el
apoyo familiar, o la edad del sujeto influyen en
la rehabilitación total del paciente.
- Variable respuesta dicotómica
- REHABILITACIÓN (RHB)
- 0 (NO SE REHABILITA)
- 1 (SE REHABILITA)
- Variables explicativas dicotómicas
- APOYO
- 0 (SIN APOYO FAMILIAR)
- 1 (CON APOYO FAMILIAR)
- LESIÓN
- 0 (DIFUSA)
- 1 (FOCALIZADA)
- ATENCIÓN
- 0 (NO INMEDIATA)
- 1 (INMEDIATA)
- Variable explicativa cuantitativa
- EDAD
25Regresión LogísticaEjemplo. Modelo inicial
completo
Paso 1 Se analizan inicialmente todos los
factores
- Opciones
- Código de Ocurrencia1
- Incluir término Cte.
- Modelo significativo
- El modelo muestra variables significativas con
respecto a la dependiente y otras que no lo son. - Repetimos el análisis sólo con las significativas.
26Regresión LogísticaEjemplo. Modelo final y
Resultados
Paso 2 Repetimos el análisis sólo con las
significativas.
Interpretación OR el hecho de presentar lesiones
focalizadas (no difusas) produce que la
probabilidad de rehabilitación sea 5,87 veces
mayor.