Title: Master Intervenci
1Master Intervención Psicosocial
2Análisis de la regresión
3Modelos de análisis estadístico
-
- I. Conceptos básicos.
- II. Regresión múltiple
-
4Parte I. Conceptos básicos
5Análisis estadístico
- En un sentido amplio, se refiere a todos los
métodos que describen las relaciones que se dan
entre diversas variables o dimensiones de
variación.
6Modelos de análisis estadístico y diseño de
estudio
7Conceptos básicos
- Datos observaciones realizadas de los individuos
o grupos de individuos - Escalas de medida no métricas (nominales y
ordinales) y métricas (intervalos y de razón) - Diseños estrategias de recogida de datos
- Estrategia del diseño transversal o longitudinal
- Modelos de análisis sistemas o ecuaciones que
permiten inferir el tipo de relación entre los
datos - Clases de relaciones asociativas y causales
8A propósito de los datos (1)
9Elaboración de datos
- Observación Escala
Dato científico - directa de medida
o valor
numérico - La conversión de una observación directa en
- un dato científico se realiza mediante la
- aplicación de una adecuada escala de medida.
10Reunión de datos
- Sistemas de reunión de datos
- Tablas
- Gráficos
11Tablas
- Las tablas se usan en los informes
científicos para resumir los datos u otra
información que no puede ser presentada de forma
conveniente en la narrativa del texto.
12Acerca de las tablas
- Las tablas deben tener un título que informe
claramente sobre su contenido como por ejemplo
preferencias del partido político. Las tablas
estadísticas deberían informar también sobre el
número de observaciones que se incluyen
(frecuencia). La parte superior de la columna del
lado izquierdo de la tabla es referida como
título de filas e informa sobre el contenido de
las fila. El cuerpo de la tabla contiene los
datos de interés. En el ejemplo propuesto se
muestra el número de individuos que prefieren un
partido político. ..//..
13- Las tablas que se refieren a una sola variable
son conocidas por representaciones univariadas y
las que informan sobre dos variables,
representaciones bivariadas. En la
representaciones bivariadas una variables está
asociada a las filas y la otra a las columnas y
se conocen, también, por tablas de contingencia.
Ejemplo de tabla bivariada que relaciona
preferencia de un partido político y afiliación
religiosa (en paréntesis están los porcentajes).
14Ejemplos (tablas)
15Ejemplos (tablas)
16Gráficos
- Con los gráficos se consigue una representación
visual de los datos, por lo que es un
procedimiento útil a la investigación. Los
gráficos captan mejor la atención del lector,
permite clarificar los resultados y facilitar su
interpretación
17Histograma de frecuencias o gráfico de barras
- El histograma de frecuencias es un gráfico
que muestra la distribución de frecuencias de una
variable de intervalo. El eje horizontal del
histograma o gráfico de barras presenta los
intervalos y el eje vertical la cantidad de
puntuaciones de cada intervalo (frecuencia). La
altura de la barra indica la frecuencia de casos
de cada categoría. El gráfico siguiente muestra
la cantidad de amigos reportados por estudiantes
de un College americano.
..//..
18Cantidad de amigos reportados por estudiantes de
un College
19- En el segundo ejemplo, se muestra un gráfico de
barras sobre el efecto de dos drogas
antiansiolíticas. Se trata de una escala nominal
y la diferencia entre el primer y segundo panel
estriba en la forma de representar las unidades
en el eje vertical (unidades pequeñas en el
primer panel y punto cero y unidades grandes en
el segundo). Nótese que la gran diferencia entre
las dos drogas que se observa en el primer panel
y que desaparece en la segunda representación.
20Efectos de dos psicofármacos sobre la ansiedad
21Polígono de frecuencias
- Es una forma alternativa de representa el
histograma de frecuencias. Así, en lugar de
barras se utilizan líneas que conectan las
frecuencias de los intervalos de clase. En el
ejemplo siguiente se muestra la misma información
sobre la cantidad de amigos, pero utilizando el
sistema de líneas y no de barras. De igual modo,
se tiene el gráfico de la cantidad de divorcios
al aprobarse correspondiente ley en el Estado de
Nebraska.
22Cantidad de amigos reportados por estudiantes de
un College
23Cantidad de divorcios antes y después de su
promulgación en el Estado de Nebraska
24Escalas de medida y datos (2)
25Cuantificación de las variables
- Las variables se cuantifican al asignar valores
numéricos a los atributos o características de
los individuos, objetos y hechos de acuerdo a
reglas. - El proceso de asignación de los números de
acuerdo a reglas se denomina medida.
26Escalas de medida
- Las reglas particulares de asignación de números
a las variables se definen como escalas de
medida. - Clasificación
- Nominal
- Ordinal
débiles - Escalas
- De intervalo
- De razón
fuertes
27Escalas de medida
- Nominal 1 varón 2
hembra -
- Ordinal
- 1
2 3 -
-
-
- De intervalo
- 15 16 17
18 19 20 21 22 23
- De razón
- 0 1 2
3 4 5 6 7 8
-
28Ejemplos de escalas
- Nominal los valores sólo representan
categorías o nombres (género, raza, religión,
etc.) - Ordinal los valores representan el orden
en función del grado como actitud, preferencia,
etc. - De intervalo la distancia entre los
valores se mantiene constante como la
temperatura, respuestas correctas, etc. - De razón cuando además de la constancia
del intervalo hay un valor cero que coincide con
la ausencia del atributo.
29Escalas y naturaleza de los datos
- Escala Tipo
Dato - Nominal Cualitativa
No-paramétrico - Ordinal Cuantitativa
No-paramétrico - De intervalo Cuantitativa discreta
Paramétrico - De razón Cuantitativa continua
Paramétrico
30Naturaleza de los datos y prueba estadística
- Datos de escala Prueba estadística
-
- Nominal Prueba
- Ordinal no paramétrica
- De intervalo Prueba no
paramétrica y - De razón paramétrica
31Variable dependiente
- Datos métricos o gaussianos
- Datos no métricos o no gaussianos
32En torno a los diseños (3)
33Concepto de diseño
- El diseño es una estrategia particular de
recogida de datos y es función de los objetivos o
hipótesis propuestos. - Los diseños son transversales y longitudinales,
según la no presencia o presencia de la dimensión
temporal en el estudio.
34A modo de resumen
- Cuál es la relación entre diseño (estudio)
matriz de datos y modelo de análisis? - Cuál es la estructura de cualquier investigación
científica?
35Estructura de la investigación en ciencias
sociales
- Diseño Datos
Modelo análisis - Problema
Estadístico
-
- Hipótesis
Estimación - Variables
Inferencia - Modelo de escala
36A modo de resumen
- Se ha visto la secuencia entre las tres fases o
momentos de una investigación diseño, datos y
análisis. - Es importante conocer la estructura del diseño,
así como los distintos procedimientos o tipos de
investigación
37Estructura del diseño (4)
38Tipología del diseño de investigación
- Diseños observacionales
- Diseños correlaciones o predictivos (estudios de
encuesta) - Diseños cuasi-experimentales
- Diseños experimentales
39Naturaleza de los datos (variable dependiente)
- Datos métricos o cuantitativos (de distribución
gaussiana o normal) - Datos no métricos o categóricos (de distribución
no-gaussiana)
40Estrategia del diseño y modelo de
análisisDiseños experimentales y
cuasi-experimentales
41-
Diseño - Datos cuantitativos Estrategia
Datos cualitativos - ANOVA Transversal
Longitudinal TC - Grupos
Medidas - AR paralelos
repetidas Modelo log-lineal - Factorial
Cross-over - MANOVA
Regresión - Medidas
Antes-después logística - repetidas
-
Cohortes - Factorial
- mixto
Split-plot
42Diseños no experimentales
- En el contexto no experimental (experimento
verdadero y cuasi-experimentales) los diseños
suelen ser observacionales y correlacionales.Los
diseños correlacionales se basan en el análisis
de múltiples variables con el propósito de
estimar la magnitud de cambio entre ellas.
43Sigue
- El objetivo es poder predecir la variable
dependiente a partir de la o las variables
predictoras o independientes. También se pretende
explicar la proporción de variación de la
variable dependiente por la o las variables
independientes.
44Modelos de análisis estadísticos (5)
45Cuestión!
- Una vez recogidos los datos, qué hacer con
ellos? - A esta cuestión cabe responder lo siguiente los
datos se analizan de acuerdo con modelos
estadísticos adecuados a fin de derivar
consecuencias teóricamente interpretables es
decir, se obtienen resultados que han de ser
interpretados.
46El modelo lineal general
47Modelo estadístico general
- Y f(X) g(E)
- V.Dep. Parte fija Parte aleatoria
48Concepto
- El modelo estadístico, o ecuación de carácter
lineal, asume que una observación Y es el
resultado de la combinación aditiva de alguna
función f de variables fijas y de alguna función
g de componentes aleatorios, y que tanto f como g
pueden tomar parámetros conocidos o desconocidos.
..//..
49continuación
- Considerada esta ecuación como un modelo
estadístico general, se tiene que cualquier
observación es la suma de dos partes o
componentes una parte fija o determinista, f(X),
y una parte aleatoria desconocida, g(E).
50Clases de relaciones entre variables o hipótesis
(6)
51Clases de hipótesis
- Asociativa
- Hipótesis
- Causal
52Hipótesis asociativa
- X Y
-
- Los valores de la variable X covarían con los
valores de la variable Y
53Ejemplos (hipótesis asociativas)
- a) Hay una correlación entre el estilo de
dirección y la moral de los empleados - b) La visualización de los dibujos animados
está asociado con el comportamiento agresivo de
los niños. - c) La percepción de culpabilidad o inocencia de
los acusados está asociada a los argumentos
legales.
..//..
54- d) El consumo de heroína es función de la
clase social. - e) El consumo de tabaco está positivamente
relacionado con el nivel de alerta en sujetos
humanos. - g) Los niños sensibles al ritmo progresan más
en el aprendizaje de lectura.
55Hipótesis causal
- X Y
- Los valores de la variable X determinan los
valores de la variable Y
56Ejemplos (hipótesis causales)
- a) Leer dos veces una lista de ítems favorece
su recuerdo. - b) La intensidad de un estímulo determina una
respuesta de discriminación más rápida. - c) A mayor incentivo más rápido es el
aprendizaje de una actividad académica. -
..//..
57- d) El castigo genera respuesta de evitación.
- e) La frustración es causa de conductas
agresivas. - f) El nivel de alerta aumenta la efectividad
del rendimiento escolar. - g) El ejercicio aumenta el rendimiento en
una actividad motora.
58Contextos de las hipótesis
- Hipótesis
Contexto -
científico -
- asociativas
correlacional -
- causales de
manipulación
59Universo de las hipótesis
- Hipótesis de investigación
- Hipótesis estadística
60Hipótesis de investigación
- Se plantean por intereses teóricos o sustantivos
- Definen cómo se relacionan las variables
- Suelen ser asociativas y causales
61Hipótesis estadísticas
- Las hipótesis estadísticas se establecen mediante
características de las poblaciones de origen. Las
poblaciones de origen están definidas por
parámetros, que son valores de la distribución
fijos pero desconocidos. Los parámetros
poblacionales se asemejan a los estadísticos de
muestra y se estiman a partir de estos últimos.
62continuación
- Mediante los datos de muestra podemos aceptar o
rechazar, con cierto grado de confianza
determinado numéricamente, una hipótesis hecha
sobre una población determinada. Tal proceso se
conoce como contraste de hipótesis estadísticas o
prueba de significación estadística.
63Prueba de hipótesis estadística
- En investigación social, interesa más los
parámetros asociados a la parte fija del modelo
estadístico porque representan la magnitud de un
cambio (grado de asociación entre las variables)
o el efecto causal (el impacto de una variable
sobre otra). De ahí, el propósito de cualquier
prueba de hipótesis es determinar el nivel de
significación de estos parámetros.
64Hipótesis estadística sobre un parámetro
individual
65O bien, sobre los parámetros del modelo
- En el modelo de la regresión múltiple, se asume
que los distintos coeficientes (pendientes) son
cero - H0 b1 b2 ?p 0
66en consecuencia,
- Si se demuestra, como resultado de la prueba, que
- H0 bi 0, entonces no hay relación lineal
entre la variable Xi e Y. - En caso contrario, se tiene
- H1 bi ? 0, se infiere que hay una relación
lineal entre ambas v ariables.
67Hipótesis nula H0
- En teoría estadística se asume, inicialmente, la
no significación de los parámetros, siendo este
supuesto la hipótesis que se somete a prueba y es
conocida por hipótesis nula (H0). Si se demuestra
que este supuesto no es aceptable, se recurre a
la hipótesis alternativa (H1) como la explicación
más plausible de los datos.
68Prueba de la hipótesis estadística o prueba de
significación
- La prueba de significación estadística contrasta
la hipótesis de nulidad con los datos del
estudio. A partir del resultado de la prueba de
significación, se procede a la toma de decisiones
estadísticas. El resultado de la prueba consiste,
de forma sucinta, en la aceptación o no de la
hipótesis de nulidad que asume la no-relación
entre la variable independiente (predictora) y la
variable dependiente (criterio).
..//..
69- Cabe matizar, no obstante, que entre la variable
independiente y dependiente pueden darse
relaciones de asociación o de causalidad, de modo
que la posible implicación de una variable sobre
otra depende del diseño utilizado (correlacional
o experimental). La relación de asociación es la
magnitud de cambio que se da entre dos variables,
mientras que la relación de causalidad es el
tamaño del impacto de una variable sobre otra.
70Inferencia de la hipótesis de nulidad
- La inferencia de la hipótesis nulidad nos lleva a
aceptar que la variable independiente no está
relacionada con la dependiente (inferir su
efecto). En caso contrario, se toma la decisión
en favor de un modelo alternativo asumiendo, como
explicación más plausible (no exenta de riesgo),
el modelo de una relación efectiva entre ambas
variables. ..//..
71- Al tomar esta decisión, se corre el riesgo de que
sea falsa. Este riesgo se define, en teoría
estadística, en términos de probabilidad y es
conocido por nivel de significación. El nivel de
significación describe el grado de credibilidad
que merece la hipótesis considerada.
72Errores en el rechazo o aceptación de H0
- Situación actual de la H0
- Decisión Verdadera
Falsa - Rechazo H0 Error Tipo I No
error - Aceptación H0 No error
Error Tipo II -
73Error Tipo I y error Tipo II
- A) Error Tipo I o decisión positiva falsa se
comete al rechazar la hipótesis de nulidad cuando
es verdadera es decir, cuando se toma una
decisión positiva, en favor de la existencia de
un efecto cuando en realidad no existe (falsa
alarma). - La probabilidad de cometer este error es el
nivel de significación o valor a de la prueba
estadística. ..//..
74- B) Error Tipo II o decisión negativa falsa se
comete cuando la prueba lleva a la aceptación de
una hipótesis de nulidad falsa. Se trata de no
aceptar el hecho de un efecto de la variable
independiente cuando en realidad ocurre. El error
de Tipo II se define por la probabilidad ß y está
asociado inversamente con la probabilidad a y
directamente con la potencia de la prueba.
75Decisión estadística y error
- Resultado Probabilidad
Decisión - de la prueba de azar
- estadística a 0.05
-
- Significativo p lt a
NA(H0) - H0
- No significativo p gt a
A(H0)
76Inferencia de H0
- Probabilidad 1 Región de
- de azar
decisión - Si p gt 0.05 A(H0)
- a
0.05 - Si p lt 0.05 NA(H0)
- 0
77Sobre la discusión de los resultados
78Concepto
- Las actividades propias de la discusión de los
resultados son las siguientes - a) Inferir a partir de la prueba estadística las
consecuencias de carácter teórico. - b) Interpretar estas consecuencias a la luz de
las hipótesis formuladas - c) Establecer el alcance de los resultados
mediante la generalización de los mismos
79Inferencia teórica de la hipótesis
- Supongamos que la prueba de la hipótesis
estadística nos lleva a no aceptar la hipótesis
de nulidad. En este caso, se suele inferir, como
la más adecuada, la hipótesis alternativa que
coincide con la hipótesis de trabajo o
investigación. Está claro que esta inferencia
está sujeta a un riesgo de error (definido en
términos de probabilidad).
80Interpretación de los resultados
- Las actividades propias de la interpretación de
los resultados son - a) Examinar y explicar los datos por la
hipótesis de investigación. - b) Extraer los contenidos científicamente
significativos. - c) Interpretar los resultados en términos de
hipótesis alternativas o rivales.
81Generalización de los resultados
- En la generalización se evalúa el alcance de los
resultados, es decir, para qué poblaciones son
vigentes los supuestos teóricos probados. La
generalización de los resultados suele
realizarse, por lo común, con la población de
sujetos.
82Parte II. Modelos de la regresión múltiple y otros
83Regresión múltiple
Modelos de la Regresión múltiple
No Lineal
Lineal
Lineal
V. Dummy
Interac.
Polinó-mica.
Raíz Cuadrada
Log-lineal
Recípro-ca
Expo-nencial
84Modelo lineal de la regresión múltiple
- El modelo lineal de la regresión es un caso
especial Modelo Lineal General. De este modo, el
componente determinista (parte fija del modelo)
está formado por un conjunto de variables objeto
de estudio en la investigación (predictores) y el
componente aleatorio por un término de error
(falta de ajuste).
..//..
85- El análisis de la regresión múltiple es utilizado
cuando se pretende predecir una variable
dependiente continua de un conjunto de variables
independientes (predictores). Cuando la variable
dependiente es dicotómica, se aplica, en este
caso, la regresión logística . - Las variables independientes usadas en la
regresión pueden ser cuantitativas o cualitativas
(dummy). ..//..
86- Por lo general, el análisis de la regresión
múltiple utiliza variables que son propias de los
contextos naturales, en oposición a variables que
son manipuladas experimentalmente, aunque es
posible utilizar la regresión con esta clase de
variables.
..//..
87- Cabe tener en cuenta, por último, que con el
análisis de la regresión (en sentido estricto) no
pueden inferirse relaciones causales entre las
variables. Por lo general, la terminología es la
siguiente X predice a Y, y no puede decirse que
X causa a Y.
88Modelo de la regresión simple
- Y b0 b1X1 e
- Observación
- Parte fija Parte
aleatoria - (determinista) (error)
89 Descripción
- En el modelo de la regresión simple, Y denota la
variable dependiente (criterio), X la variable
explicativa, b0 es el intercepto, b1 (la
pendiente) denota el parámetro estimado de la
variable X y e es el término de error
aleatoriamente distribuido. Constituye, con el
modelo de la regresión múltiple, uno de los
modelos más utilizados en ciencias sociales.
90Representación del modelo en forma condensada
- Y1 b0 b1X11 e1
- Y2 b0 b1X21 e2
- ...............................
- Yn b0 b1Xn1 en
- y Xß e (forma
matricial -
compacta) -
91Modelo de la regresión múltiple
- Y b0 b1X1 b2X2 ... bpXp e
- Forma simplificada
- Y b0 SpbpXp e
92Modelo de la regresión múltiple
- Expresa un modelo de la regresión de p variables
como una serie de ecuaciones. - Las p ecuaciones agrupadas en un sistema nos dan
el modelo lineal general familiar. - Los coeficientes ? son conocidos como
coeficientes de la regresión parciales.
93Representación del modelo en forma condensada
- Y1 b0 b1X11 b2X21 ... bpXp1 e1
- Y2 b0 b1X12 b2X22 ... bpXp2 e2
- .................................................
............... - Yn b0 b1X1n b2X2n ... bpXpn en
- y X ?
e
94Modelos de la regresión de p variables
?1 - Intercepto
?2??p - Coeficientes de pendiente parciales de la regresión
?i - Término residual asociado con Ia i observación
95Supuestos del modelo de la regresión
- Normalidad
- Linealidad
- Homoscedasticidad
- Multicolinealidad y singularidad
96Normalidad
- En principio, cabe pensar que los datos tienen
una distribución normal. Es posible verificar
este supuesto, construyendo histogramas y
comprobando la distribución de los datos. A
veces, en los histogramas se incluye una línea
que representa la forma de la distribución con la
que es posible comprobar si la distribución de
los datos de desvía de esta línea.
97En otras palabras
- Los valores de la variable dependiente son
normalmente distribuidos para cada posible
combinación de los niveles de las variables X.
98Distribución normal de la variable edad
99Linealidad
- Se asume una relación lineal recta entre las
variables independientes y la dependiente. En la
práctica, este supuesto no suele verificarse,
dado que los procedimientos de regresión múltiple
no suelen ser gravemente afectados por leves
desviaciones de este supuesto. Si la curvatura de
la relación es evidente, se pueden transformar
las variables o recurrir de forma explícita a
componentes no lineales.
100Definición de modelo lineal
- Los modelos en que todos los parámetros
(b0,b1,,bp) tienen exponentes de uno se
denominan modelos lineales. - Los modelos cuyos parámetros (b0,b1,,bp) tienen
exponentes con valores distintos de la unidad se
denominan modelos no-lineales.
101Línea de ajuste del peso a la altura libras/pulgad
as
102Líneas de Regresión (línea de mejor ajuste)
103Cambio en la línea de mejor ajuste
104- Los supuestos de normalidad, linealidad y
homoscedasticidad pueden ser examinados al
inspeccionar el gráfico de dispersión con los
valores predichos de Y (Y ) en el eje X y los
residuales (Y-Y) en el eje Y.
105Homoscedasticidad
- Las variancias de los valores de la variable
dependiente (datos del estudio), para cada
posible combinación de niveles de la variable X,
son iguales es decir, la variancia de los
residuales es constante.
106Multicolinealidad
- La multicolinealidad significa que las variables
independientes están correlacionadas. Supóngase
que la altura de una persona tiene dos
predictores peso en libras y peso en kilos.
Estos dos predictores son redundantes, ya que el
peso es único independiente de si se mide con
libras o kilos.
..//..
107- Cuando ocurre esto significa que al menos una de
las variables predictoras es totalmente
redundante con otras. Los indicadores
estadísticos de este fenómeno es conocido por
tolerancia.
108Relación entre variables independientes
- De tolerancia el grado en que un predictor puede
ser predicho por otros predictores. La tolerancia
es igual a 1 cuando las variables independientes
no están relacionadas.
109- Singular De igual modo, la relación es singular
cuando un predictor es perfectamente predecible
de otros predictores (tolerancia igual a cero).
110Resumen supuestos del modelo
- Normalidad
- - Y valores son normalmente distribuidos por
cada X - - La distribución de probabilidad del
error debe ser normal - Homoscedasticidad (variancia constante)
- E(si2)
111Sigue
- Independencia de errores E(eiej)0 (i ? j)
- Linealidad
- Las variables independientes son medidas sin
error - No debe darse una relación lineal exacta entre
cualquier subconjunto de variables explicativas
(perfecta multicolinialidad)
112Otros modelos
113- Modelos con variables dummy (categóricas) y de
interacción
114Variables dummy
- Las variables dummy (ficticias) se refieren a
las dimensiones en que se tienen en cuenta dos
valores o categorías. Por lo general, se utilizan
los valores 0 y 1 para representar una categoría
u otra de la variable (por ejemplo género).
115Diseño experimental
- En el diseño experimental, las variables
independientes suelen ser categóricas y, a veces,
dummy. - Suelen recibir el nombre de variables de
tratamiento. - El objetivo es comparar las medidas de los grupos
de tratamiento. - Se utiliza el modelo estadístico ANOVA.
116Modelos con componentes no aditivos o interactivos
-
- Y b0 b1X1 b2X2 b12X1X2 e
- Y b0 Sj bjXj SjSk bjkXjXk e
117Modelos no lineales
- Modelos cuyas variables tienen exponentes, como
por ejemplo, los modelos polinómicos,
exponenciales, etc.
118Modelos polinómicos no lineales
- Y b0 b1X1 b2X1² ... bkX1k e
119Modelo de dos variables, k 2
-
- Y b0 b1X1 b2X2 b11X1² b22X2²
- b12X1X2 e
- Forma simplificada
-
- Y b0 Sj bjXj Sj bjjXj² SjSk bjkXjXk
e
120Cuestión!
- Hemos presentado un conjunto de modelos
estadísticos basados en la regresión simple y
múltiple (lineal y no lineal). La cuestión que se
nos plantea es la siguiente - Dados unos datos, cómo se procede para ajustar
un modelo estadístico?
121Proceso de ajuste del modelo estadístico
-
- Selección del modelo
-
- Estimación de parámetros
-
- Inferencia estadística
122Pasos para el ajuste
123Selección (1)
124Selección del modelo
- El modelo de la regresión se selecciona teniendo
en cuenta - a) la naturaleza de la variable dependiente
- b) cantidad de variables independientes o
explicativas (su estatus teórico) ..//..
125- c) Si la variable dependiente es
cuantitativa de distribución normal, se aplica la
regresión lineal. Si la variable dependiente es
categórica, entonces la alternativa es la
regresión logística. - d) Cuando se tiene una sola variable
independiente, el modelo de la regresión es
simple. Con dos o más variables explicativas el
modelo de la regresión es múltiple.
126Estimación de parámetros (2)
127Parámetros del modelo
- Sea el modelo
- Yi bo b1X1 b2X2 e
- Los parámetros a estimar son
- b0 intercepto o constante
- b1 efecto asociado a la primera variable X
- b2 efecto asociado a la segunda variable X
- ?2e variancia del error o residual
..//..
128- b1 se interpreta como un cambio en Y por 1 unidad
de cambio de X1, siendo X2 constante. Este
enunciado no es muy claro cuando X1 y X2 no son
independientes. - Malentendido 1 bj siempre mide el efecto de Xj
sobre E(Y), independiente de otras variables X. - Malentendido 2 un valor b significativo
estadísticamente establece una relación de causa
y efecto entre X e Y.
129Resumen interpretación de los parámetros o
coeficientes
- Constante b0
- Intercepto o valor promedio de Y
cuando todas las Xj 0. - Pendiente bj
- Cambios estimados de Y por cada 1 unidad
de cambio en Xj. Siendo todas las
otras variables constantes.
130Cuestión!
- Dada la importancia que tienen, para el ajuste el
modelo y la interpretación de los resultados, los
parámetros o coeficientes, cabe distinguir entre
los coeficientes b (no estandarizados) y los
coeficientes ? (beta o estandarizados).
..//..
131- El coeficiente b es el cambio esperado en Y por
cada unidad de cambio en Xj, cuando el resto de
variables están controladas. - El coeficiente ? es el cambio esperado en Y en
unidades de desviación estándar por cada unidad
estándar de cambio en Xj, cuando el resto de
variables están controladas.
132A propósito de la interpretación de los
coeficientes
- Los parámetros b tienen la ventaja de que se
interpretan en unidades de medida originales. - Los coeficientes ? son directamente comparables
en cuanto a su importancia en la variable Y. No
pueden ser interpretados en la escala de medida
original.
..//..
133Ejemplo de ?
- El valor beta es una medida de la intensidad con
cada predictor influye en la variable criterio.
Es medida en unidades de desviación estándar.
Así, un valor beta de 2.5 indica que un cambio en
una unidad estándar del predictor resulta un
cambio de 2.5 unidades estándar en la variable
criterio.
134Inferencia y significación estadística (3)
135Pasos a seguir en la evaluación del modelo
- Una vez se ha especificado el modelo de la
regresión, se necesita conocer en qué medida se
ajusta a los datos. - En primer lugar, probaremos el ajuste del modelo
global de la regresión. - Luego, probamos la significación de cada variable
independiente.
136Evaluación del modelo de la regresión múltiple
- Medidas de variación
- Pruebas de significación
137Medidas de variación
138Coeficiente de determinación múltiple (R2)
- Proporción de variación en Y explicada por
todas las variables X tomadas en su conjunto. - Jamás decrece cuando una nueva variable X es
introducida en el modelo. - La prueba de R2 0 expresa que todas las
variables X, de forma conjunta, no explican la
variación de Y.
139- Prueba de significación global del modelo
140Ejemplo práctico (datos simulados)
- Supongamos que se pretende estudiar el impacto
que sobre un Cuestionario de Satisfacción Vital
tienen las siguientes variables - Edad
- Ingresos
- Cantidad hijos
- Salud
141Pruebas de significación
- En el contexto de la regresión pueden seguirse,
como se ha indicado, dos estrategias de prueba - a) Prueba del modelo completo, con todos los
coeficientes. Para ello se usa el coeficiente de
determinación (R2) mediante el estadístico F. - b) Prueba de los coeficientes individuales de la
regresión con el estadístico t.
142- c) Cabe también la posibilidad de probar un
subconjunto de variables independientes o modelos
parciales.
143Estadísticos para la prueba del modelo total (a)
- Para conocer el grado de ajuste del modelo se
utilizan dos estadísticos R2 (coeficiente de
determinación) y R2 ajustado. - R2 indica la proporción de variación en la
variable criterio (y) explicada por el modelo. En
suma, es un medida de la bondad de la predicción
de la variable criterio por las variables
predictoras.
..//..
144- R2 ajustado el coeficiente de determinación
tiende, en cierto modo, a sobre-estimar la bondad
del modelo cuando se aplica al mundo real. Por
ello, se calcula el coeficiente de determinación
ajustado que tiene en cuenta el número de
variables del modelo y el número de observaciones
(participantes) en que se basa el modelo. - Inconvenientes de R2 no sirve para comparar
modelos.
145R2 ajustado
- Dicho de forma más simple
- El coeficiente de determinación R2 es
sensitivo a la magnitud de la muestra (n) y a la
cantidad de variables independientes o regresores
(p) con muestras pequeñas. Si p es grande en
relación a n, el modelo tiende a ajustarse muy
bien. Una medida mejor de bondad de ajuste es
calculada como sigue
146cálculo
- n -1
- R2 ajustado 1 - (--------------)(1-R2)
- n p 1
- Ventajas refleja el tamaño de muestra y la
cantidad de variables independientes sirve para
comparar modelos
147Coeficiente de determinación múltiple (R2)
- Proporción de variación en Y explicada por
todas las variables X tomadas conjuntamente. - El estadístico R2 mide la contribución total de
las Xs.
148Prueba de R2
- Se ha señalado que cuando se prueban todos los
coeficientes de la regresión, se utiliza el
coeficiente de determinación. En este caso, se
prueba si hay una relación lineal entre la
variable criterio y las variables independientes
o predictores del modelo.
149- Hipótesis a probar
- H0 ?1 ?k 0
- H1 al menos un parámetro es no cero,
- ?k ? 0
- Puesto que no hay un forma de distribución de
probabilidad para el estadístico R2, se utiliza
en su lugar el estadístico F (ANOVA aplicado a la
regresión).
150Qué tipo de prueba ha de usarse?
La distribución utilizada se denomina
distribución de Fisher. El estadístico F es
utilizado con esta
151Curva de la distribución de F
152Prueba de significación total Ejemplo hipotético
- H0 ?1 ?2 ?p 0
- H1 Al menos una ?I ? 0
- ? .05
- gl 4 y 14
- Valor crítico
Prueba estadística Decisión Conclusión
?
F
23.751
Rechazo con ? 0.05
Hay evidencia de que al menos una variable
independiente afecta a Y
F
0
3.11
153Prueba de los coeficientes de la regresión
individuales (b)
- Siguiendo los pasos del programa SPSS
- 1.Se calculan los coeficientes no estandarizados
- 2. Se calcula el error estándar de estos
coeficientes - 3. Se calculan los coeficientes beta
- 4. Se calcula la t de los coeficientes no
estandarizados - 5. Se obtiene la significación estadística de las
t
154- Significación individual de los coeficientes o
parámetros no estandarizados
155Pruebas de hipótesis de los parámetros estimados
?
- Prueba de una cola Prueba de dos colas
- H0 ?j 0
H0 ?j 0 - H1 ?j gt 0, o ?j lt 0
H1 ?j ? 0 -
- La prueba es de una cola o dos según se tenga
una hipótesis unidireccional o bidireccional (no
importan que el valor del estadístico sea mayor o
menor que cero). ..//..
156- Prueba estadística
- Se utiliza la t de Student el valor estimado
del parámetro partido por su error estándar. - Región de rechazo de H0
- to gt t? (o to lt t?)
to gt t?/2
157Sea, por ejemplo, el siguiente modelo
- Y ?0 ?1X1 ?2X2 ?3X3 ?4X4 e
158Prueba de H0 bi 0
- H0 ?1 0 (X1 no contribuye)
- H1 ?1 ? 0 (X1 contribuye)
- H0 ?2 0 (X2 no contribuye)
- H1 ?2 ? 0 (X2 contribuye)
- H0 ?3 0 (X3 no contribuye)
- H1 ?3 ? 0 (X3 contribuye)
159Sigue
-
- H0 ?4 0 (X4 no contribuye)
- H1 ?4 ? 0 (X4 contribuye)
160Pruebas estadísticas
161Significación coeficientes individuales
- El único parámetro estadísticamente significativo
es el asociado a la Variable Ingresos.
162 t Test Ejemplo hipotético
Test con un ? 0.05.
- H0 ?2 0
- H1 ?2 ? 0
- gl 14 Valores críticos
Prueba estadística Decisión Conclusión
t Test Statistic 3.491
Reject H0 at ? 0.05
Rechazo H
Rechazo H
0
0
.025
.025
Hay evidencia de un efecto significativo.
Z
0
2.145
-2.145
163Intervalos de confianza
- Algunos autores prefieren los intervalos de
confianza a la prueba t. - El Intervalo de confianza se refiere al intervalo
que, a un cierto nivel de confianza, contiene al
parámetro estimando. - Nivel de confianza es la "probabilidad" de que el
intervalo calculado contenga al verdadero valor
del parámetro.
164- El cálculo es como sigue
- b t(?/2, g.l.)sb
- Donde t es el valor de t tabulado para ?/2, con
los grados de libertad asociados a la SCR (g.l.
de la Suma de Cuadrados Residual del ANOVA) y sb
el error estándar de b.
165- El IC se representa por (1-?)100. Calculemos el
intervalo de confianza del 95 para un valor
estimado de b 1.18 y sb .28. Entrando en las
tablas de t para un alfa de .05/2 .025 y, por
ejemplo, con 18 g.l. (t 2.101). El intervalo de
confinaza del 95 es - 1.18 (2.101)(.28) .59 y 1.77
- Con el intervalo de confianza, la prueba de la
hipótesis nula, ? 0, viene a ser un caso
especial. Con el ejemplo presente, 0 no está
incluido en el rango y la hipótesis de ? 0 es
por lo tanto rechazada con un ? 0.05.
166- Prueba de significación de modelos parciales
167Prueba de modelos parciales (c)
- Se examina la contribución de un conjunto de
variables en relación a Y. - La forma como se analiza la específica
contribución de las variables define el
procedimiento o método a seguir. - Hay varios procedimientos que permiten evaluar la
contribución particular de cada variable o
predictor.
168Sigue
- Hipótesis nula
- La variables del conjunto no mejoran
significativamente el modelo, cuando todas las
otras son incluidas. - Los modelos deben estimarse por separado
169Prueba estadística de partes del modelo
Test H0 b1 0 en un modelo de 2 variables
De la tabla ANOVA de la regresión para
De la tabla ANOVA de la regresión para
170Prueba estadística de partes del modelo
Test H0 ?1 ? 2 0 en un modelo de 3 variables
De la tabla ANOVA de la regresión para
De la tabla ANOVA de la regresión para
171- Procedimientos de selección de variables
172Tipos de procedimientos
- Procedimiento enter o global
- Jerárquico (de acuerdo a un orden)
173Método simultáneo (Enter)
- En el método simultáneo, denominado en el SPSS
por ENTER, el investigador define el conjunto de
predictores que forman el modelo. A continuación
se evalúa la capacidad de este modelo de predecir
la variable criterio. - Se trata, en definitiva, de probar el modelo
global o completo.
174Métodos jerárquicos de selección de variables
- En los métodos jerárquicos las variables entran
en el modelo de acuerdo con un orden determinado.
El orden depende de las consideraciones teóricas
o de resultados previos. - Desde la perspectiva estadística, el orden de
entrada de las variables en el modelo viene
determinado por la fuerza de su correlación con
la variable criterio.
175- En la actualidad hay diferentes versiones de este
método stepwise selection, forward selection,
backward selection y remove.
176Stepwise selection
- Cada predictor o variable independiente es
entrando de forma secuencial y su valor es
evaluado. Si añadir el predictor contribuye al
modelo, entonces es retenido y el resto de
variables son entonces reevaluadas para probar si
siguen contribuyendo al éxito del modelo. Si no
contribuyen significativamente son eliminadas.
177Sigue
- A cada paso del proceso, se observa si la
variable menos significativa del modelo puede ser
removida debido que a su valor F, FMIN, es menor
que el especificado o valor F por defecto.
178Sigue
- Si ninguna variable puede ser removida, se
verifica si la más significativa que no está en
el modelo puede ser añadida dado que su valor F,
FMAX, es el mayor que el especificado o por
defecto. - El procedimiento se para cuando no se puede
añadir o eliminar ninguna otra variable.
179Forward selection
- Al igual que el procedimiento stepwise, las
variables son entradas secuencialmente en el
modelo. - La primera variable considerada para entrar en el
modelo es la que tiene una mayor correlación
positiva o negativa con la variable dependiente.
180Sigue
- La variable es entrada en el modelo, sólo cuando
satisface el criterio de entrada (tiene un valor
F mayor que el criterio). - El procedimiento se para cuando no hay más
variables que se ajusten el criterio de entrada.
181Backward selection
- Se empieza con todas las variables del modelo y
se elimina la menos útil a un tiempo. Una
variable, cuyo valor p asociado a la F parcial es
mayor que un valor prescrito, PMIN, es la menos
útil y ha de ser eliminada del modelo. El proceso
continúa hasta que no puede eliminarse ninguna
otra variable de acuerdo con el criterio
propuesto.
182Sigue
- Una vez eliminada la variable del modelo, no
puede ser entrada de nuevo en un paso posterior.
183Remove
- Es un procedimiento de selección de variables en
que se eliminan todas las variables de un bloque
en un solo paso.
184A modo de resumen
- Finalizada la prueba de significación del modelo
o de los coeficientes, es posible llevar a cabo
un análisis de residuales de forma gráfica
(mediante los correspondientes plots) o bien
utilizando la prueba de Durbin-Watson.
185- Verificación de los supuestos del modelo
186Multicolinealidad
187Estadísticos de colinealidadTolerancia y VIF
(variancia inflation factors)
- Tolerancia Una primera medida para para probar
la colinealidad o no dependencia lineal entre los
regresores (Tp 1 Rp2). - Cuando tiene un valor máximo de 1, la variable no
tiene ningún grado de colinealidad con las
restantes, Un valor 0 indica que la variable es
una combinación lineal perfecta de otros
regresores. Es deseable que, en general, sea
mayor a .40
188Sigue
- VIF (variance inflation factor) a medida que es
mayor la multicolinealidad, en un de los
regresores, la variancia de su coeficiente
comienza a crecer. La multicolinealidad infla la
variancia del coeficiente (VIFp 1/(1-Rxp2). - La VIF tomará un valor mínimo de 1 cuando no hay
colinealidad y no tendrá límite superior en el
caso de multicolinealidad.
189Sigue..
- En presencia de multicolinealidad, una solución
lógica consiste en eliminar del modelo aquellas
variables con más alto VIF (o más baja
tolerancia).
190Diagnósticos de colinealidad
- Dimensiones factores diferentes que se hallan en
el conjunto de variables independientes. - Autovalores los valores próximos a 0 indican
colinealidad. - Índices de condición raíz cuadrada
(autovalormayor/autovalor). Valores por encima de
15 indican posibles problemas de colinealidad - Proporciones de variancia proporción de la
variancia de cada coeficiente de la regresión
parcial bj que está explicada por cada factor.
191Sigue
- Proporciones de variancia Hay problema de
colinealidad si una dimensión (de índice de
condición alto) explica gran cantidad de la
variable de dos o más variables.
192Resto de supuestos
193Pruebas del resto de supuestos del modelo
- Prueba de la linealidad
- Pruebas de independencia
- Prueba de homoscedasticidad
- Prueba de normalidad
194Scatter- plot (gráfico de dispersión)
- El scatter plot nos permite obtener respuesta a
la siguientes cuestiones - 1. Las variables X e Y están relacionadas?
- 2. Las variables X e Y están linealmente
relacionales? - 3. Las variables X e Y están relacionadas
no- linealmente? - 4. La variación en el cambio de Y depende de
X? - 5. Hay outliers (valores extremos o atípicos)?
195Variables listadas en el SPSS
- DEPENDEN variable dependiente.
- ZPRED valores pronósticos tipificados valores
pronósticos divididos por su desviación estándar
(media de 0 y desviación 1). - ZRESID residuos tipificados.
196Sigue
- DRESID residuos eliminados es decir, al
efectuar los pronósticos se elimina de la
ecuación el caso sobre el que se efectúa el
pronóstico. - ADJPRED pronósticos ajustados es decir, valores
pronosticados sin incluir el caso pronosticado. - SRESID residuos estudentizados divididos por su
desviación estándar y se distribuyen según la t
de Student. - SDRESID residuos estudentizados
197Interpretando los plots de valores predichos y
residuales
- Los plots de los valores predichos, observados y
residuales son esenciales en determinar si el
modelo ajustado satisface los cuatro
presupuestos de la regresión lineal - 1. Linealidad de la relación entre la variable
dependiente e independientes. - 2. Independencias o no autocorrelación de los
errores. - 3. Homoscedasticidad o variancia constante de
los errores. - 4. Normalidad de la distribución del error.
1981. Linealidad
- Se obtiene del plot de los valores observados y
predichos versus la variable independiente. Si la
relación no es lineal, la dispersión (scatter) de
los puntos mostrará una desviación sistemática de
la línea de regresión. - Con el modelo de la regresión múltiple es mejor
generar un gráfico simple (plot) de los valores
observados versus los valores predichos.
Teóricamente, en un gráfico de observados vs.
predichos los puntos deberían moverse entre torno
a la línea recta diagonal.
199Sigue
- El gráfico de valores residuales vs. valores
predichos es esencialmente el mismo que el
anterior, a excepción de que la línea de
referencia es horizontal más que de 45 grados.
2002) Independencia
- Uno de los supuestos básicos del MRL (modelos de
la regresión lineal) es la independencia entre
los residuos. El estadístico de Durbin-Watson
aporta información sobre el grado de
independencia existente entre ellos
201El estadístico de Durbin-Watson
- El estadístico de Durbin-Watson (DW) proporciona
información sobre el grado de independencia entre
los residuales. El estadístico DW varía entre 0 y
4, y toma el valor 2 cuando los residuales son
independientes. Valores menores que 2 indica
autocorrelación positiva. Podemos asumir
independencia entre los residuales cuando DW toma
valores entre 1.5 y 2.5
202Residual Analysis Autocorrelation
- Durbin-Watson Test for Autocorrelation
- Statistic
- The statistic ranges in value from zero to four.
- If successive values of the residuals are close
together (positive autocorrelation), the
statistic will be small. - If successive values are far apart (negative
auto- - correlation), the statistic will be large.
- A value of two indicates no autocorrelation.
203Sigue..
- El valor del residual se calcula por
- ei Yi - Yi
2043) Homoscedasticidad
- En el cuadro de diálogo de Gráficos de la
regresión lineal del SPSS, se obtienen una serie
de variables listadas para obtener diferentes
gráficos de dispersión
205Prueba de homoscedasticidad
- Los valores ZRESID se trasladan al eje Y y los
valores ZPRED al eje X. - La variación de los residuos debe ser uniforme en
todo el rango de valores pronosticados es decir,
el tamaño de los residuos es independiente del
tamaño de los pronósticos. Por lo tanto, el
gráfico de dispersión no debe mostrar ninguna
pauta de asociación entre los pronósticos y los
residuos.
2064) Prueba de normalidad
- A) Mediante el histograma de los residuos
tipificados. La curva se construye con media 0 y
un desviación típica de 1. - B) Gráfico de probabilidad normal. En el eje de
las abscisas se representa la probabilidad
acumulada de cada residuo y en de las ordenadas
la probabilidad acumulada teórica o esperada.
207Sigue
- Teóricamente este gráfico debería ser una línea
recta diagonal. Si los datos se inclinan hacia
arriba o hacia abajo, indica una distribución
asimétrica (sesgada). - Si el gráfico de probabilidad normal muestra una
línea recta, es razonable asumir que los datos
observados proceden de una distribución normal.
Si los puntos se desvían de la línea recta, hay
evidencia en contra de la distribución normal e
independiente.
208Correlaciones
209Correlaciones
- Correlaciones de orden cero Se presentan en la
matriz de correlaciones simples entre todas las
variables, incluyendo la variable de control. Se
trata de la correlación ordinaria entre dos
variables, no controlando ninguna (cero) otra
variable.
210Sigue
- Correlación parcial La correlación que hay entre
dos variables después de remover la correlación
debida a su asociación con otras variables. Es
decir, la correlación entre la variable
dependiente y una variable independiente cuando
los efectos lineales de las otras variables
independientes del modelo han sido removidos.
Neutralizando su efecto sobre la dependiente e
independiente.
211Sigue
- Part Correlation (semiparcial). Es la posible
relación entre un variable dependiente e
independiente, controlando la relación que esta
variable independiente pueda tener con otra u
otras variables independientes. Se neutraliza los
efectos lineales de una variable independiente
del resto de variables independientes. - Está relacionada al cambio en R al cuadrado
cuando una variable es añadida a la ecuación. - Es conocida, también, por correlación semiparcial.
212Sigue
- El procedimiento de Correlaciones Parciales
calcula l