Master Intervenci - PowerPoint PPT Presentation

About This Presentation
Title:

Master Intervenci

Description:

Master Intervenci n Psicosocial An lisis de la regresi n Modelos de an lisis estad stico I. Conceptos b sicos. II. Regresi n m ltiple Parte I. Conceptos ... – PowerPoint PPT presentation

Number of Views:326
Avg rating:3.0/5.0
Slides: 214
Provided by: Jaume6
Learn more at: http://www.ub.edu
Category:

less

Transcript and Presenter's Notes

Title: Master Intervenci


1
Master Intervención Psicosocial
2
Análisis de la regresión
3
Modelos de análisis estadístico
  • I. Conceptos básicos.
  • II. Regresión múltiple

4
Parte I. Conceptos básicos
5
Análisis estadístico
  • En un sentido amplio, se refiere a todos los
    métodos que describen las relaciones que se dan
    entre diversas variables o dimensiones de
    variación.

6
Modelos de análisis estadístico y diseño de
estudio
7
Conceptos básicos
  • Datos observaciones realizadas de los individuos
    o grupos de individuos
  • Escalas de medida no métricas (nominales y
    ordinales) y métricas (intervalos y de razón)
  • Diseños estrategias de recogida de datos
  • Estrategia del diseño transversal o longitudinal
  • Modelos de análisis sistemas o ecuaciones que
    permiten inferir el tipo de relación entre los
    datos
  • Clases de relaciones asociativas y causales

8
A propósito de los datos (1)
9
Elaboración de datos
  • Observación Escala
    Dato científico
  • directa de medida
    o valor

    numérico
  • La conversión de una observación directa en
  • un dato científico se realiza mediante la
  • aplicación de una adecuada escala de medida.

10
Reunión de datos
  • Sistemas de reunión de datos
  • Tablas
  • Gráficos

11
Tablas
  • Las tablas se usan en los informes
    científicos para resumir los datos u otra
    información que no puede ser presentada de forma
    conveniente en la narrativa del texto.

12
Acerca de las tablas
  • Las tablas deben tener un título que informe
    claramente sobre su contenido como por ejemplo
    preferencias del partido político. Las tablas
    estadísticas deberían informar también sobre el
    número de observaciones que se incluyen
    (frecuencia). La parte superior de la columna del
    lado izquierdo de la tabla es referida como
    título de filas e informa sobre el contenido de
    las fila. El cuerpo de la tabla contiene los
    datos de interés. En el ejemplo propuesto se
    muestra el número de individuos que prefieren un
    partido político. ..//..

13
  • Las tablas que se refieren a una sola variable
    son conocidas por representaciones univariadas y
    las que informan sobre dos variables,
    representaciones bivariadas. En la
    representaciones bivariadas una variables está
    asociada a las filas y la otra a las columnas y
    se conocen, también, por tablas de contingencia.
    Ejemplo de tabla bivariada que relaciona
    preferencia de un partido político y afiliación
    religiosa (en paréntesis están los porcentajes).

14
Ejemplos (tablas)
15
Ejemplos (tablas)
16
Gráficos
  • Con los gráficos se consigue una representación
    visual de los datos, por lo que es un
    procedimiento útil a la investigación. Los
    gráficos captan mejor la atención del lector,
    permite clarificar los resultados y facilitar su
    interpretación

17
Histograma de frecuencias o gráfico de barras
  • El histograma de frecuencias es un gráfico
    que muestra la distribución de frecuencias de una
    variable de intervalo. El eje horizontal del
    histograma o gráfico de barras presenta los
    intervalos y el eje vertical la cantidad de
    puntuaciones de cada intervalo (frecuencia). La
    altura de la barra indica la frecuencia de casos
    de cada categoría. El gráfico siguiente muestra
    la cantidad de amigos reportados por estudiantes
    de un College americano.
    ..//..

18
Cantidad de amigos reportados por estudiantes de
un College
19
  • En el segundo ejemplo, se muestra un gráfico de
    barras sobre el efecto de dos drogas
    antiansiolíticas. Se trata de una escala nominal
    y la diferencia entre el primer y segundo panel
    estriba en la forma de representar las unidades
    en el eje vertical (unidades pequeñas en el
    primer panel y punto cero y unidades grandes en
    el segundo). Nótese que la gran diferencia entre
    las dos drogas que se observa en el primer panel
    y que desaparece en la segunda representación.

20
Efectos de dos psicofármacos sobre la ansiedad
21
Polígono de frecuencias
  • Es una forma alternativa de representa el
    histograma de frecuencias. Así, en lugar de
    barras se utilizan líneas que conectan las
    frecuencias de los intervalos de clase. En el
    ejemplo siguiente se muestra la misma información
    sobre la cantidad de amigos, pero utilizando el
    sistema de líneas y no de barras. De igual modo,
    se tiene el gráfico de la cantidad de divorcios
    al aprobarse correspondiente ley en el Estado de
    Nebraska.

22
Cantidad de amigos reportados por estudiantes de
un College
23
Cantidad de divorcios antes y después de su
promulgación en el Estado de Nebraska
24
Escalas de medida y datos (2)
25
Cuantificación de las variables
  • Las variables se cuantifican al asignar valores
    numéricos a los atributos o características de
    los individuos, objetos y hechos de acuerdo a
    reglas.
  • El proceso de asignación de los números de
    acuerdo a reglas se denomina medida.

26
Escalas de medida
  • Las reglas particulares de asignación de números
    a las variables se definen como escalas de
    medida.
  • Clasificación
  • Nominal
  • Ordinal
    débiles
  • Escalas
  • De intervalo
  • De razón
    fuertes

27
Escalas de medida
  • Nominal 1 varón 2
    hembra
  • Ordinal
  • 1
    2 3
  • De intervalo
  • 15 16 17
    18 19 20 21 22 23
  • De razón
  • 0 1 2
    3 4 5 6 7 8

28
Ejemplos de escalas
  • Nominal los valores sólo representan
    categorías o nombres (género, raza, religión,
    etc.)
  • Ordinal los valores representan el orden
    en función del grado como actitud, preferencia,
    etc.
  • De intervalo la distancia entre los
    valores se mantiene constante como la
    temperatura, respuestas correctas, etc.
  • De razón cuando además de la constancia
    del intervalo hay un valor cero que coincide con
    la ausencia del atributo.

29
Escalas y naturaleza de los datos
  • Escala Tipo
    Dato
  • Nominal Cualitativa
    No-paramétrico
  • Ordinal Cuantitativa
    No-paramétrico
  • De intervalo Cuantitativa discreta
    Paramétrico
  • De razón Cuantitativa continua
    Paramétrico

30
Naturaleza de los datos y prueba estadística
  • Datos de escala Prueba estadística
  • Nominal Prueba
  • Ordinal no paramétrica
  • De intervalo Prueba no
    paramétrica y
  • De razón paramétrica

31
Variable dependiente
  • Datos métricos o gaussianos
  • Datos no métricos o no gaussianos

32
En torno a los diseños (3)
33
Concepto de diseño
  • El diseño es una estrategia particular de
    recogida de datos y es función de los objetivos o
    hipótesis propuestos.
  • Los diseños son transversales y longitudinales,
    según la no presencia o presencia de la dimensión
    temporal en el estudio.

34
A modo de resumen
  • Cuál es la relación entre diseño (estudio)
    matriz de datos y modelo de análisis?
  • Cuál es la estructura de cualquier investigación
    científica?

35
Estructura de la investigación en ciencias
sociales
  • Diseño Datos
    Modelo análisis
  • Problema
    Estadístico
  • Hipótesis
    Estimación
  • Variables
    Inferencia
  • Modelo de escala

36
A modo de resumen
  • Se ha visto la secuencia entre las tres fases o
    momentos de una investigación diseño, datos y
    análisis.
  • Es importante conocer la estructura del diseño,
    así como los distintos procedimientos o tipos de
    investigación

37
Estructura del diseño (4)
38
Tipología del diseño de investigación
  • Diseños observacionales
  • Diseños correlaciones o predictivos (estudios de
    encuesta)
  • Diseños cuasi-experimentales
  • Diseños experimentales

39
Naturaleza de los datos (variable dependiente)
  • Datos métricos o cuantitativos (de distribución
    gaussiana o normal)
  • Datos no métricos o categóricos (de distribución
    no-gaussiana)

40
Estrategia del diseño y modelo de
análisisDiseños experimentales y
cuasi-experimentales
41

  • Diseño
  • Datos cuantitativos Estrategia
    Datos cualitativos
  • ANOVA Transversal
    Longitudinal TC
  • Grupos
    Medidas
  • AR paralelos
    repetidas Modelo log-lineal
  • Factorial
    Cross-over
  • MANOVA
    Regresión
  • Medidas
    Antes-después logística
  • repetidas

  • Cohortes
  • Factorial
  • mixto
    Split-plot

42
Diseños no experimentales
  • En el contexto no experimental (experimento
    verdadero y cuasi-experimentales) los diseños
    suelen ser observacionales y correlacionales.Los
    diseños correlacionales se basan en el análisis
    de múltiples variables con el propósito de
    estimar la magnitud de cambio entre ellas.

43
Sigue
  • El objetivo es poder predecir la variable
    dependiente a partir de la o las variables
    predictoras o independientes. También se pretende
    explicar la proporción de variación de la
    variable dependiente por la o las variables
    independientes.

44
Modelos de análisis estadísticos (5)
45
Cuestión!
  • Una vez recogidos los datos, qué hacer con
    ellos?
  • A esta cuestión cabe responder lo siguiente los
    datos se analizan de acuerdo con modelos
    estadísticos adecuados a fin de derivar
    consecuencias teóricamente interpretables es
    decir, se obtienen resultados que han de ser
    interpretados.

46
El modelo lineal general
47
Modelo estadístico general
  • Y f(X) g(E)
  • V.Dep. Parte fija Parte aleatoria

48
Concepto
  • El modelo estadístico, o ecuación de carácter
    lineal, asume que una observación Y es el
    resultado de la combinación aditiva de alguna
    función f de variables fijas y de alguna función
    g de componentes aleatorios, y que tanto f como g
    pueden tomar parámetros conocidos o desconocidos.
    ..//..

49
continuación
  • Considerada esta ecuación como un modelo
    estadístico general, se tiene que cualquier
    observación es la suma de dos partes o
    componentes una parte fija o determinista, f(X),
    y una parte aleatoria desconocida, g(E).

50
Clases de relaciones entre variables o hipótesis
(6)
51
Clases de hipótesis
  • Asociativa
  • Hipótesis
  • Causal

52
Hipótesis asociativa
  • X Y
  • Los valores de la variable X covarían con los
    valores de la variable Y

53
Ejemplos (hipótesis asociativas)
  • a) Hay una correlación entre el estilo de
    dirección y la moral de los empleados
  • b) La visualización de los dibujos animados
    está asociado con el comportamiento agresivo de
    los niños.
  • c) La percepción de culpabilidad o inocencia de
    los acusados está asociada a los argumentos
    legales.
    ..//..

54
  • d) El consumo de heroína es función de la
    clase social.
  • e) El consumo de tabaco está positivamente
    relacionado con el nivel de alerta en sujetos
    humanos.
  • g) Los niños sensibles al ritmo progresan más
    en el aprendizaje de lectura.

55
Hipótesis causal
  • X Y
  • Los valores de la variable X determinan los
    valores de la variable Y

56
Ejemplos (hipótesis causales)
  • a) Leer dos veces una lista de ítems favorece
    su recuerdo.
  • b) La intensidad de un estímulo determina una
    respuesta de discriminación más rápida.
  • c) A mayor incentivo más rápido es el
    aprendizaje de una actividad académica.

  • ..//..

57
  • d) El castigo genera respuesta de evitación.
  • e) La frustración es causa de conductas
    agresivas.
  • f) El nivel de alerta aumenta la efectividad
    del rendimiento escolar.
  • g) El ejercicio aumenta el rendimiento en
    una actividad motora.

58
Contextos de las hipótesis
  • Hipótesis
    Contexto

  • científico
  • asociativas
    correlacional
  • causales de
    manipulación

59
Universo de las hipótesis
  • Hipótesis de investigación
  • Hipótesis estadística

60
Hipótesis de investigación
  • Se plantean por intereses teóricos o sustantivos
  • Definen cómo se relacionan las variables
  • Suelen ser asociativas y causales

61
Hipótesis estadísticas
  • Las hipótesis estadísticas se establecen mediante
    características de las poblaciones de origen. Las
    poblaciones de origen están definidas por
    parámetros, que son valores de la distribución
    fijos pero desconocidos. Los parámetros
    poblacionales se asemejan a los estadísticos de
    muestra y se estiman a partir de estos últimos.

62
continuación
  • Mediante los datos de muestra podemos aceptar o
    rechazar, con cierto grado de confianza
    determinado numéricamente, una hipótesis hecha
    sobre una población determinada. Tal proceso se
    conoce como contraste de hipótesis estadísticas o
    prueba de significación estadística.

63
Prueba de hipótesis estadística
  • En investigación social, interesa más los
    parámetros asociados a la parte fija del modelo
    estadístico porque representan la magnitud de un
    cambio (grado de asociación entre las variables)
    o el efecto causal (el impacto de una variable
    sobre otra). De ahí, el propósito de cualquier
    prueba de hipótesis es determinar el nivel de
    significación de estos parámetros.

64
Hipótesis estadística sobre un parámetro
individual
  • H0 parámetro 0
  • H0 ß 0

65
O bien, sobre los parámetros del modelo
  • En el modelo de la regresión múltiple, se asume
    que los distintos coeficientes (pendientes) son
    cero
  • H0 b1 b2 ?p 0

66
en consecuencia,
  • Si se demuestra, como resultado de la prueba, que
  • H0 bi 0, entonces no hay relación lineal
    entre la variable Xi e Y.
  • En caso contrario, se tiene
  • H1 bi ? 0, se infiere que hay una relación
    lineal entre ambas v ariables.

67
Hipótesis nula H0
  • En teoría estadística se asume, inicialmente, la
    no significación de los parámetros, siendo este
    supuesto la hipótesis que se somete a prueba y es
    conocida por hipótesis nula (H0). Si se demuestra
    que este supuesto no es aceptable, se recurre a
    la hipótesis alternativa (H1) como la explicación
    más plausible de los datos.

68
Prueba de la hipótesis estadística o prueba de
significación
  • La prueba de significación estadística contrasta
    la hipótesis de nulidad con los datos del
    estudio. A partir del resultado de la prueba de
    significación, se procede a la toma de decisiones
    estadísticas. El resultado de la prueba consiste,
    de forma sucinta, en la aceptación o no de la
    hipótesis de nulidad que asume la no-relación
    entre la variable independiente (predictora) y la
    variable dependiente (criterio).
    ..//..

69
  • Cabe matizar, no obstante, que entre la variable
    independiente y dependiente pueden darse
    relaciones de asociación o de causalidad, de modo
    que la posible implicación de una variable sobre
    otra depende del diseño utilizado (correlacional
    o experimental). La relación de asociación es la
    magnitud de cambio que se da entre dos variables,
    mientras que la relación de causalidad es el
    tamaño del impacto de una variable sobre otra.

70
Inferencia de la hipótesis de nulidad
  • La inferencia de la hipótesis nulidad nos lleva a
    aceptar que la variable independiente no está
    relacionada con la dependiente (inferir su
    efecto). En caso contrario, se toma la decisión
    en favor de un modelo alternativo asumiendo, como
    explicación más plausible (no exenta de riesgo),
    el modelo de una relación efectiva entre ambas
    variables. ..//..

71
  • Al tomar esta decisión, se corre el riesgo de que
    sea falsa. Este riesgo se define, en teoría
    estadística, en términos de probabilidad y es
    conocido por nivel de significación. El nivel de
    significación describe el grado de credibilidad
    que merece la hipótesis considerada.

72
Errores en el rechazo o aceptación de H0
  • Situación actual de la H0
  • Decisión Verdadera
    Falsa
  • Rechazo H0 Error Tipo I No
    error
  • Aceptación H0 No error
    Error Tipo II

73
Error Tipo I y error Tipo II
  • A) Error Tipo I o decisión positiva falsa se
    comete al rechazar la hipótesis de nulidad cuando
    es verdadera es decir, cuando se toma una
    decisión positiva, en favor de la existencia de
    un efecto cuando en realidad no existe (falsa
    alarma).
  • La probabilidad de cometer este error es el
    nivel de significación o valor a de la prueba
    estadística. ..//..

74
  • B) Error Tipo II o decisión negativa falsa se
    comete cuando la prueba lleva a la aceptación de
    una hipótesis de nulidad falsa. Se trata de no
    aceptar el hecho de un efecto de la variable
    independiente cuando en realidad ocurre. El error
    de Tipo II se define por la probabilidad ß y está
    asociado inversamente con la probabilidad a y
    directamente con la potencia de la prueba.

75
Decisión estadística y error
  • Resultado Probabilidad
    Decisión
  • de la prueba de azar
  • estadística a 0.05
  • Significativo p lt a
    NA(H0)
  • H0
  • No significativo p gt a
    A(H0)

76
Inferencia de H0
  • Probabilidad 1 Región de
  • de azar
    decisión
  • Si p gt 0.05 A(H0)
  • a
    0.05
  • Si p lt 0.05 NA(H0)
  • 0

77
Sobre la discusión de los resultados
78
Concepto
  • Las actividades propias de la discusión de los
    resultados son las siguientes
  • a) Inferir a partir de la prueba estadística las
    consecuencias de carácter teórico.
  • b) Interpretar estas consecuencias a la luz de
    las hipótesis formuladas
  • c) Establecer el alcance de los resultados
    mediante la generalización de los mismos

79
Inferencia teórica de la hipótesis
  • Supongamos que la prueba de la hipótesis
    estadística nos lleva a no aceptar la hipótesis
    de nulidad. En este caso, se suele inferir, como
    la más adecuada, la hipótesis alternativa que
    coincide con la hipótesis de trabajo o
    investigación. Está claro que esta inferencia
    está sujeta a un riesgo de error (definido en
    términos de probabilidad).

80
Interpretación de los resultados
  • Las actividades propias de la interpretación de
    los resultados son
  • a) Examinar y explicar los datos por la
    hipótesis de investigación.
  • b) Extraer los contenidos científicamente
    significativos.
  • c) Interpretar los resultados en términos de
    hipótesis alternativas o rivales.

81
Generalización de los resultados
  • En la generalización se evalúa el alcance de los
    resultados, es decir, para qué poblaciones son
    vigentes los supuestos teóricos probados. La
    generalización de los resultados suele
    realizarse, por lo común, con la población de
    sujetos.

82
Parte II. Modelos de la regresión múltiple y otros
83
Regresión múltiple
Modelos de la Regresión múltiple
No Lineal
Lineal
Lineal
V. Dummy
Interac.
Polinó-mica.
Raíz Cuadrada
Log-lineal
Recípro-ca
Expo-nencial
84
Modelo lineal de la regresión múltiple
  • El modelo lineal de la regresión es un caso
    especial Modelo Lineal General. De este modo, el
    componente determinista (parte fija del modelo)
    está formado por un conjunto de variables objeto
    de estudio en la investigación (predictores) y el
    componente aleatorio por un término de error
    (falta de ajuste).
    ..//..

85
  • El análisis de la regresión múltiple es utilizado
    cuando se pretende predecir una variable
    dependiente continua de un conjunto de variables
    independientes (predictores). Cuando la variable
    dependiente es dicotómica, se aplica, en este
    caso, la regresión logística .
  • Las variables independientes usadas en la
    regresión pueden ser cuantitativas o cualitativas
    (dummy). ..//..

86
  • Por lo general, el análisis de la regresión
    múltiple utiliza variables que son propias de los
    contextos naturales, en oposición a variables que
    son manipuladas experimentalmente, aunque es
    posible utilizar la regresión con esta clase de
    variables.
    ..//..

87
  • Cabe tener en cuenta, por último, que con el
    análisis de la regresión (en sentido estricto) no
    pueden inferirse relaciones causales entre las
    variables. Por lo general, la terminología es la
    siguiente X predice a Y, y no puede decirse que
    X causa a Y.

88
Modelo de la regresión simple
  • Y b0 b1X1 e
  • Observación
  • Parte fija Parte
    aleatoria
  • (determinista) (error)

89
Descripción
  • En el modelo de la regresión simple, Y denota la
    variable dependiente (criterio), X la variable
    explicativa, b0 es el intercepto, b1 (la
    pendiente) denota el parámetro estimado de la
    variable X y e es el término de error
    aleatoriamente distribuido. Constituye, con el
    modelo de la regresión múltiple, uno de los
    modelos más utilizados en ciencias sociales.

90
Representación del modelo en forma condensada
  • Y1 b0 b1X11 e1
  • Y2 b0 b1X21 e2
  • ...............................
  • Yn b0 b1Xn1 en
  • y Xß e (forma
    matricial

  • compacta)

91
Modelo de la regresión múltiple
  • Y b0 b1X1 b2X2 ... bpXp e
  • Forma simplificada
  • Y b0 SpbpXp e

92
Modelo de la regresión múltiple
  • Expresa un modelo de la regresión de p variables
    como una serie de ecuaciones.
  • Las p ecuaciones agrupadas en un sistema nos dan
    el modelo lineal general familiar.
  • Los coeficientes ? son conocidos como
    coeficientes de la regresión parciales.

93
Representación del modelo en forma condensada
  • Y1 b0 b1X11 b2X21 ... bpXp1 e1
  • Y2 b0 b1X12 b2X22 ... bpXp2 e2
  • .................................................
    ...............
  • Yn b0 b1X1n b2X2n ... bpXpn en
  • y X ?
    e

94
Modelos de la regresión de p variables
?1 - Intercepto
?2??p - Coeficientes de pendiente parciales de la regresión
?i - Término residual asociado con Ia i observación
95
Supuestos del modelo de la regresión
  • Normalidad
  • Linealidad
  • Homoscedasticidad
  • Multicolinealidad y singularidad

96
Normalidad
  • En principio, cabe pensar que los datos tienen
    una distribución normal. Es posible verificar
    este supuesto, construyendo histogramas y
    comprobando la distribución de los datos. A
    veces, en los histogramas se incluye una línea
    que representa la forma de la distribución con la
    que es posible comprobar si la distribución de
    los datos de desvía de esta línea.

97
En otras palabras
  • Los valores de la variable dependiente son
    normalmente distribuidos para cada posible
    combinación de los niveles de las variables X.

98
Distribución normal de la variable edad
99
Linealidad
  • Se asume una relación lineal recta entre las
    variables independientes y la dependiente. En la
    práctica, este supuesto no suele verificarse,
    dado que los procedimientos de regresión múltiple
    no suelen ser gravemente afectados por leves
    desviaciones de este supuesto. Si la curvatura de
    la relación es evidente, se pueden transformar
    las variables o recurrir de forma explícita a
    componentes no lineales.

100
Definición de modelo lineal
  • Los modelos en que todos los parámetros
    (b0,b1,,bp) tienen exponentes de uno se
    denominan modelos lineales.
  • Los modelos cuyos parámetros (b0,b1,,bp) tienen
    exponentes con valores distintos de la unidad se
    denominan modelos no-lineales.

101
Línea de ajuste del peso a la altura libras/pulgad
as
102
Líneas de Regresión (línea de mejor ajuste)
103
Cambio en la línea de mejor ajuste
104
  • Los supuestos de normalidad, linealidad y
    homoscedasticidad pueden ser examinados al
    inspeccionar el gráfico de dispersión con los
    valores predichos de Y (Y ) en el eje X y los
    residuales (Y-Y) en el eje Y.

105
Homoscedasticidad
  • Las variancias de los valores de la variable
    dependiente (datos del estudio), para cada
    posible combinación de niveles de la variable X,
    son iguales es decir, la variancia de los
    residuales es constante.

106
Multicolinealidad
  • La multicolinealidad significa que las variables
    independientes están correlacionadas. Supóngase
    que la altura de una persona tiene dos
    predictores peso en libras y peso en kilos.
    Estos dos predictores son redundantes, ya que el
    peso es único independiente de si se mide con
    libras o kilos.
    ..//..

107
  • Cuando ocurre esto significa que al menos una de
    las variables predictoras es totalmente
    redundante con otras. Los indicadores
    estadísticos de este fenómeno es conocido por
    tolerancia.

108
Relación entre variables independientes
  • De tolerancia el grado en que un predictor puede
    ser predicho por otros predictores. La tolerancia
    es igual a 1 cuando las variables independientes
    no están relacionadas.

109
  • Singular De igual modo, la relación es singular
    cuando un predictor es perfectamente predecible
    de otros predictores (tolerancia igual a cero).

110
Resumen supuestos del modelo
  • Normalidad
  • - Y valores son normalmente distribuidos por
    cada X
  • - La distribución de probabilidad del
    error debe ser normal
  • Homoscedasticidad (variancia constante)
  • E(si2)

111
Sigue
  • Independencia de errores E(eiej)0 (i ? j)
  • Linealidad
  • Las variables independientes son medidas sin
    error
  • No debe darse una relación lineal exacta entre
    cualquier subconjunto de variables explicativas
    (perfecta multicolinialidad)

112
Otros modelos
113
  • Modelos con variables dummy (categóricas) y de
    interacción

114
Variables dummy
  • Las variables dummy (ficticias) se refieren a
    las dimensiones en que se tienen en cuenta dos
    valores o categorías. Por lo general, se utilizan
    los valores 0 y 1 para representar una categoría
    u otra de la variable (por ejemplo género).

115
Diseño experimental
  • En el diseño experimental, las variables
    independientes suelen ser categóricas y, a veces,
    dummy.
  • Suelen recibir el nombre de variables de
    tratamiento.
  • El objetivo es comparar las medidas de los grupos
    de tratamiento.
  • Se utiliza el modelo estadístico ANOVA.

116
Modelos con componentes no aditivos o interactivos
  • Y b0 b1X1 b2X2 b12X1X2 e
  • Y b0 Sj bjXj SjSk bjkXjXk e

117
Modelos no lineales
  • Modelos cuyas variables tienen exponentes, como
    por ejemplo, los modelos polinómicos,
    exponenciales, etc.

118
Modelos polinómicos no lineales
  • Y b0 b1X1 b2X1² ... bkX1k e

119
Modelo de dos variables, k 2
  • Y b0 b1X1 b2X2 b11X1² b22X2²
  • b12X1X2 e
  • Forma simplificada
  • Y b0 Sj bjXj Sj bjjXj² SjSk bjkXjXk
    e

120
Cuestión!
  • Hemos presentado un conjunto de modelos
    estadísticos basados en la regresión simple y
    múltiple (lineal y no lineal). La cuestión que se
    nos plantea es la siguiente
  • Dados unos datos, cómo se procede para ajustar
    un modelo estadístico?

121
Proceso de ajuste del modelo estadístico
  • Selección del modelo


  • Estimación de parámetros
  • Inferencia estadística

122
Pasos para el ajuste
123
Selección (1)
124
Selección del modelo
  • El modelo de la regresión se selecciona teniendo
    en cuenta
  • a) la naturaleza de la variable dependiente
  • b) cantidad de variables independientes o
    explicativas (su estatus teórico) ..//..

125
  • c) Si la variable dependiente es
    cuantitativa de distribución normal, se aplica la
    regresión lineal. Si la variable dependiente es
    categórica, entonces la alternativa es la
    regresión logística.
  • d) Cuando se tiene una sola variable
    independiente, el modelo de la regresión es
    simple. Con dos o más variables explicativas el
    modelo de la regresión es múltiple.

126
Estimación de parámetros (2)
127
Parámetros del modelo
  • Sea el modelo
  • Yi bo b1X1 b2X2 e
  • Los parámetros a estimar son
  • b0 intercepto o constante
  • b1 efecto asociado a la primera variable X
  • b2 efecto asociado a la segunda variable X
  • ?2e variancia del error o residual
    ..//..

128
  • b1 se interpreta como un cambio en Y por 1 unidad
    de cambio de X1, siendo X2 constante. Este
    enunciado no es muy claro cuando X1 y X2 no son
    independientes.
  • Malentendido 1 bj siempre mide el efecto de Xj
    sobre E(Y), independiente de otras variables X.
  • Malentendido 2 un valor b significativo
    estadísticamente establece una relación de causa
    y efecto entre X e Y.

129
Resumen interpretación de los parámetros o
coeficientes
  • Constante b0
  • Intercepto o valor promedio de Y
    cuando todas las Xj 0.
  • Pendiente bj
  • Cambios estimados de Y por cada 1 unidad
    de cambio en Xj. Siendo todas las
    otras variables constantes.

130
Cuestión!
  • Dada la importancia que tienen, para el ajuste el
    modelo y la interpretación de los resultados, los
    parámetros o coeficientes, cabe distinguir entre
    los coeficientes b (no estandarizados) y los
    coeficientes ? (beta o estandarizados).
    ..//..

131
  • El coeficiente b es el cambio esperado en Y por
    cada unidad de cambio en Xj, cuando el resto de
    variables están controladas.
  • El coeficiente ? es el cambio esperado en Y en
    unidades de desviación estándar por cada unidad
    estándar de cambio en Xj, cuando el resto de
    variables están controladas.

132
A propósito de la interpretación de los
coeficientes
  • Los parámetros b tienen la ventaja de que se
    interpretan en unidades de medida originales.
  • Los coeficientes ? son directamente comparables
    en cuanto a su importancia en la variable Y. No
    pueden ser interpretados en la escala de medida
    original.
    ..//..

133
Ejemplo de ?
  • El valor beta es una medida de la intensidad con
    cada predictor influye en la variable criterio.
    Es medida en unidades de desviación estándar.
    Así, un valor beta de 2.5 indica que un cambio en
    una unidad estándar del predictor resulta un
    cambio de 2.5 unidades estándar en la variable
    criterio.

134
Inferencia y significación estadística (3)
135
Pasos a seguir en la evaluación del modelo
  • Una vez se ha especificado el modelo de la
    regresión, se necesita conocer en qué medida se
    ajusta a los datos.
  • En primer lugar, probaremos el ajuste del modelo
    global de la regresión.
  • Luego, probamos la significación de cada variable
    independiente.

136
Evaluación del modelo de la regresión múltiple
  • Medidas de variación
  • Pruebas de significación

137
Medidas de variación
138
Coeficiente de determinación múltiple (R2)
  • Proporción de variación en Y explicada por
    todas las variables X tomadas en su conjunto.
  • Jamás decrece cuando una nueva variable X es
    introducida en el modelo.
  • La prueba de R2 0 expresa que todas las
    variables X, de forma conjunta, no explican la
    variación de Y.

139
  • Prueba de significación global del modelo

140
Ejemplo práctico (datos simulados)
  • Supongamos que se pretende estudiar el impacto
    que sobre un Cuestionario de Satisfacción Vital
    tienen las siguientes variables
  • Edad
  • Ingresos
  • Cantidad hijos
  • Salud

141
Pruebas de significación
  • En el contexto de la regresión pueden seguirse,
    como se ha indicado, dos estrategias de prueba
  • a) Prueba del modelo completo, con todos los
    coeficientes. Para ello se usa el coeficiente de
    determinación (R2) mediante el estadístico F.
  • b) Prueba de los coeficientes individuales de la
    regresión con el estadístico t.

142
  • c) Cabe también la posibilidad de probar un
    subconjunto de variables independientes o modelos
    parciales.

143
Estadísticos para la prueba del modelo total (a)
  • Para conocer el grado de ajuste del modelo se
    utilizan dos estadísticos R2 (coeficiente de
    determinación) y R2 ajustado.
  • R2 indica la proporción de variación en la
    variable criterio (y) explicada por el modelo. En
    suma, es un medida de la bondad de la predicción
    de la variable criterio por las variables
    predictoras.


    ..//..

144
  • R2 ajustado el coeficiente de determinación
    tiende, en cierto modo, a sobre-estimar la bondad
    del modelo cuando se aplica al mundo real. Por
    ello, se calcula el coeficiente de determinación
    ajustado que tiene en cuenta el número de
    variables del modelo y el número de observaciones
    (participantes) en que se basa el modelo.
  • Inconvenientes de R2 no sirve para comparar
    modelos.

145
R2 ajustado
  • Dicho de forma más simple
  • El coeficiente de determinación R2 es
    sensitivo a la magnitud de la muestra (n) y a la
    cantidad de variables independientes o regresores
    (p) con muestras pequeñas. Si p es grande en
    relación a n, el modelo tiende a ajustarse muy
    bien. Una medida mejor de bondad de ajuste es
    calculada como sigue

146
cálculo
  • n -1
  • R2 ajustado 1 - (--------------)(1-R2)
  • n p 1
  • Ventajas refleja el tamaño de muestra y la
    cantidad de variables independientes sirve para
    comparar modelos

147
Coeficiente de determinación múltiple (R2)
  • Proporción de variación en Y explicada por
    todas las variables X tomadas conjuntamente.
  • El estadístico R2 mide la contribución total de
    las Xs.

148
Prueba de R2
  • Se ha señalado que cuando se prueban todos los
    coeficientes de la regresión, se utiliza el
    coeficiente de determinación. En este caso, se
    prueba si hay una relación lineal entre la
    variable criterio y las variables independientes
    o predictores del modelo.

149
  • Hipótesis a probar
  • H0 ?1 ?k 0
  • H1 al menos un parámetro es no cero,
  • ?k ? 0
  • Puesto que no hay un forma de distribución de
    probabilidad para el estadístico R2, se utiliza
    en su lugar el estadístico F (ANOVA aplicado a la
    regresión).

150
Qué tipo de prueba ha de usarse?
La distribución utilizada se denomina
distribución de Fisher. El estadístico F es
utilizado con esta
151
Curva de la distribución de F
152
Prueba de significación total Ejemplo hipotético
  • H0 ?1 ?2 ?p 0
  • H1 Al menos una ?I ? 0
  • ? .05
  • gl 4 y 14
  • Valor crítico

Prueba estadística Decisión Conclusión
?
F
23.751
Rechazo con ? 0.05
Hay evidencia de que al menos una variable
independiente afecta a Y
F
0
3.11
153
Prueba de los coeficientes de la regresión
individuales (b)
  • Siguiendo los pasos del programa SPSS
  • 1.Se calculan los coeficientes no estandarizados
  • 2. Se calcula el error estándar de estos
    coeficientes
  • 3. Se calculan los coeficientes beta
  • 4. Se calcula la t de los coeficientes no
    estandarizados
  • 5. Se obtiene la significación estadística de las
    t

154
  • Significación individual de los coeficientes o
    parámetros no estandarizados

155
Pruebas de hipótesis de los parámetros estimados
?
  • Prueba de una cola Prueba de dos colas
  • H0 ?j 0
    H0 ?j 0
  • H1 ?j gt 0, o ?j lt 0
    H1 ?j ? 0
  • La prueba es de una cola o dos según se tenga
    una hipótesis unidireccional o bidireccional (no
    importan que el valor del estadístico sea mayor o
    menor que cero). ..//..

156
  • Prueba estadística
  • Se utiliza la t de Student el valor estimado
    del parámetro partido por su error estándar.
  • Región de rechazo de H0
  • to gt t? (o to lt t?)
    to gt t?/2

157
Sea, por ejemplo, el siguiente modelo
  • Y ?0 ?1X1 ?2X2 ?3X3 ?4X4 e

158
Prueba de H0 bi 0
  • H0 ?1 0 (X1 no contribuye)
  • H1 ?1 ? 0 (X1 contribuye)
  • H0 ?2 0 (X2 no contribuye)
  • H1 ?2 ? 0 (X2 contribuye)
  • H0 ?3 0 (X3 no contribuye)
  • H1 ?3 ? 0 (X3 contribuye)

159
Sigue
  • H0 ?4 0 (X4 no contribuye)
  • H1 ?4 ? 0 (X4 contribuye)

160
Pruebas estadísticas
  • .

161
Significación coeficientes individuales
  • El único parámetro estadísticamente significativo
    es el asociado a la Variable Ingresos.

162
t Test Ejemplo hipotético
Test con un ? 0.05.
  • H0 ?2 0
  • H1 ?2 ? 0
  • gl 14 Valores críticos

Prueba estadística Decisión Conclusión
t Test Statistic 3.491
Reject H0 at ? 0.05
Rechazo H
Rechazo H
0
0
.025
.025
Hay evidencia de un efecto significativo.
Z
0
2.145
-2.145
163
Intervalos de confianza
  • Algunos autores prefieren los intervalos de
    confianza a la prueba t.
  • El Intervalo de confianza se refiere al intervalo
    que, a un cierto nivel de confianza, contiene al
    parámetro estimando.
  • Nivel de confianza es la "probabilidad" de que el
    intervalo calculado contenga al verdadero valor
    del parámetro.

164
  • El cálculo es como sigue
  • b t(?/2, g.l.)sb
  • Donde t es el valor de t tabulado para ?/2, con
    los grados de libertad asociados a la SCR (g.l.
    de la Suma de Cuadrados Residual del ANOVA) y sb
    el error estándar de b.

165
  • El IC se representa por (1-?)100. Calculemos el
    intervalo de confianza del 95 para un valor
    estimado de b 1.18 y sb .28. Entrando en las
    tablas de t para un alfa de .05/2 .025 y, por
    ejemplo, con 18 g.l. (t 2.101). El intervalo de
    confinaza del 95 es
  • 1.18 (2.101)(.28) .59 y 1.77
  • Con el intervalo de confianza, la prueba de la
    hipótesis nula, ? 0, viene a ser un caso
    especial. Con el ejemplo presente, 0 no está
    incluido en el rango y la hipótesis de ? 0 es
    por lo tanto rechazada con un ? 0.05.

166
  • Prueba de significación de modelos parciales

167
Prueba de modelos parciales (c)
  • Se examina la contribución de un conjunto de
    variables en relación a Y.
  • La forma como se analiza la específica
    contribución de las variables define el
    procedimiento o método a seguir.
  • Hay varios procedimientos que permiten evaluar la
    contribución particular de cada variable o
    predictor.

168
Sigue
  • Hipótesis nula
  • La variables del conjunto no mejoran
    significativamente el modelo, cuando todas las
    otras son incluidas.
  • Los modelos deben estimarse por separado

169
Prueba estadística de partes del modelo
Test H0 b1 0 en un modelo de 2 variables
De la tabla ANOVA de la regresión para
De la tabla ANOVA de la regresión para
170
Prueba estadística de partes del modelo
Test H0 ?1 ? 2 0 en un modelo de 3 variables
De la tabla ANOVA de la regresión para
De la tabla ANOVA de la regresión para
171
  • Procedimientos de selección de variables

172
Tipos de procedimientos
  • Procedimiento enter o global
  • Jerárquico (de acuerdo a un orden)

173
Método simultáneo (Enter)
  • En el método simultáneo, denominado en el SPSS
    por ENTER, el investigador define el conjunto de
    predictores que forman el modelo. A continuación
    se evalúa la capacidad de este modelo de predecir
    la variable criterio.
  • Se trata, en definitiva, de probar el modelo
    global o completo.

174
Métodos jerárquicos de selección de variables
  • En los métodos jerárquicos las variables entran
    en el modelo de acuerdo con un orden determinado.
    El orden depende de las consideraciones teóricas
    o de resultados previos.
  • Desde la perspectiva estadística, el orden de
    entrada de las variables en el modelo viene
    determinado por la fuerza de su correlación con
    la variable criterio.

175
  • En la actualidad hay diferentes versiones de este
    método stepwise selection, forward selection,
    backward selection y remove.

176
Stepwise selection
  • Cada predictor o variable independiente es
    entrando de forma secuencial y su valor es
    evaluado. Si añadir el predictor contribuye al
    modelo, entonces es retenido y el resto de
    variables son entonces reevaluadas para probar si
    siguen contribuyendo al éxito del modelo. Si no
    contribuyen significativamente son eliminadas.

177
Sigue
  • A cada paso del proceso, se observa si la
    variable menos significativa del modelo puede ser
    removida debido que a su valor F, FMIN, es menor
    que el especificado o valor F por defecto.

178
Sigue
  • Si ninguna variable puede ser removida, se
    verifica si la más significativa que no está en
    el modelo puede ser añadida dado que su valor F,
    FMAX, es el mayor que el especificado o por
    defecto.
  • El procedimiento se para cuando no se puede
    añadir o eliminar ninguna otra variable.

179
Forward selection
  • Al igual que el procedimiento stepwise, las
    variables son entradas secuencialmente en el
    modelo.
  • La primera variable considerada para entrar en el
    modelo es la que tiene una mayor correlación
    positiva o negativa con la variable dependiente.

180
Sigue
  • La variable es entrada en el modelo, sólo cuando
    satisface el criterio de entrada (tiene un valor
    F mayor que el criterio).
  • El procedimiento se para cuando no hay más
    variables que se ajusten el criterio de entrada.

181
Backward selection
  • Se empieza con todas las variables del modelo y
    se elimina la menos útil a un tiempo. Una
    variable, cuyo valor p asociado a la F parcial es
    mayor que un valor prescrito, PMIN, es la menos
    útil y ha de ser eliminada del modelo. El proceso
    continúa hasta que no puede eliminarse ninguna
    otra variable de acuerdo con el criterio
    propuesto.

182
Sigue
  • Una vez eliminada la variable del modelo, no
    puede ser entrada de nuevo en un paso posterior.

183
Remove
  • Es un procedimiento de selección de variables en
    que se eliminan todas las variables de un bloque
    en un solo paso.

184
A modo de resumen
  • Finalizada la prueba de significación del modelo
    o de los coeficientes, es posible llevar a cabo
    un análisis de residuales de forma gráfica
    (mediante los correspondientes plots) o bien
    utilizando la prueba de Durbin-Watson.

185
  • Verificación de los supuestos del modelo

186
Multicolinealidad
187
Estadísticos de colinealidadTolerancia y VIF
(variancia inflation factors)
  • Tolerancia Una primera medida para para probar
    la colinealidad o no dependencia lineal entre los
    regresores (Tp 1 Rp2).
  • Cuando tiene un valor máximo de 1, la variable no
    tiene ningún grado de colinealidad con las
    restantes, Un valor 0 indica que la variable es
    una combinación lineal perfecta de otros
    regresores. Es deseable que, en general, sea
    mayor a .40

188
Sigue
  • VIF (variance inflation factor) a medida que es
    mayor la multicolinealidad, en un de los
    regresores, la variancia de su coeficiente
    comienza a crecer. La multicolinealidad infla la
    variancia del coeficiente (VIFp 1/(1-Rxp2).
  • La VIF tomará un valor mínimo de 1 cuando no hay
    colinealidad y no tendrá límite superior en el
    caso de multicolinealidad.

189
Sigue..
  • En presencia de multicolinealidad, una solución
    lógica consiste en eliminar del modelo aquellas
    variables con más alto VIF (o más baja
    tolerancia).

190
Diagnósticos de colinealidad
  • Dimensiones factores diferentes que se hallan en
    el conjunto de variables independientes.
  • Autovalores los valores próximos a 0 indican
    colinealidad.
  • Índices de condición raíz cuadrada
    (autovalormayor/autovalor). Valores por encima de
    15 indican posibles problemas de colinealidad
  • Proporciones de variancia proporción de la
    variancia de cada coeficiente de la regresión
    parcial bj que está explicada por cada factor.

191
Sigue
  • Proporciones de variancia Hay problema de
    colinealidad si una dimensión (de índice de
    condición alto) explica gran cantidad de la
    variable de dos o más variables.

192
Resto de supuestos
193
Pruebas del resto de supuestos del modelo
  • Prueba de la linealidad
  • Pruebas de independencia
  • Prueba de homoscedasticidad
  • Prueba de normalidad

194
Scatter- plot (gráfico de dispersión)
  • El scatter plot nos permite obtener respuesta a
    la siguientes cuestiones
  • 1. Las variables X e Y están relacionadas?
  • 2. Las variables X e Y están linealmente
    relacionales?
  • 3. Las variables X e Y están relacionadas
    no- linealmente?
  • 4. La variación en el cambio de Y depende de
    X?
  • 5. Hay outliers (valores extremos o atípicos)?

195
Variables listadas en el SPSS
  • DEPENDEN variable dependiente.
  • ZPRED valores pronósticos tipificados valores
    pronósticos divididos por su desviación estándar
    (media de 0 y desviación 1).
  • ZRESID residuos tipificados.

196
Sigue
  • DRESID residuos eliminados es decir, al
    efectuar los pronósticos se elimina de la
    ecuación el caso sobre el que se efectúa el
    pronóstico.
  • ADJPRED pronósticos ajustados es decir, valores
    pronosticados sin incluir el caso pronosticado.
  • SRESID residuos estudentizados divididos por su
    desviación estándar y se distribuyen según la t
    de Student.
  • SDRESID residuos estudentizados

197
Interpretando los plots de valores predichos y
residuales
  • Los plots de los valores predichos, observados y
    residuales son esenciales en determinar si el
    modelo ajustado satisface los cuatro
    presupuestos de la regresión lineal
  • 1. Linealidad de la relación entre la variable
    dependiente e independientes.
  • 2. Independencias o no autocorrelación de los
    errores.
  • 3. Homoscedasticidad o variancia constante de
    los errores.
  • 4. Normalidad de la distribución del error.

198
1. Linealidad
  • Se obtiene del plot de los valores observados y
    predichos versus la variable independiente. Si la
    relación no es lineal, la dispersión (scatter) de
    los puntos mostrará una desviación sistemática de
    la línea de regresión.
  • Con el modelo de la regresión múltiple es mejor
    generar un gráfico simple (plot) de los valores
    observados versus los valores predichos.
    Teóricamente, en un gráfico de observados vs.
    predichos los puntos deberían moverse entre torno
    a la línea recta diagonal.

199
Sigue
  • El gráfico de valores residuales vs. valores
    predichos es esencialmente el mismo que el
    anterior, a excepción de que la línea de
    referencia es horizontal más que de 45 grados.

200
2) Independencia
  • Uno de los supuestos básicos del MRL (modelos de
    la regresión lineal) es la independencia entre
    los residuos. El estadístico de Durbin-Watson
    aporta información sobre el grado de
    independencia existente entre ellos

201
El estadístico de Durbin-Watson
  • El estadístico de Durbin-Watson (DW) proporciona
    información sobre el grado de independencia entre
    los residuales. El estadístico DW varía entre 0 y
    4, y toma el valor 2 cuando los residuales son
    independientes. Valores menores que 2 indica
    autocorrelación positiva. Podemos asumir
    independencia entre los residuales cuando DW toma
    valores entre 1.5 y 2.5

202
Residual Analysis Autocorrelation
  • Durbin-Watson Test for Autocorrelation
  • Statistic
  • The statistic ranges in value from zero to four.
  • If successive values of the residuals are close
    together (positive autocorrelation), the
    statistic will be small.
  • If successive values are far apart (negative
    auto-
  • correlation), the statistic will be large.
  • A value of two indicates no autocorrelation.

203
Sigue..
  • El valor del residual se calcula por
  • ei Yi - Yi

204
3) Homoscedasticidad
  • En el cuadro de diálogo de Gráficos de la
    regresión lineal del SPSS, se obtienen una serie
    de variables listadas para obtener diferentes
    gráficos de dispersión

205
Prueba de homoscedasticidad
  • Los valores ZRESID se trasladan al eje Y y los
    valores ZPRED al eje X.
  • La variación de los residuos debe ser uniforme en
    todo el rango de valores pronosticados es decir,
    el tamaño de los residuos es independiente del
    tamaño de los pronósticos. Por lo tanto, el
    gráfico de dispersión no debe mostrar ninguna
    pauta de asociación entre los pronósticos y los
    residuos.

206
4) Prueba de normalidad
  • A) Mediante el histograma de los residuos
    tipificados. La curva se construye con media 0 y
    un desviación típica de 1.
  • B) Gráfico de probabilidad normal. En el eje de
    las abscisas se representa la probabilidad
    acumulada de cada residuo y en de las ordenadas
    la probabilidad acumulada teórica o esperada.

207
Sigue
  • Teóricamente este gráfico debería ser una línea
    recta diagonal. Si los datos se inclinan hacia
    arriba o hacia abajo, indica una distribución
    asimétrica (sesgada).
  • Si el gráfico de probabilidad normal muestra una
    línea recta, es razonable asumir que los datos
    observados proceden de una distribución normal.
    Si los puntos se desvían de la línea recta, hay
    evidencia en contra de la distribución normal e
    independiente.

208
Correlaciones
209
Correlaciones
  • Correlaciones de orden cero Se presentan en la
    matriz de correlaciones simples entre todas las
    variables, incluyendo la variable de control. Se
    trata de la correlación ordinaria entre dos
    variables, no controlando ninguna (cero) otra
    variable.

210
Sigue
  • Correlación parcial La correlación que hay entre
    dos variables después de remover la correlación
    debida a su asociación con otras variables. Es
    decir, la correlación entre la variable
    dependiente y una variable independiente cuando
    los efectos lineales de las otras variables
    independientes del modelo han sido removidos.
    Neutralizando su efecto sobre la dependiente e
    independiente.

211
Sigue
  • Part Correlation (semiparcial). Es la posible
    relación entre un variable dependiente e
    independiente, controlando la relación que esta
    variable independiente pueda tener con otra u
    otras variables independientes. Se neutraliza los
    efectos lineales de una variable independiente
    del resto de variables independientes.
  • Está relacionada al cambio en R al cuadrado
    cuando una variable es añadida a la ecuación.
  • Es conocida, también, por correlación semiparcial.

212
Sigue
  • El procedimiento de Correlaciones Parciales
    calcula l
Write a Comment
User Comments (0)
About PowerShow.com