Title: Diapositiva 1
1Regresión y Correlación Lineal
Qué es el análisis de correlación lineal ?
Es una herramienta estadística que podemos usar
para describir el grado de relación lineal entre
las variables.
2Regresión y Correlación Lineal
Tipos de Variables
Variable Independiente (X) (determinística, es
decir no aleatoria.)
Variable Dependiente (Y) aleatoria
Ejemplos X Número de llamadas telefónicas
realizadas por un vendedor promocionando un
producto. Y Unidades vendidas por el
vendedor. X Tiempo que dedica un estudiante a
una materia. Y Evaluación que obtiene el
estudiante en la materia.
3Regresión y Correlación Lineal
Ejercicio Modelo
En una ciudad de Canadá, las personas al comprar
casas se interesan por el precio del costo de la
calefacción. Se ha determinado que un grupo de
factores pueden estar relacionados con el costo (
en dólares)
- Temperatura exterior. (Grados Fahrenheit)
- Aislante térmico en el desván. (en pulgadas)
- Antigüedad del calefactor.
- Área de la sala principal del apartamento. (en
metros cuadrados).
Un cliente le ha preguntado a un vendedor Si
usted me brinda la información de las variables
anteriores de un apartamento, cómo puedo saber
yo aproximadamente cuanto pagaré en calefacción?.
Cuan confiable será la información que usted me
brinde?
4Regresión y Correlación Lineal
Pasos en el Análisis de Correlación
- Determinar cuál es la variable dependiente. Y
Costo.
- Seleccionar una muestra de tamaño n de ambas
variables X e Y, con lo que se obtienen n pares
de observaciones - (x1 , y1) , (x2 , y2) (xn , yn).
En nuestro ejemplo se tomo una muestra de 20
apartamentos. Se midieron todas las variables
independientes para cada uno de ellos.
5(No Transcript)
6Regresión y Correlación Lineal
- Mostrar la relación en un diagrama de dispersión
Gráfico de X vs. Y. - Se aprecia de manera descriptiva el sentido
y la intensidad de relación entre las variables.
Se realizaran los 4 gráficos que corresponden a
cada una de las variables independientes
consideradas.
7Regresión y Correlación Lineal
Relación Inversa fuerte
8Regresión y Correlación Lineal
Relación Inversa débil
9Regresión y Correlación Lineal
Relación Directa moderada
10Regresión y Correlación Lineal
Relación directa fuerte
aunque se aprecia una tendencia no lineal
11Regresión y Correlación Lineal
- Calcular un coeficiente de correlación lineal r a
partir de la muestra, como aproximación de la
verdadera relación lineal ? (rho) entre las
variables.
12Regresión y Correlación Lineal
Interpretación
- El valor absoluto de r indica la fuerza de la
relación entre Y y X. - El signo la dirección de la relación (directa o
inversamente proporcional) - (tener cuidado con relaciones espúreas)
r 1 correlación positiva perfecta. r -1
correlación negativa perfecta. r 0 no hay
relación lineal entre Y y X.
13Regresión y Correlación Lineal
Si hay presencia de varias variables
independientes, entonces podemos agrupar todas
las correlaciones en la Matriz de Correlaciones.
14Regresión y Correlación Lineal
Interpretación de las Correlaciones lineales e
Identificación de las Variables independientes
con mayor correlación lineal.
15Regresión y Correlación Lineal
Temperatura. Una correlación de -0,812 indica
alta correlación, inversamente proporcional A
mayor Temperatura exterior, menor el costo en
calefacción y viceversa.
Aislante. La correlación de 0,257 es baja, así
que no existe relación lineal entre las variables.
Antigüedad. Una correlación de 0,512 es
moderada, directamente proporcional, a mayor
antigüedad del calefactor, mayor costo y
viceversa.
Tamaño de la sala principal. Una correlación de
0,991 es alta y directamente proporcional A
mayor tamaño de la sala, mayor costo de la
calefacción
16Regresión y Correlación Lineal
- Prueba de Hipótesis para analizar si las
correlaciones son significativamente diferentes
de cero.
Las correlaciones que son significativas aparecen
reflejados en el cálculo de la matriz de
correlaciones
Conclusión Parcial Seleccionamos a las variables
Temperatura y Tamaño para continuar el análisis
acerca del Costo.
Esto quiere decir que la correlación de -,812
entre Temperatura y Costo y la de ,991 entre
Tamaño y Costo es significativa si consideramos
un nivel de confianza del 99 (a 0,01) si
bajamos el nivel de confianza a un 95 (a
0,05), también es significativa la relación de
,537 entre Antigüedad y Costo.
17Regresión y Correlación Lineal
Qué es el análisis de regresión lineal ?
Es modelar la dependencia de la variable Y de la
variable X a través de una recta
18Regresión y Correlación Lineal
a. Cálculo de la recta de regresión que expresa
la relación entre Temperatura y Costo.
a0 y a1 parámetros e error aleatorio.
a0 y a1 son estimados a partir de la
muestra obteniendo la recta
Y a0 a1X e
Constante de regresión
Coeficiente de regresión
Interpretación de la pendiente Cuánto cambia la
variable dependiente Y, por cada unidad que varíe
la variable independiente X.
19Regresión y Correlación Lineal
Estimación de los parámetros Método de los
mínimos cuadrados.
La recta de regresión hace mínimos los cuadrados
de las distancias verticales desde cada punto de
una observación a la recta.
Yi es un valor observado real de la variable Y
es un valor de la recta predicho por la ecuación
min es el número más pequeño que se puede obtener
si se suman estas desviaciones verticales
elevadas al cuadrado entre los puntos y la recta.
20Regresión y Correlación Lineal
Los coeficientes a1 y a0 se obtienen mediante las
expresiones
Aplicamos MegaStat para realizar el Análisis de
Regresión
Y marcamos en la nueva ventana las opciones que
aparecen en la pantalla siguiente que nos
mostrarán todas las salidas que son de nuestro
interés para el análisis de regresión
MegaStat
Correlation/Regresión
Regresión Análisis
21Regresión y Correlación Lineal
22Regresión y Correlación Lineal
Salida
23Regresión y Correlación Lineal
Salida
24Regresión y Correlación Lineal
Recta de regresión estimada
Esta es la ecuación de la recta de regresión
pintada en el diagrama de dispersión, que fue
mostrada anteriormente
Note que la pendiente -4.9342 tiene signo
negativo, lo cual refleja que la relación es
inversa, análogo al signo del coeficiente de
correlación (-.812).
El valor de la pendiente significa que por cada
grado que descienda la temperatura exterior
habrá un aumento promedio de 5 dólares en el
costo de la calefacción.
25Regresión y Correlación Lineal
b. Cálculo del error estándar de la estimación
Mide la variabilidad o dispersión de los valores
observados alrededor de la línea de regresión.
Si se trabaja con una recta, se puede calcular el
error mediante
Mientras más grande sea el error estándar de la
estimación, mayor será la dispersión de los
puntos alrededor de la línea de regresión
En nuestro ejemplo el error estándar de
estimación que se comete al usar la recta para
estimar el costo es de 63,553
26Regresión y Correlación Lineal
c. Cálculo del Coeficiente de Determinación
Mide el poder explicativo del modelo de
regresión, es decir, la parte de la variación de
Y explicada por la variación de X
El valor de r2 ha de estar entre 0 y 1, si r2
0,70 significa que el 70 de la variación de Y
está explicada por las variaciones de X. Es
evidente que cuanto mayor sea r2, mayor poder
explicativo tendrá nuestro modelo.
En nuestro ejemplo Si analizamos el valor del
coeficiente de determinación r ² 0.659,
apreciamos que aproximadamente el 66 de la
variabilidad del costo esta determinado por la
variabilidad en la Temperatura exterior.
27Regresión y Correlación Lineal
d. Prueba de Hipótesis para analizar si la
pendiente es significativa
Para tomar una decisión podemos comparar el valor
de un estadístico con un percentil, o utilizar un
criterio equivalente, usado en los paquetes de
Estadística Comparar el p-valor con el nivel de
significación
Regla de Decisión
Rechazar Ho si p lt a
En el ejemplo p 1.41E-05 lt 0.05, así que
rechazamos H0 por lo que el valor de la pendiente
es significativamente diferente de cero.
Conclusión La relación entre la Temperatura
Exterior y el Costo es significativa.
28Regresión y Correlación Lineal
e. Predicciones
e.1) Cálculo de una predicción puntual.
Suponga que se desea un estimador puntual del
costo de un apartamento, si la temperatura
exterior es de 35 grados
Sol Sustitución del valor de x 35, en la
ecuación de la recta para obtener un valor
e.2) Cálculo de un intervalo de Predicción
Se desea calcular una estimación por intervalo
con un nivel del confianza del 95 para el
apartamento específico en un día considerado con
temperatura de 35 grados. Aquí calculamos un
intervalo de predicción.
29Regresión y Correlación Lineal
e.3) Cálculo del Intervalo de Confianza para el
Costo Promedio de todos los apartamentos, para
una temperatura dada.
Se desea calcular una estimación por Intervalo,
del costo promedio de la calefacción de todos
los apartamentos considerados en los que la
temperatura es de 35 grados. Aquí calculamos un
intervalo de confianza.
Con el Uso del Programa MegaStat Marcar en la
ventana correspondiente a Análisis de Regresión
el valor de predicción de interés, en nuestro
caso 35.
30Regresión y Correlación Lineal
31Regresión y Correlación Lineal
La salida obtenida con el programa es
Conclusiones
Nota Observe que el tamaño del intervalo de
confianza (para todos los apartamentos con
temperatura exterior de 35 grados), es menor que
el intervalo de predicción (para un solo
apartamento con temperatura exterior de 35
grados). Es de una amplitud mucho menor, ya que
habrá mayor variación en el estimado del costo
para una observación que para un grupo.
e.1 El costo por la calefacción de un apartamento
con Temperatura de 35 grados es de 216,105
dólares.
e.2 Con un nivel de confianza del 95 el costo
por la calefacción de un apartamento con
Temperatura de 35 grados oscila entre 79,234 y
352,976
e.3 El costo promedio de la calefacción de los
apartamentos para una temperatura de 35 grados se
encuentra entre 186,000 246,211 con una
confianza del 95.
32Regresión y Correlación Lineal
Análisis de las suposiciones realizadas para la
recta de regresión
Debemos comprobar que se cumplen dos condiciones
fundamentales
a. Los residuos siguen una distribución
aproximadamente Normal.
Para ello realizamos el gráfico de Probabilidad
Normal, obteniendo
Se aprecia que se ajustan aproximadamente a la
recta x y, por lo que puede concluirse
que los residuos tienen una distribución
aproximadamente normal.
33Regresión y Correlación Lineal
b. La variabilidad de los residuos y - y no varía
en dependencia del valor estimado y
Esto lo apreciamos en el gráfico de los residuos.
En este caso nuestro valor estimado y, es el
costo estimado
Efectivamente se observa un comportamiento
aleatorio de los residuales
Con esto se concluye que todo el análisis de
regresión efectuado hasta el momento es valido.
34Regresión y Correlación Lineal
Un análisis análogo podemos realizar para
analizar la relación entre el Tamaño de la sala
principal y el costo del calefactor, dado que la
correlación obtenida es alta 0,991. Sin embargo
el análisis seria muy similar, excepto algo muy
importante que es el análisis de los residuales.
Veamos los gráficos
a. Grafico de Probabilidades Normales
Se observa un comportamiento análogo al anterior,
es decir los residuales siguen una distribución
normal.
35Regresión y Correlación Lineal
b. Gráfico de los valores estimados vs.
Residuos.
Esto significa que no es valido el modelo de
regresión realizado previamente. Las
consecuencias de no realizar este análisis es que
las estimaciones de los coeficientes de la
regresión pueden no ser adecuados y las
predicciones pueden ser incorrectas.
En este caso los residuos sí muestran variación
en dependencia de los valores estimados del
costo, vemos que valores muy pequeños o muy altos
tienen variabilidad mayor que los que están
alrededor de un costo de 200, es decir no hay un
comportamiento aleatorio.