Title: CORRELACION Y REGRESION LINEAL: Introducci
1CORRELACION Y REGRESION LINEAL Introducción
2Correlación lineal de Pearson.
- Medida de la estrechez de la asociación entre dos
variables cuantitativas. - Asociación fluctuación en conjunto de dos
variables
3Correlación lineal de Pearson
- Muchas veces en que se dispone de datos en pares,
se desea conocer si ambas variables está
relacionadas o son independientes
4Considere los siguientes datos
- Valores de pluviometría para once localidades a
diferente altura sobre el nivel del mar
5Gráfico de la asociación
Promedio de Y 530 mts
Promedio de X 959.2 mts
6COVARIANZA Medida de la variación en conjunto de
dos variables
CONCEPTO
FORMULA DE CALCULO
Donde n es el número de pares de valores X Y
7En el ejemplo
Atención! La función COVAR de Excel divide por
n...
8Covarianza en el ejemplo
- Cov(XY) 13.079,41
- El signo positivo indica que valores por sobre el
promedio de X tienden a estar asociados con
valores por sobre el promedio de Y - Valores negativos indican que valores por sobre
el promedio de X tienden a estar asociados con
valores por debajo del promedio de Y
9Estandarización de la medición
- Pearson, matemático Inglés, desarrolló un índice,
que divide la covarianza por el producto de las
desviaciones estándares de X y de Y
En la población En la
muestra
10Correlación lineal de Pearson
- El índice r, fluctúa entre 1 y 1
- Si la fluctuación en conjunto es estrecha, el
valor de r se acerca a 1 o 1. - Si la fluctuación en conjunto es baja, el valor
de r se acerca a cero.
11Coeficiente de correlación de Pearson en el
ejemplo
12Es la correlación observada diferente de cero?
(H0??)
Nlt 30
Ngt 30
N es la cantidad de pares XY
13Es la correlación observada diferente de cero, en
el ejemplo?
En la tabla de t, con alfa 0.05 (dos colas) y 10
grados de libertad (n-1), el valor crítico es
2.22 Por lo tanto se puede rechazar H0
respecto del valor poblacional de rho Hay una
asociación significativa entre la altura sobre el
nivel del mar y la cantidad de precipitación (Plt0.
05) (en la población)
14Otra opción es comparar el valor de r
calculado con el valor de r de la
tabla adjunta. Si el valor de r calculado es
mayor que el r del número de grados de libertad
de la correlación (n-1)10 valor crítico 0.632
15Transformación de Fisher del coeficiente de
correlación
Z tiene distribución aproximadamente normal,
con media r y error estándar
16Transformación de Fisher en el ejemplo
17Intervalo de confianza del coeficiente de
correlación
Para obtener el intervalo de confianza en
unidades de correlación se transforman de modo
inverso usando el mismo método de r a z
En INTERNET http//faculty.vassar.edu/lowry/rho.h
tml?
18Intervalo de confianza en el ejemplo
Según la página de Internet, el intervalo
de confianza de 95 para r0.856 límite
inferior0.527 límite superior0.961
19Comparación de coeficientes de correlación
Se utilizan los coeficientes transformados
20Correlación entre las líneas eléctricas y el
cáncer
- Epidemiólogos del Instituto Karolinska de Suecia
investigaron durante 25 años a 500.000 personas
que vivían a menos de 300 metros de una línea
eléctrica de alto voltaje. - Observaron que los niños tenían mayor incidencia
de leucemia.
21Correlación entre las líneas eléctricas y el
cáncer
- Los hallazgos descritos obligaron al gobierno
sueco a considerar reglamentos que reducirían la
construcción de casas cercanas a las líneas
eléctricas de alto voltaje.
22Correlación entre las líneas eléctricas y el
cáncer
- En un artículo acerca del estudio, la revista
Time informó que aunque las investigaciones no
demuestran una relación de causa y efecto, sí
indican una inequívoca correlación entre el grado
de exposición y el riesgo de leucemia infantil.
23Errores comunes respecto a la correlación
- Se debe tener cuidado de evitar concluir que la
correlación implica causalidad - Variables ocultas
- No utilizar tasas o promedios
- Pérdida de variación entre individuos
- Supuesto de linearidad de la relación
24Correlación y regresión lineal
- Si existe una conexión biológica (o de otro tipo)
entre las variables X e Y, entonces puede
formularse un modelo lineal que represente esta
asociación. - El modelo se basa en la covarianza y en su forma
más sencilla es una línea recta (Y a bX)
25Ejemplo Rendimiento promedio de plantas de soya
(gr/planta) obtenidos en respuesta a los niveles
indicados de exposición al ozono en la la fase de
crecimiento.
X
Y ozono (ppm)
rendimiento (gr/pl) 0.02 242
0.07 237 0.11 231 0.15 201
SXi 0.35 SYi 911 X 0.0875 Y
227.75 SX2i 0.0399 SY2i 208495
SXiYi 76.99
26MODELO
- Asumiendo una relación lineal entre el
rendimiento y el nivel del ozono, el modelo
establece que la media verdadera de la variable
dependiente cambia a una tasa constante en la
medida que la variable dependiente aumenta o
disminuye. - La relación funcional entre la media verdadera de
Yi, E(Yi) y Xi es la ecuación de la línea recta
27MODELO
- Donde
- a intercepto (valor de E(Y)cuando X es igual a
cero - b pendiente de la línea (tasa de cambio de E(Y)
ante un cambio unitario en X.
28SUPUESTOS
- Las observaciones de la variable dependiente Yi
se asumen como observaciones aleatorias tomadas
de poblaciones de variables aleatorias donde la
media de cada población está dada por E(Yi). - La desviación de una observación Yi desde la
media de su población, E(Yi) se considera
añadiendo un término de error aleatorio ei para
dar el siguiente modelo
29SUPUESTOS
- El subíndice indica cada unidad de observación en
particular, i 1, 2, n. Los Xi son las n ésimas
observaciones de la variable dependiente, que se
supone son tomadas sin error. - Es decir, son constantes conocidas los Yi y los
Xi son observaciones pareadas, tomadas en cada
unidad observacional.
30(No Transcript)
31ESTIMACION DE MINIMOS CUADRADOS
- Los parámetros en el modelo son b y a, a ser
estimados desde los datos (muestra). Si no
existiese error aleatorio en Yi, cualquier par de
puntos podría ser utilizado para resolver los
valores de los parámetros. - La variación aleatoria de Y, sin embargo, hace
que cada par de valores de resultados diferentes
(Todos los estimadores serían idénticos sólo si
los datos observados cayeran exactamente sobre
una línea recta.)
32ESTIMACION DE MINIMOS CUADRADOS
- Por lo tanto, el método de resolución debe
combinar toda la información para dar una sola
solución que sea la mejor en base a algún
criterio. - El procedimiento de estimación de mínimos
cuadrados utiliza el criterio de que la solución
debe dar la suma más pequeña posible para las
desviaciones al cuadrado desde los valores
observados de Yi hasta sus medias verdaderas
dadas por la solución.
33ESTIMACION DE MINIMOS CUADRADOS
- Sean b y a los estimadores numéricos de los
parámetros b y a, respectivamente, y sea - el promedio estimado de Y para cada Xi, i 1,
2,, n. - Se debe observar que Yi es obtenida sustituyendo
los parámetros en la forma funcional del modelo
que relaciona E(Yi) con Xi, dado por la ecuación
de la recta.
34 El principio de los mínimos cuadrados escoge
valores de a y b que minimizan la suma de
cuadrados de los residuales, SC(Res) Dond
e es el valor residual
observado para la iésima observación. La suma
indicada por S es sobre todos los valores del
conjunto como lo indican los índices i 1 hasta
n Los estimadores de b y a se obtienen usando
cálculo para encontrar los valores que minimizan
SC(Res). Las derivadas de SC(Res) con respecto a
b y a son definidas iguales a cero.
35Las ecuaciones normales son n(a) (SXi)b
SYi (SXi)a (SX2i)b SXiYi Resolviendo las
ecuaciones simultáneamente para a y b, da
los estimadores para a y b S(Xi-X)(Yi-Y)
Sxiyi b
S(Xi-X)2 Sx2i a Y - bX
36Para facilidad de cálculo
(SXi)2 Sx2i SX2i - n
(SXi)(SYi) Sxiyi SXiYi -
n Lo que da la
siguiente fórmula de cálculo para la pendiente
37Cálculo de la pendiente (b)
X
Y ozono (ppm)
rendimiento (gr/pl) 0.02 242
0.07 237 0.11 231 0.15 201
38Cálculo de la constante (a)y ecuación
a 227.75 - (-293.531)(0.08875) 253.434
La ecuación de mínimo cuadrado que caracteriza el
efecto del ozono sobre el rendimiento promedio de
la soya en este estudio, asumiendo que el modelo
lineal es correcto es
39Ejemplo Biomasa
40Matriz de correlaciones del ejemplo
(obtenida con Herramientas para Análisis de
Excel, Correlación)
Valor crítico de r para alfa 0.05 y 43 grados de
libertad 0.3 appx
Las celdas en color contienen correlaciones
significativas Plt0.05)
41Relación significativa (Plt0.05) entre pH y
Biomasa
42Regresión lineal simple entre pH y biomasa
43Relación no significativa (P?0.05) entre
salinidad y biomasa.
44Relación significativa (Plt0.05) entre Zn y
Biomasa
45Análisis de regresión pH vs Biomasa
significancia
IC 95 para coeficientes
ecuación
significancia
46Gráfico de línea de regresión e intervalo de
confianza de 95 para la relación pH - biomasa
Observe que la pendiente no es cero, con un 95
de confianza
47Análisis de regresión salinidad vs biomasa
48Gráfico de línea de regresión e intervalo de
confianza de 95 para la relación salinidad -
biomasa
Observe que la pendiente puede ser igual a cero,
con un 95 de confianza