CORRELACION Y REGRESION LINEAL: Introducci

About This Presentation

Title:

CORRELACION Y REGRESION LINEAL: Introducci

Description:

CORRELACION Y REGRESION LINEAL: Introducci n Mario Briones L. MV, MSc – PowerPoint PPT presentation

Number of Views:175

Avg rating:3.0/5.0

Slides: 49

Provided by: J3269

Category:

more less

Transcript and Presenter's Notes

Title: CORRELACION Y REGRESION LINEAL: Introducci

1
CORRELACION Y REGRESION LINEAL Introducción

Mario Briones L.
MV, MSc

2
Correlación lineal de Pearson.

Medida de la estrechez de la asociación entre dos
variables cuantitativas.
Asociación fluctuación en conjunto de dos
variables

3
Correlación lineal de Pearson

Muchas veces en que se dispone de datos en pares,
se desea conocer si ambas variables está
relacionadas o son independientes

4
Considere los siguientes datos

Valores de pluviometría para once localidades a
diferente altura sobre el nivel del mar

5
Gráfico de la asociación
Promedio de Y 530 mts
Promedio de X 959.2 mts
6
COVARIANZA Medida de la variación en conjunto de
dos variables
CONCEPTO
FORMULA DE CALCULO
Donde n es el número de pares de valores X Y
7
En el ejemplo
Atención! La función COVAR de Excel divide por
n...
8
Covarianza en el ejemplo

Cov(XY) 13.079,41
El signo positivo indica que valores por sobre el
promedio de X tienden a estar asociados con
valores por sobre el promedio de Y
Valores negativos indican que valores por sobre
el promedio de X tienden a estar asociados con
valores por debajo del promedio de Y

9
Estandarización de la medición

Pearson, matemático Inglés, desarrolló un índice,
que divide la covarianza por el producto de las
desviaciones estándares de X y de Y

En la población En la
muestra
10
Correlación lineal de Pearson

El índice r, fluctúa entre 1 y 1
Si la fluctuación en conjunto es estrecha, el
valor de r se acerca a 1 o 1.
Si la fluctuación en conjunto es baja, el valor
de r se acerca a cero.

11
Coeficiente de correlación de Pearson en el
ejemplo
12
Es la correlación observada diferente de cero?
(H0??)
Nlt 30
Ngt 30
N es la cantidad de pares XY
13
Es la correlación observada diferente de cero, en
el ejemplo?
En la tabla de t, con alfa 0.05 (dos colas) y 10
grados de libertad (n-1), el valor crítico es
2.22 Por lo tanto se puede rechazar H0
respecto del valor poblacional de rho Hay una
asociación significativa entre la altura sobre el
nivel del mar y la cantidad de precipitación (Plt0.
05) (en la población)
14
Otra opción es comparar el valor de r
calculado con el valor de r de la
tabla adjunta. Si el valor de r calculado es
mayor que el r del número de grados de libertad
de la correlación (n-1)10 valor crítico 0.632
15
Transformación de Fisher del coeficiente de
correlación
Z tiene distribución aproximadamente normal,
con media r y error estándar
16
Transformación de Fisher en el ejemplo
17
Intervalo de confianza del coeficiente de
correlación
Para obtener el intervalo de confianza en
unidades de correlación se transforman de modo
inverso usando el mismo método de r a z
En INTERNET http//faculty.vassar.edu/lowry/rho.h
tml?
18
Intervalo de confianza en el ejemplo
Según la página de Internet, el intervalo
de confianza de 95 para r0.856 límite
inferior0.527 límite superior0.961
19
Comparación de coeficientes de correlación
Se utilizan los coeficientes transformados
20
Correlación entre las líneas eléctricas y el
cáncer

Epidemiólogos del Instituto Karolinska de Suecia
investigaron durante 25 años a 500.000 personas
que vivían a menos de 300 metros de una línea
eléctrica de alto voltaje.
Observaron que los niños tenían mayor incidencia
de leucemia.

21
Correlación entre las líneas eléctricas y el
cáncer

Los hallazgos descritos obligaron al gobierno
sueco a considerar reglamentos que reducirían la
construcción de casas cercanas a las líneas
eléctricas de alto voltaje.

22
Correlación entre las líneas eléctricas y el
cáncer

En un artículo acerca del estudio, la revista
Time informó que aunque las investigaciones no
demuestran una relación de causa y efecto, sí
indican una inequívoca correlación entre el grado
de exposición y el riesgo de leucemia infantil.

23
Errores comunes respecto a la correlación

Se debe tener cuidado de evitar concluir que la
correlación implica causalidad
Variables ocultas
No utilizar tasas o promedios
Pérdida de variación entre individuos
Supuesto de linearidad de la relación

24
Correlación y regresión lineal

Si existe una conexión biológica (o de otro tipo)
entre las variables X e Y, entonces puede
formularse un modelo lineal que represente esta
asociación.
El modelo se basa en la covarianza y en su forma
más sencilla es una línea recta (Y a bX)

25
Ejemplo Rendimiento promedio de plantas de soya
(gr/planta) obtenidos en respuesta a los niveles
indicados de exposición al ozono en la la fase de
crecimiento.
X
Y ozono (ppm)
rendimiento (gr/pl) 0.02 242
0.07 237 0.11 231 0.15 201
SXi 0.35 SYi 911 X 0.0875 Y
227.75 SX2i 0.0399 SY2i 208495
SXiYi 76.99
26
MODELO

Asumiendo una relación lineal entre el
rendimiento y el nivel del ozono, el modelo
establece que la media verdadera de la variable
dependiente cambia a una tasa constante en la
medida que la variable dependiente aumenta o
disminuye.
La relación funcional entre la media verdadera de
Yi, E(Yi) y Xi es la ecuación de la línea recta

27
MODELO

Donde
a intercepto (valor de E(Y)cuando X es igual a
cero
b pendiente de la línea (tasa de cambio de E(Y)
ante un cambio unitario en X.

28
SUPUESTOS

Las observaciones de la variable dependiente Yi
se asumen como observaciones aleatorias tomadas
de poblaciones de variables aleatorias donde la
media de cada población está dada por E(Yi).
La desviación de una observación Yi desde la
media de su población, E(Yi) se considera
añadiendo un término de error aleatorio ei para
dar el siguiente modelo

29
SUPUESTOS

El subíndice indica cada unidad de observación en
particular, i 1, 2, n. Los Xi son las n ésimas
observaciones de la variable dependiente, que se
supone son tomadas sin error.
Es decir, son constantes conocidas los Yi y los
Xi son observaciones pareadas, tomadas en cada
unidad observacional.

30
(No Transcript)
31
ESTIMACION DE MINIMOS CUADRADOS

Los parámetros en el modelo son b y a, a ser
estimados desde los datos (muestra). Si no
existiese error aleatorio en Yi, cualquier par de
puntos podría ser utilizado para resolver los
valores de los parámetros.
La variación aleatoria de Y, sin embargo, hace
que cada par de valores de resultados diferentes
(Todos los estimadores serían idénticos sólo si
los datos observados cayeran exactamente sobre
una línea recta.)

32
ESTIMACION DE MINIMOS CUADRADOS

Por lo tanto, el método de resolución debe
combinar toda la información para dar una sola
solución que sea la mejor en base a algún
criterio.
El procedimiento de estimación de mínimos
cuadrados utiliza el criterio de que la solución
debe dar la suma más pequeña posible para las
desviaciones al cuadrado desde los valores
observados de Yi hasta sus medias verdaderas
dadas por la solución.

33
ESTIMACION DE MINIMOS CUADRADOS

Sean b y a los estimadores numéricos de los
parámetros b y a, respectivamente, y sea
el promedio estimado de Y para cada Xi, i 1,
2,, n.
Se debe observar que Yi es obtenida sustituyendo
los parámetros en la forma funcional del modelo
que relaciona E(Yi) con Xi, dado por la ecuación
de la recta.

34
El principio de los mínimos cuadrados escoge
valores de a y b que minimizan la suma de
cuadrados de los residuales, SC(Res) Dond
e es el valor residual
observado para la iésima observación. La suma
indicada por S es sobre todos los valores del
conjunto como lo indican los índices i 1 hasta
n Los estimadores de b y a se obtienen usando
cálculo para encontrar los valores que minimizan
SC(Res). Las derivadas de SC(Res) con respecto a
b y a son definidas iguales a cero.
35
Las ecuaciones normales son n(a) (SXi)b
SYi (SXi)a (SX2i)b SXiYi Resolviendo las
ecuaciones simultáneamente para a y b, da
los estimadores para a y b S(Xi-X)(Yi-Y)
Sxiyi b
S(Xi-X)2 Sx2i a Y - bX
36
Para facilidad de cálculo
(SXi)2 Sx2i SX2i - n
(SXi)(SYi) Sxiyi SXiYi -
n Lo que da la
siguiente fórmula de cálculo para la pendiente
37
Cálculo de la pendiente (b)
X
Y ozono (ppm)
rendimiento (gr/pl) 0.02 242
0.07 237 0.11 231 0.15 201
38
Cálculo de la constante (a)y ecuación
a 227.75 - (-293.531)(0.08875) 253.434
La ecuación de mínimo cuadrado que caracteriza el
efecto del ozono sobre el rendimiento promedio de
la soya en este estudio, asumiendo que el modelo
lineal es correcto es
39
Ejemplo Biomasa
40
Matriz de correlaciones del ejemplo
(obtenida con Herramientas para Análisis de
Excel, Correlación)
Valor crítico de r para alfa 0.05 y 43 grados de
libertad 0.3 appx
Las celdas en color contienen correlaciones
significativas Plt0.05)
41
Relación significativa (Plt0.05) entre pH y
Biomasa
42
Regresión lineal simple entre pH y biomasa
43
Relación no significativa (P?0.05) entre
salinidad y biomasa.
44
Relación significativa (Plt0.05) entre Zn y
Biomasa
45
Análisis de regresión pH vs Biomasa
significancia
IC 95 para coeficientes
ecuación
significancia
46
Gráfico de línea de regresión e intervalo de
confianza de 95 para la relación pH - biomasa
Observe que la pendiente no es cero, con un 95
de confianza
47
Análisis de regresión salinidad vs biomasa
48
Gráfico de línea de regresión e intervalo de
confianza de 95 para la relación salinidad -
biomasa
Observe que la pendiente puede ser igual a cero,
con un 95 de confianza

Write a Comment

User Comments (0)

About PowerShow.com

CORRELACION Y REGRESION LINEAL: Introducci - PowerPoint PPT Presentation

CORRELACION Y REGRESION LINEAL: Introducci

CORRELACION Y REGRESION LINEAL: Introducci n Mario Briones L. MV, MSc – PowerPoint PPT presentation