Title: Regresi
1Regresión Lineal Simpleyi b0 b1xi ui
Javier Aparicio División de Estudios Políticos,
CIDE javier.aparicio_at_cide.edu Primavera
2011 http//www.cide.edu/investigadores/aparicio/
metodos.html
2Contenido
- Estimación mediante el método de momentos
- Estimación por mínimos cuadrados ordinarios
- Bondad de ajuste R2
- Propiedades de los estimadores MCO
- Supuestos Gauss-Markov
- Insesgamiento
- Eficiencia
3y b0 b1x u
- donde y es
- Variable dependiente
- Variable explicada
- Variable de lado izquierdo (duh!)
- Regresando
- u es
- Residual
- Término de error
- mientras que x es
- Variable independiente
- Variable explicativa
- Covariable
- Variable de control
- Regresor
- Variable de lado derecho
- b0 y b1 parámetros o coeficientes a estimar
4Algunos supuestos
- El valor promedio de u, el término de error, en
la población es 0. Es decir,E(u) 0 - Este supuesto no es muy restrictivo puesto que
siempre podemos ajustar el intercepto b0 para
normalizar E(u) 0
5Media condicional 0
- Hay un supuesto crucial sobre la relación entre
el error y la variable explicativa cov(x, u) - Queremos que la información contenida en x sea
independiente de la información contenida en u
(ie, que no estén relacionados), de modo que - E(ux) E(u) 0, lo cual implica
- E(yx) b0 b1x
6E(yx) es una funcion lineal de x para cada
x, la predicción de y es E(yx)
y
f(y)
.
E(yx) b0 b1x
.
x1
x2
7Mínimos Cuadrados Ordinarios (MCO)
- La idea básica es estimar parámetros
poblacionales a partir de una muestra. - Sea (xi,yi) i1, ,n una muestra aleatoria de
tamaño n de una población. - Para cada observación en la muestra, tenemos
- yi b0 b1xi ui
8Línea de regresión, observaciones y errores
y
E(yx) b0 b1x
.
y4
u4
.
u3
y3
.
y2
u2
u1
.
y1
x1
x2
x3
x4
x
9Derivación de estimadores MCO /OLS
- El supuesto E(ux) E(u) 0 implica
queCov(x,u) E(xu) 0 - Por qué? En probabilidad básica sabemos
queCov(x,u) E(xu) E(x)E(u)y dado que
E(u)0 ? Cov(x,u) E(xu) 0
10continuación MCO/OLS
- El doble supuesto E(xu) E(u) 0 se traduce en
dos restricciones. - Y dado que u y b0 b1x,podemos reescribir
estas dos restricciones en términos de x, b0 y
b1 - E(u) E(y b0 b1x) 0
- E(xu) Ex(y b0 b1x) 0
- Conocidas como las restricciones de momentos
11Derivación de MCO usando el Método de Momentos
(MOM)
- (Breviario el 1º, 2º, 3º y 4º momentos de una
función de distribución de una variable aleatoria
son la media, varianza, sesgo y kurtosis,
respectivamente.) - El método de momentos consiste en imponer las
restricciones de momentos, asumidas como ciertas
para la población, en los momentos de la muestra. - Pero cómo? Recuerden que un estimador muestral
de E(X), la media de una población, es
simplemente la media aritmética de la muestra.
12Derivación de MCO / OLS
- La idea es buscar parámetros que nos aseguren que
las restricciones de momentos se cumplan en la
muestra. - Las restricciones muestrales son (el gorrito
denota parámetros estimados)
(1ª) (2ª )
13Estimador MCO / OLS intercepto
- Dada la definición de media muestral y las
propiedades de la sumatorias, podemos reescribir
la primera restricción como sigue
14Derivación de MCO / OLS
Y ahora, sustituyendo b0 en la segunda
restricción, tenemos
Aquí hay un paso mágico ver apéndice A.7 y A.8.
15estimador MCO / OLS pendiente b1
16Sobre el estimador MCO de b1
- b1, es la covarianza muestral entre x y y,
dividida entre la varianza muestral de x. - Si x y y están correlacionados positivamente, b1
será positivo (pues la varianza del denominador
siempre es positiva). - Si x y y están correlacionados negativamente, b1
será negativo. - Si x y y no tienen correlación alguna, b1 no será
estadísticamente distinto de cero (volveremos a
esto más tarde). - Obviamente, requerimos que x tenga cierta
varianza en la muestra.
17MCO / OLS
- Intuitivamente, MCO ajusta una línea a través de
los datos muestrale, de modo que la suma de
residuales al cuadrado (SSR) sea la mínima
posible de ahí el término mínimos cuadrados. - El residual, û, es un estimado del término de
error entre lo observado y lo predicho, es decir,
la diferencia entre la línea de regresión (fitted
line) y el dato observado. - Ver gráfica...
18Línea de regresión muestral, observaciones, y
residuales estimados
y
.
y4
û4
.
û3
y3
.
y2
û2
û1
.
y1
x
19Un enfoque alternativo Minimizar residuales al
cuadrado
- Siguiendo la idea de ajustar una línea de
regresión, podemos plantear un problema de
minimización. - Es decir, buscar parámetros b tales que minimicen
la siguiente expresión
20...continuación
- Usando cálculo para resolver un problema de
minimización con dos parámetros resulta en dos
condiciones de primer orden (FOC)similares a las
restricciones de momentos vistas antes, pero
ahora multiplicadas por n
21Propiedades algebraicas de MCO / OLS
- Al minimizar los residuales cuadrados
- La suma de los residuales de MCO será igual a
cero. - Por ende, la media muestral de los residuales
será cero también. - La covarianza muestral entre las variables
explicativas y los residuales será cero. - La línea de regresión de MCO siempre cruzará la
media de la muestra, ie, la media de x y la media
de y.
22Propiedades algebraicas (matemáticamente)
Es decir, la solución de MCO es idéntica a la del
método de momentos.
23Suma de cuadrados Terminología
SST es la suma de desviaciones al cuadrado de
las observaciones de la muestra es proporcional,
más no igual, a VAR(y).
24Demostración SST SSE SSR
25Bondad de ajuste R2
- Cómo saber qué tan bueno es el ajuste entre la
línea de regresión y los datos de la muestra? - Podemos calcular la proporción de la Suma de
cuadrados totales (SST) que es explicada por el
modelo. - Esto es la llamada R-cuadrada de una regresión
R2 SSE/SST 1 SSR/SST
26Haciendo regresiones con stata
- Hemos visto como derivar las fórmulas para
calcular estimadores MCO de nuestros parámetros
de interés b. - Podemos calcularlos a mano (muy tedioso), o
aplicar estas fórmulas en una hoja de cálculo
como excel (algo tedioso), o bien usar un paquete
estadístico estándar como stata (muy fácil) - Para correr una regresión de y en x en stata
regress y x1 x2 x3 (ver ejemplo)
27Sesgo y eficiencia de MCO
- Dos características deseables de cualquier
estimador estadístico son - Insesgamiento (unbiasedness) que el parámetro
estimado sea, en promedio, igual al verdadero
parámetro poblacional. - Eficiencia (efficiency) que la varianza del
estimador sea mínima (ie, máxima precisión). - Así, buscamos estimadores con sesgo mínimo y
máxima eficiencia (ie, mínima varianza). - MCO cuenta con ambas propiedades bajo ciertas
condiciones los supuestos Gauss-Markov.
28Supuestos Gauss-Markov I Insesgamiento de
MCO/OLS
- El modelo poblacional es lineal en sus
parámetros y b0 b1x u - Muestra aleatoria de tamaño n, (xi, yi) i1,
2, , n, representativa de la población, de modo
que el modelo muestral es yi b0 b1xi ui - Media condicional cero E(ux) 0 y por tanto
E(uixi) 0 - Varianza(xi ) gt 0
29Insesgamiento de MCO
- Para analizar el sesgo del estimador, necesitamos
reescribirlo en términos del parámetro
poblacional. - De modo que reescribimos la fórmula para b1 como
30Insesgamiento de MCO (cont.)
Sustituyendo para yi, el numerador de la
expresión anterior puede descomponerse como sigue
desviaciones de x
nvar(x) ncov(x,u)
31Insesgamiento de MCO (cont.)
32Insesgamiento de MCO (cont.)
El operador E(.) aplica a ui, el único componente
aleatorio de la expresión. El valor esperado de
la b1 estimada es el verdadero parámetro
poblacionaltoda vez que los 4 supuestos
Gauss-Markov se cumplan.
33Insesgamiento resumen
- Los estimadores MCO de b1 y b0 son insesgados.
- La demostración de esto depende de los 4
supuestos Gauss-Markov si alguno de ellos no se
cumple, MCO no necesariamente será insesgado. - El insesgamiento es una propiedad del estimador
muestral dada cierta muestra, éste puede estar
cerca o lejos del verdadero parámetro poblacional.
34Varianza de los estimadores MCO
- Ya vimos que la distribución muestral de
nuestro estimador está centrada en torno al
verdadero parámetro. - Qué tan dispersa será la distribución del
estimador? - Para analizar esto, requerimos un supuesto
Gauss-Markov adicional (el 5º)var(ux)
s2conocido como homoscedasticidad
(homoskedasticity) varianza constante.
35Varianza de MCO (cont.)
- Por estadística sabemos ques2 Var(ux)
E(u2x)-E(ux)2 - Y como E(ux) 0, entoncess2 E(u2x) E(u2)
Var(u) - De modo que s2 es la varianza no condicional de
los residuales, también llamada varianza del
error. - s, la raíz cuadrada de la varianza del error, se
conoce como la desviación estándar del error. - Con lo cual podemos decir que
- E(yx)b0 b1x
- Var(yx) s2
36Homoscedasticidad
y
f(yx)
.
E(yx) b0 b1x
.
37Heteroscedasticidad
f(yx)
y
.
.
E(yx) b0 b1x
.
x
38Varianza de MCO (cont.)
39Varianza de MCO resumen
- A mayor varianza del error, s2, mayor varianza
del estimador de b1. - A mayor varianza en xi, menor varianza del
estimador de b1. - Por ende, a mayor tamaño de muestra, n, menor
varianza del estimador de b1. - Pero ojo, la varianza del error es desconocida
necesitamos estimarla también.
40Estimación de la varianza del error
- No conocemos la varianza del error, s2, porque no
observamos los errores de la población, ui - Lo que observamos son los residuales (estimados)
del modelo muestral - Pero podemos usar los residuales estimados para
construir un estimador de la varianza del error.
41Estimación de la varianza del error
42Estimación de la varianza del error
Y, una vez que conocemos el error estándar de b1
estimada, podemos calcular su intervalo de
confianza y hacer pruebas de hipótesis.
43Apéndice A. Propiedades del operador Suma
44Apéndice A. Propiedades del operador Suma