Title: Temas Selectos en M
1Temas Selectos enMétodos CuantitativosIntroducci
ón
- Javier Aparicio
- División de Estudios Políticos, CIDE
- javier.aparicio_at_cide.edu
- Otoño 2008
- http//www.cide.edu/investigadores/aparicio/metodo
s.html
2Para qué sirven los métodos cuantitativos?
- Ante la dificultad de allegarse datos
experimentales en Ciencias Sociales, utilizamos
datos NO experimentales (observational data) para
hacer inferencias - Para verificar las hipótesis o predicciones de
cierta teoría con datos del mundo real - Para estimar la magnitud y significancia de una
relación empírica - Para validar hipótesis o teorías rivales ie,
efecto de una política pública
3Breviario metodológico
- Investigación cualitativa vs. cuantitativa? El
método idóneo depende tanto de tu pregunta de
investigación como del tipo de respuesta que
buscas obtener - Una investigación cuantitativa seria tiene al
menos cuatro elementos (King et al., 1994) - Inferencia descriptiva (exploración de datos) e
inferencia explicativa (exploración de mecanismos
causales). - Replicabilidad Procedimientos de recolección de
datos, codificación y análisis explícitos, claros
y generalizables. - Conclusiones probabilísticas (con incertidumbre)
de datos inciertos sólo pueden seguirse
conclusiones ídem. - The content is the method La investigación
será más o menos científica si y sólo si sigues
un método.
4Small n vs. large n
- Distintos tamaños de muestra imponen retos
diferentes - Muestras grandes permiten identificar patrones
fácilmente generalizables a lo largo de casos más
o menos comparables, mientras que muestras
pequeñas permiten estudiar a profundidad la
complejidad y/o peculiaridad de cada caso. - Una observación puede ser tan simple como un
punto en un plano de k dimensiones--mismo que
ponemos en perspectiva al compararlo con otras
observaciones manteniendo constantes otras
variables--o tan denso como el sinnúmero de
fenómenos que se entrecruzan en un episodio
histórico. - The curse of dimensionality
- A mayor N, mayor precisión tendrán los
estimadores de una regresión, lo cual fortalece
tus resultados... - ...pero a mayor N, el número de posibles
variables relevantes también aumenta, lo que
puede debilitar tu teoría o tus resultados
iniciales.
5Objetivos del Diseño de Investigación Mejores
Teorías
- Mejorar tu pregunta de investigación. Tu
pregunta de investigación debe - Ser "importante" para el "mundo real (so what?).
- Hacer una contribución específica a la literatura
existente. - Mejorar las teorías existentes
- Busca teorías falsificables (a la Popper) o que
podrían estar equivocadas--qué evidencia te
bastaría para demostrarte que tu teoría/creencia
está equivocada?) - Busca teorías con las mayores "implicaciones
observables" posibles--cuántas hipótesis se
desprenden de tu teoría? - Tu teoría debe ser clara y concreta, quizá
elegante, quizá parsimoniosa.
6Objetivos del Diseño de Investigación Mejor
Evidencia
- Mejorar la calidad de la evidencia existente
- Registra todo el proceso de recabación de datos ?
replicabilidad. - Recaba datos sobre el mayor número de
"implicaciones observables" posibles ?
robustezPuedes recabar más datos? Puedes usar
alguna otra variable dependiente? - Maximiza la validez de tus observaciones tus
datos en verdad miden lo que quieres? - Asegúrate de que tu recolección de datos es
confiable. - Mejorar el uso de la evidencia existente
- Evita sesgos usa tus datos para generar
inferencias no sesgadas ? que en promedio sean
correctas. - Maximiza la eficiencia explota la mayor
cantidad posible de información contenida en tus
datos ? minimiza la varianza de tus inferencias.
7Datos Corte transversal (cross-sectional)
- Muestra aleatoria de una población
- Observaciones a nivel individual, local,
nacional, etc., en un momento dado en el tiempo - Pro permite explotar la varianza o
heterogeneidad entre observaciones - Contra
- son realmente comparables unos casos con otros?
- No observamos un mismo caso en el tiempo (no
observamos el antes/despúes). - Si la muestra no es aleatoria o representativa ?
Problema de sesgo muestral / selección muestral
8Datos Panel / Longitudinales
- Datos agrupados (pooled cross-section) acumular
diferentes cortes de datos y tratarlos como una
sola muestra, controlando por diferencias
temporales, regionales, etc. - Datos panel permiten observar cierto
individuo/región a lo largo del tiempo. - T gt N Time series/cross-section explotan la
dinámica de los grupos (time-series asymptotics) - T lt N Datos panel o longitudinales explotan la
heterogeneidad de los grupos (cross-section
asymptotics)
9Datos Series de Tiempo
- Observaciones de una sola unidad a lo largo del
tiempo inflación, tasas de interés,
abstencionismo, número de denuncias. - Una serie de tiempo difícilmente será una muestra
aleatoria (iid) - Inercia (path dependence)
- Correlación temporal entre observaciones
- Tendencias de largo plazo
- Estacionalidad (seasonality)
- Cambios de corto vs. largo plazo
10El Problema de la Causalidad
- Afecta a estudios cuantitativos y cualitativos
por igual. - Hallar una correlación entre dos o más variables
NO establece causalidad. - De encontrar cierta correlación o efecto, cómo
podemos saber si en verdad X causó a Y? - One can only hope Estadísticamente, si
controlamos por suficientes variables adicionales
(covariates), es plausible que, ceteris paribus,
el efecto hallado sea causal - Theory to the rescue! La teoría subyacente nos
dice qué factores determinan qué variables. La
evidencia empírica simplemente apoyará o
rechazará las hipótesis derivadas de la teoría.
11Ejemplo Rendimiento de la educación
- Teoría Un modelo de inversión en capital humano
implica que a mayor educación, mayores ingresos. - En el modelo más simple, esto implica una
ecuación a estimar del tipo
12 . reg EARNINGS SCHOOL Source SS
df MS Number of obs
540 -------------------------------------------
F( 1, 538) 112.15 Model
19321.5589 1 19321.5589 Prob gt F
0.0000 Residual 92688.6722 538
172.283777 R-squared
0.1725 ------------------------------------------
- Adj R-squared 0.1710 Total
112010.231 539 207.811189 Root
MSE 13.126 ------------------------------
------------------------------------------------
EARNINGS Coef. Std. Err. t
Pgtt 95 Conf. Interval ------------------
--------------------------------------------------
--------- SCHOOL 2.455321 .2318512
10.59 0.000 1.999876 2.910765
_cons -13.93347 3.219851 -4.33 0.000
-20.25849 -7.608444 ----------------------------
--------------------------------------------------
6
137
14Ejemplo
- El estimador de b1 es el rendimiento de la
educación, pero será este un efecto causal? - El término de error o residual, u, incluye info
sobre todos los demás factores que afectan las
ganancias pero que no han sido incluidos en el
modelo. - Debemos controlar por tantos factores como nos
sea posible (confounding factors, covariates,
etc.) - Ojo al final siempre habrá factores no
observables que afectan las ganancias son parte
del residual. - Endogeneidad a) quizá las ganancias cuando
joven te ayudan a estudiar un posgrado (X
determina a Y, y viceversa). b) quizá tanto
educación como ganancias están determinadas
simultáneamente por una variable omitida (IQ,
por ejemplo).