Title: Diapositiva 1
1ESTIMACIÓN EN ÁREAS PEQUEÑAS EN EL INSTITUTO
GALEGO DE ESTATÍSTICA
Esther López Vizcaíno esther.lopez_at_ige.eu
2Contenido
- Introducción
- Ejemplo para la discusión
- Ejemplo de aplicación de modelos con datos
agregados - Ejemplo de aplicación de modelos con datos a
nivel de individuo - Conclusiones
- Futuro
- Bibliografía
3Necesidades de los usuarios
No está totalmente satisfecha
Demanda de datos estadísticos en áreas pequeñas
- La información derivada de operaciones censales
es costosa y se limita a una serie de variables
cuya referencia temporal no tiene la
actualización necesaria - Los registros administrativos, con un enorme
potencial de información, no se explotan lo
suficiente - Las encuestas por muestreo, dado su elevado
coste, raramente aportan datos representativos
para territorios infra-municipales
?
Qué
falla
4Demanda creciente
Administraciones locales
Por sus propias competencias, requieren
información desagregada para el diseño y
evaluación de sus políticas en sus respectivos
ámbitos geográficos
Usuarios privados
Políticas de marketing a poblaciones o segmentos
muy concretos Las decisiones de inversión en una
región se basan en el conocimiento de sus
características población activa, costes de
producción,
Investigadores
Necesitan datos suficientemente desagregados con
el objeto de construír, contrastar y validar
modelos
5Productores públicos
MISIÓN
Proporcionar información relevante, fiable y de
forma neutral
Tendencia hacia una mayor demanda de datos
desagregados
Los productores públicos de estadísticas deben
enfrentarse a este reto en cumplimiento de su
misión
6Problema
Nº de observaciones escaso en el dominio de
interés
Estimaciones directas con poca precisión
Aumento de muestra
Aumento de costes
Mayor carga de respuesta a los informantes
gt Errores ajenos al muestreo
Empleo de técnicas indirectas de estimación
De la encuesta De muestras complementarias De
fuentes administrativas
Información auxiliar
7Antecedentes
- Proyecto EURAREA
- Proyecto financiado parcialmente por la Unión
Europea dentro del 5º programa de ID - Desarrollado por un Consorcio formado por las
oficinas de estadística y las universidades de 7
países europeos U.K., Finlandia, España,
Noruega, Suecia, Polonia, Italia, U. Of
Southampton, U. Of Jyvaskyla, U. Miguel
Hernández, Poznan U. Of Economics, U. Degli Studi
di Roma. - Objetivo evaluar la eficiencia de los
estimadores estándar para áreas pequeñas
- Informe elaborado por un grupo de expertos al
Comité Interterritorial de Estadísticas (CITE)
sobre La organización de la estadística pública
en España. Situación actual y propuestas de
mejora - ... las ventajas de las encuestas por muestreo
como técnica de recogida de información
disminuyen a medida que se reduce el tamaño de la
población, de modo que en poblaciones pequeñas es
preferible acudir a otras fuentes de información,
como los registros administrativos, o profundizar
en las técnicas de estimación en áreas pequeñas.
8Antecedentes
- Grupo de trabajo áreas pequeñas INE-CCAA
- Objetivo establecer procedimientos para
elaborar estimaciones en áreas pequeñas de las
variables más significativas de la Encuesta de
Población Activa (EPA), teniendo en cuenta la
experiencia del INE en el proyecto EURAREA de la
Unión Europea
- Instituto Vasco de Estadística (EUSTAT)
- Estimación de áreas pequeñas en la encuesta
industrial de la Comunidad Autónoma de Euskadi
9Antecedentes
- Programa estatístico anual 2007 Galicia
- Actividad estadística 704.- Investigación y
desarrollo de métodos de estimación en áreas
pequeñas - Objetivo.- Mejorar las predicciones o
estimaciones de variables o parámetros de interés
en las encuestas realizadas por el IGE
considerando un nivel de desagregación mayor de
aquel para el que se diseñó la encuesta
Convenio de colaboración IGE-USC
Otros objetivos
Recopilar y divulgar los métodos de
inferencia estadística en áreas pequenas ya
existentes Realización de una jornada de carácter
internacional que reuna a expertos en el tema
10Trabajos a realizar
Encuesta de condiciones de vida (IGE)
Variables objetivo nº de parados, tasa de
paro Desagregación geográfica 53 comarcas (NUTS
IV), 14 agrupaciones de comarcas
11Trabajos a realizar
Encuesta de condiciones de vida (IGE)
- Encuesta anual dirigida a hogares
- Objetivo obtener información de las
características socioeconómicas de los hogares
gallegos - Muestreo bietápico con estratificación previa de
las unidades de primera etapa - Muestras independientes en cada área
(agrupaciones de comarcas) - Unidades de primera etapa secciones censales
- Unidades de segunda etapa vivienda familiar
principal -
12Trabajos a realizar
Encuesta de condiciones de vida (IGE)
- En la primera etapa las secciones se seleccionan
con probabilidad proporcional a su tamaño - En la segunda etapa las viviendas se seleccionan
con muestreo sistemático con arranque aleatorio.
Se entrevistan a todos los individuos de las
viviendas seleccionadas - Estimadores estimadores de expansión corregidos
con información proporcionada por fuentes
externas (calibrado) - Se obtiene información a nivel de Galicia,
provincias y de agrupaciones de comarcas
13Ejemplo
- Estimación del nº de parados y la tasa de paro en
14 agrupaciones comarcales - Estimador directo
- Estimador sintético básico
- Estimador compuesto
- Cálculo de los coeficientes de variación de los
estimadores empleando Jackknife
14Estimadores
- Estimador directo
- Total
- Media
- Estimador postestratificado
g grupo de edad Ndgpoblación en el área d y
grupo de edad g
15Estimadores
- Estimador sintético básico
- Se construyeron grupos de comarcas (grup) que
presentan un comportamiento homogéneo en cuanto a
las variables a estudiar (Censo 2001) - Se construyeron grupos en función del sexo y si
la variable es parado o ocupado
16Estimador sintético básico. Grupos
Ocupados
Parados
17Estimador sintético básico. Grupos
Mujeres ocupadas
Mujeres paradas
18Estimadores
19Cálculo de los errores de muestreo
- Método Jackknife
- Estimador de la varianza
L nº de estratos Sh total de secciones
muestrales en el estrato h estimador
obtenido despues de suprimir de la muestra la
sección s en el estrato h YJh media de los
estimadores correspondientes al estrato h
20Cálculo de los errores de muestreo
- Método Jackknife
- Estimador del sesgo
L nº de estratos Sh total de secciones
muestrales en el estrato h estimador
obtenido despues de suprimir de la muestra la
sección s en el estrato h YJh media de los
estimadores correspondientes al estrato h
21Cálculo de los errores de muestreo
- Método Jackknife
- Estimador del coeficiente de variación
Deberían ser inferiores al 20-25 para indicar
que existe fiabilidad
22Estimación directa
Tasa de paro
Resultados con mucha variabilidad
23Estimación sintética
Tasa de paro
Los resultados se estabilizan
24Estimador compuesto (a2)
Tasa de paro
Los resultados no son tan estables como en el
sintético
25Situación. Año 2005
Número reducido de personas paradas en la muestra
26Estimación directa
Tasa de paro. Coeficientes de variación 2005
27Estimación sintética
Tasa de paro. Coeficientes de variación 2005
28Estimador compuesto (a2)
29Estimación directa
Parados. Coeficientes de variación 2005
Los mayor parte de los estimadores tienen muy
poca precisión
30Estimación sintética
Parados. Coeficientes de variación 2005
31Estimador compuesto (a2)
32Estimación directa
Tasa de paro mujeres. Coeficientes de variación
2005
33Estimación sintética
Tasa de paro mujeres. Coeficientes de variación
2005
Los CV del estimador sintético no tienen una
relación directa con el tamaño de muestra
34Trabajos a realizar
Encuesta de condiciones de vida (IGE)
Variable OBJETIVO ingreso medio mensual por
hogar, ingreso equivalente del hogar Desagregació
n geográfica 53 comarcas (NUTS IV) Información
auxiliar a nivel de área -Impuesto de la renta
de las personas físicas renta imponible, nº de
declarantes, rendimiento medio, porcentaje de
rendimientos procedentes del trabajo (AEAT)
35INFORMACIÓN DISPONIBLE
Informacion muestral Encuesta de condiciones de
vida de las familias (ECV).Informacion a nivel de
individuo. Informacion auxiliar Impuesto sobre
la renta de las personas físicas
(IRPF).Información a nivel de municipio.
36- Estimador basado en el diseño Horvitz-Thompson
- Para un área d
- Estimadores asistidos por el diseño
postestratificado sintético - Estimadores compuestos
-
37ESTIMADORES
- Estimadores basados en el modelo Fay-Herriot
- Modelo de regresión lineal mixto para datos
agregados - Basado en el modelo
- Para un área d el estimador de Fay-Herriot es
38Cálculo de los errores de muestreo
- Fórmulas analíticas
- Bootstrap Naive (estimador de HT)
- Se extraen B muestras con reemplazamiento a
partir de la muestra original, utilizando el
mismo diseño muestral - Sea el estimador obtenido a partir de la
b-ésima muestra bootstrap. Entonces el estimador
de la varianza es
39Cálculo de los errores de muestreo
- Bootstrap paramétrico (Fay-Herriot)
-
- Para estimar el MSE del estimador de Fay-Herriot
se aplicará un método Bootstrap paramétrico
(González-Manteiga et al. 2008) - 1.- Se construye un modelo Bootstrap a partir de
los parámetros estimados con la muestra original - 2.- A partir de este modelo se generan B
vectores Bootstrap de los cuales se calcula el MSE
40ESTIMADORES
Buscamos variables que tengan correlación con
nuestra variable objetivo.
De todas las variables auxiliares disponibles nos
quedamos con Rendi Medio Rendimiento medio
Renta Imponible/Número Declarantes
41ESTUDIO DE SIMULACIÓN
Generación de una población de 943991 hogares a
partir de los datos de la muestra. Las variables
generadas son comarca Comarca a la que
pertenece el hogar. estrato Estrato al que
pertenece el hogar. ingreso Ingreso mensual del
hogar. pers hogar Numero de miembros del
hogar. ingreso equiv Ingreso equivalente mensual
del hogar. Procedemos a la simulación tomando
10000 muestras de la poblacion generada y
analizamos los posibles estimadores
42ESTUDIO DE SIMULACIÓN
Indicadores de evaluación Sesgo relativo en valor
absoluto Error cuadrático medio
MSE Raíz cuadrada del error cuadrático medio
relativo
43ESTUDIO DE SIMULACIÓN
Ingreso medio mensual por hogar
44ESTUDIO DE SIMULACIÓN
Ingreso medio mensual por hogar
45ESTUDIO DE SIMULACIÓN
Ingreso medio mensual por hogar
46ESTUDIO DE SIMULACIÓN
Ingreso medio equivalente por hogar
47ESTUDIO DE SIMULACIÓN
Ingreso medio equivalente por hogar
48ESTUDIO DE SIMULACIÓN
Ingreso medio equivalente por hogar
49ESTUDIO DE SIMULACIÓN
- Para las comarcas con tamaño muestral grande
(gt100) los resultados son similares para todos
los estimadores - Para las comarcas con tamaño muestral pequeño el
estimador de Fay-Herriot es el que mejor se
aproxima a la variable objetivo - Hay suficiente razón para incluir el estimador
Fay-Herriot como competidor serio de los
estimadores basados en el diseño.
50RESULTADOS
51RESULTADOS
52RESULTADOS
53RESULTADOS
54(No Transcript)
55- El estimador Fay-Herriot es el estimador con
menor coeficiente de variación. - Hay poca diferencia entre la estimación
analítica y la estimación por Bootstrap del error
del estimador Fay-Herriot. - Es recomendable usar el estimador Fay-Herriot
para este problema,sobre todo en las comarcas con
poca muestra ( ?48 hogares).
56Trabajos a realizar
Encuesta industrial de empresas (INE)
Variable objetivo Importe neto de la cifra de
negocios en las empresas de menos de 20
empleados Desagregación geográfica 53 comarcas
(NUTS IV) Información auxiliar a nivel de
individuo -Directorio de empresas nº de
empleados todos los establecimientos industriales
gallegos -Encuesta nº de empleados, importe neto
de la cifra de negocios en el año anterior, horas
trabajadas en el año, nº medio de personas
ocupadas en el año anterior y nº de personas
ocupadas.
57Trabajos a realizar
Objetivo Estimación del importe neto de la cifra
de negocios del sector industrial en los
establecimientos con menos de 20 personas
ocupadas remuneradas en las comarcas
gallegas. Informacion auxiliar. (Encuesta
Industrial del INE(2005)). B13importe neto de la
cifra de negocios B10 ventas netas de
productos B141importe neto de la cifra de
negocios en el año anterior A3personas ocupadas
remuneradas (Información poblacional) A140nº
medio de personas ocupadas en el año anterior A4
horas trabajadas en el año por el personal
remunerado Población los establecimientos
industriales con menos de 20 personas ocupadas
remuneradas. N 9235 Muestra m.a.s, de tamaño
n 1152 Áreas pequeñas comarcas gallegas.
58ESTIMADORES
Estimadores directos
- Sin información auxiliar Horvitz-Thompson
- Con información auxiliar específica de las áreas
pequeñas estimador de regresión generalizado
directo o estimador GREG
59ESTIMADORES
Estimadores indirectos
- Estimador sintético
- Estimadores compuestos
Drew, Singh y Choudry (1982)
Sarndal y Hidiroglou (1989)
60ESTIMADORES
Estimadores EBLUP
Basados en el modelo
- Modelo tipo individuo sin información
poblacional - Modelo tipo individuo con información
poblacional
61Cálculo de los errores de muestreo
Fórmulas analíticas Jackknife Las muestras
Jackknife se obtienen suprimiendo una unidad de
la muestra original
Sesgo
Estimador obtenido de suprimir la unidad (j) de
la muestra
Pseudovalores Jackknife
62Cálculo de los errores de muestreo
Bootstrap 2 tipos En todos los estimadores que
empleen información poblacional de una variable
auxiliar, se aplicará un método de remuestreo
bootstrap en el que se construye una población
artificial a partir de la cual se extraen
muestras, González-Manteiga et al (2008)
Cuando se usa solo información muestral se
aplicará el bootstrap consistente en seleccionar
B muestras aleatorias simples con
reemplazamiento de la muestra original
63ESTUDIO DE SIMULACIÓN
Generación de una población que se ajusta a un
modelo tipo individuo con cuatro variables
auxiliares (p4) m8 áreas con tamaños
poblacionales Ni i1, , 8 Las 8 áreas tienen
tamaños muestrales ni i1,, 8 (similares al
problema real) Procedemos a la simulación
tomando 1500 muestras de la población generada y
analizamos los posibles estimadores
64ESTUDIO DE SIMULACIÓN
65ESTUDIO DE SIMULACIÓN
Los estimadores basados en el modelo con
información poblacional son los que tienen un
mayor MSE
66ESTUDIO DE SIMULACIÓN
El estimador compuesto 3 sigue el comportamiento
del sintético Los estimadores compuestos 1 y 4
siguen el comportamiento del GREG directo En los
estimadores basados en modelos apenas hay
diferencia en estimar las componentes de ? por
ML o REML
67ESTUDIO DE SIMULACIÓN
cv_SINT es el cv real cv_SINT1 y cv_SINT2 usan
estimadores analíticos cv_SINTJ y cv_SINTJS usan
estimadores Jackknife cv_SINTB usan estimadores
bootstrap
68ESTUDIO DE SIMULACIÓN
Parece que el que mejor funciona es el bootstrap
69ESTUDIO DE SIMULACIÓN
70ESTUDIO DE SIMULACIÓN
Los estimadores Jackknife y la fórmula analítica
de Prasad y Rao infraestiman el verdadero
coeficiente de variación
71ESTUDIO DE SIMULACIÓN
El estimador del cv con fórmulas analíticas dá
buenos resultados
72ESTUDIO DE SIMULACIÓN
- Mal comportamiento de los estimadores basados en
el modelo cuando se usa información poblacional
de una única variable - Los estimadores que mejor funcionan, en cuanto a
que su MSE es bajo, son el estimador GREG, el
estimador compuesto 2, el estimador sintético y
por último los basados en el modelo - Los estimadores analíticos del MSE no funcionan
bien, es necesario emplear técnicas de remuestreo
como el Jackknife o el Bootstrap - Para el estimador sintético y el compuesto 2 los
estimadores Jackknife y Bootstrap para la
estimación del MSE funcionan mucho mejor que el
analítico - Para el estimador EBLUP los resultados obtenidos
a partir del estimador Jackknife del MSE
infraestiman el verdadero valor del coeficiente
de variación (CV)
73RESULTADOS
74RESULTADOS
75RESULTADOS
76RESULTADOS
77RESULTADOS
78RESULTADOS
79RESULTADOS
- El estimador GREG es el estimador cuyos
coeficientes de variación estimados son más
altos, alcanzando unos valores muy elevados - Con el estimador H-T se obtienen unos estimadores
del cv bastante buenos - El estimador sintético no es un buen estimador
para este ejemplo - Los cv más bajos corresponden al estimador basado
en el modelo sin información poblacional. - Hay que recordar que en la simulación los
estimadores jackknife del MSE y la fórmula
analítica de Prasad y Rao infraestimaban el
coeficiente de variación teórico en los
estimadores basados en modelos
80FUTURO
- Estimadores basados en modelos multinomiales
mixtos - Estudio de modelos dinámicos
- Inluyen el horizonte temporal
81BIBLIOGRAFÍA
Azula Lazkano, I., Garrido Espinosa, P. y Olaeta
Goiriena, H. Estimadores directos y asistidos por
modelos. Estimación en Áreas Pequeñas. Una
aplicación a la Encuesta Industrial de la
Comunidad Autónoma de Euskadi, Eustat,
Donostia. Cochran, W.G. (1987), Técnicas de
muestreo. New York Wiley. Datta, G.S. y Lahiri,
P. (2000), A Unified Measure of Uncertainty of
Estimated Best Linear Unbiased Predictors in
Small Area Estimation Problems, Statistica
Sinica, 10, 613-627. EUSTAT. (2007). Cálculo de
coeficientes de variación para diferentes
estimadores directos e indirectos utilizados en
las encuestas económicas de Eustat.
EUSTAT. EUSTAT. (2008). Estimación de áreas
pequeñas en la Encuesta de Población en relación
con la actividad de la C. A. de Euskadi.EUSTAT.
www.eustat.es/documents/datos/CT EAPRA
c.pdf Ghosh, M. y Rao, J.N.K. (1994), Small Area
Estimation An Appraisal, Statistical Science, 9,
55-93. González-Manteiga W, Lombardía MJ, Molina
I, Morales, D, Santamaría L (2008). Analytic and
bootstrap approximations of prediction errors
under a multivariate Fay-Herriot model.
Computational Statistics and Data Analysis 52,
5242-5252 González Manteiga W, Lombardía MJ,
Molina I., Morales D., Santamaría L.(2008).
Bootstrap mean squared error of a small-area
EBLUP. Journal of Statistical Computation and
Simulation Vol 78, nº 5, May 2008, 443-462 Jiang,
J. y Lahiri, P. (2006), Mixed Model Prediction
and Small Area Estimation, Sociedad de
Estadística e Investigación Operativa,
15,1-96. Militino, A. F., Ugarte, M. D. y Goicoa,
T. (2007). A EBLUP Synthetic Versus an EBLUP
Estimator An Empirical Study of a Small Area
Estimation Problem. Journal of Apllied
Statistics. 34, 153-165. Rao, J.N.K. (2003),
Small Area Estimation. New YorkWiley. Sarndal,
C.E., Swensson, B. y Wretman, J.H. (1992), Model
Assisted Survey Sampling, New York
Springer-Verlag. Sarndal, C.E. y Hidiroglou,
M.A. (1989), Small Domain Estimation A
Conditional Analysis, Journal of the American
Statistical Association,84, 266-275. Valliant,
R., Dortman, A.H. y Royall R.M. (2000). Finite
Population Sampling and Inference. New York John
Wiley.
82FINMUCHAS GRACIAS POR SU ATENCIÓNhttp//www.ig
e.eu