Diapositiva 1 - PowerPoint PPT Presentation

About This Presentation
Title:

Diapositiva 1

Description:

ESTIMACI N EN REAS PEQUE AS EN EL INSTITUTO GALEGO DE ESTAT STICA Esther L pez Vizca no esther.lopez_at_ige.eu ... – PowerPoint PPT presentation

Number of Views:92
Avg rating:3.0/5.0
Slides: 83
Provided by: lsa76
Category:

less

Transcript and Presenter's Notes

Title: Diapositiva 1


1
ESTIMACIÓN EN ÁREAS PEQUEÑAS EN EL INSTITUTO
GALEGO DE ESTATÍSTICA
Esther López Vizcaíno esther.lopez_at_ige.eu
2
Contenido
  • Introducción
  • Ejemplo para la discusión
  • Ejemplo de aplicación de modelos con datos
    agregados
  • Ejemplo de aplicación de modelos con datos a
    nivel de individuo
  • Conclusiones
  • Futuro
  • Bibliografía

3
Necesidades de los usuarios
No está totalmente satisfecha
Demanda de datos estadísticos en áreas pequeñas
  • La información derivada de operaciones censales
    es costosa y se limita a una serie de variables
    cuya referencia temporal no tiene la
    actualización necesaria
  • Los registros administrativos, con un enorme
    potencial de información, no se explotan lo
    suficiente
  • Las encuestas por muestreo, dado su elevado
    coste, raramente aportan datos representativos
    para territorios infra-municipales

?
Qué
falla
4
Demanda creciente
Administraciones locales
Por sus propias competencias, requieren
información desagregada para el diseño y
evaluación de sus políticas en sus respectivos
ámbitos geográficos
Usuarios privados
Políticas de marketing a poblaciones o segmentos
muy concretos Las decisiones de inversión en una
región se basan en el conocimiento de sus
características población activa, costes de
producción,
Investigadores
Necesitan datos suficientemente desagregados con
el objeto de construír, contrastar y validar
modelos
5
Productores públicos
MISIÓN
Proporcionar información relevante, fiable y de
forma neutral
Tendencia hacia una mayor demanda de datos
desagregados
Los productores públicos de estadísticas deben
enfrentarse a este reto en cumplimiento de su
misión
6
Problema
Nº de observaciones escaso en el dominio de
interés
Estimaciones directas con poca precisión
Aumento de muestra
Aumento de costes
Mayor carga de respuesta a los informantes
gt Errores ajenos al muestreo
Empleo de técnicas indirectas de estimación
De la encuesta De muestras complementarias De
fuentes administrativas
Información auxiliar
7
Antecedentes
  • Proyecto EURAREA
  • Proyecto financiado parcialmente por la Unión
    Europea dentro del 5º programa de ID
  • Desarrollado por un Consorcio formado por las
    oficinas de estadística y las universidades de 7
    países europeos U.K., Finlandia, España,
    Noruega, Suecia, Polonia, Italia, U. Of
    Southampton, U. Of Jyvaskyla, U. Miguel
    Hernández, Poznan U. Of Economics, U. Degli Studi
    di Roma.
  • Objetivo evaluar la eficiencia de los
    estimadores estándar para áreas pequeñas
  • Informe elaborado por un grupo de expertos al
    Comité Interterritorial de Estadísticas (CITE)
    sobre La organización de la estadística pública
    en España. Situación actual y propuestas de
    mejora
  • ... las ventajas de las encuestas por muestreo
    como técnica de recogida de información
    disminuyen a medida que se reduce el tamaño de la
    población, de modo que en poblaciones pequeñas es
    preferible acudir a otras fuentes de información,
    como los registros administrativos, o profundizar
    en las técnicas de estimación en áreas pequeñas.

8
Antecedentes
  • Grupo de trabajo áreas pequeñas INE-CCAA
  • Objetivo establecer procedimientos para
    elaborar estimaciones en áreas pequeñas de las
    variables más significativas de la Encuesta de
    Población Activa (EPA), teniendo en cuenta la
    experiencia del INE en el proyecto EURAREA de la
    Unión Europea
  • Instituto Vasco de Estadística (EUSTAT)
  • Estimación de áreas pequeñas en la encuesta
    industrial de la Comunidad Autónoma de Euskadi

9
Antecedentes
  • Programa estatístico anual 2007 Galicia
  • Actividad estadística 704.- Investigación y
    desarrollo de métodos de estimación en áreas
    pequeñas
  • Objetivo.- Mejorar las predicciones o
    estimaciones de variables o parámetros de interés
    en las encuestas realizadas por el IGE
    considerando un nivel de desagregación mayor de
    aquel para el que se diseñó la encuesta

Convenio de colaboración IGE-USC
Otros objetivos
Recopilar y divulgar los métodos de
inferencia estadística en áreas pequenas ya
existentes Realización de una jornada de carácter
internacional que reuna a expertos en el tema
10
Trabajos a realizar
Encuesta de condiciones de vida (IGE)
Variables objetivo nº de parados, tasa de
paro Desagregación geográfica 53 comarcas (NUTS
IV), 14 agrupaciones de comarcas
11
Trabajos a realizar
Encuesta de condiciones de vida (IGE)
  • Encuesta anual dirigida a hogares
  • Objetivo obtener información de las
    características socioeconómicas de los hogares
    gallegos
  • Muestreo bietápico con estratificación previa de
    las unidades de primera etapa
  • Muestras independientes en cada área
    (agrupaciones de comarcas)
  • Unidades de primera etapa secciones censales
  • Unidades de segunda etapa vivienda familiar
    principal

12
Trabajos a realizar
Encuesta de condiciones de vida (IGE)
  • En la primera etapa las secciones se seleccionan
    con probabilidad proporcional a su tamaño
  • En la segunda etapa las viviendas se seleccionan
    con muestreo sistemático con arranque aleatorio.
    Se entrevistan a todos los individuos de las
    viviendas seleccionadas
  • Estimadores estimadores de expansión corregidos
    con información proporcionada por fuentes
    externas (calibrado)
  • Se obtiene información a nivel de Galicia,
    provincias y de agrupaciones de comarcas

13
Ejemplo
  • Estimación del nº de parados y la tasa de paro en
    14 agrupaciones comarcales
  • Estimador directo
  • Estimador sintético básico
  • Estimador compuesto
  • Cálculo de los coeficientes de variación de los
    estimadores empleando Jackknife

14
Estimadores
  • Estimador directo
  • Total
  • Media
  • Estimador postestratificado

g grupo de edad Ndgpoblación en el área d y
grupo de edad g
15
Estimadores
  • Estimador sintético básico
  • Se construyeron grupos de comarcas (grup) que
    presentan un comportamiento homogéneo en cuanto a
    las variables a estudiar (Censo 2001)
  • Se construyeron grupos en función del sexo y si
    la variable es parado o ocupado

16
Estimador sintético básico. Grupos
Ocupados
Parados
17
Estimador sintético básico. Grupos
Mujeres ocupadas
Mujeres paradas
18
Estimadores
  • Estimador compuesto

19
Cálculo de los errores de muestreo
  • Método Jackknife
  • Estimador de la varianza

L nº de estratos Sh total de secciones
muestrales en el estrato h estimador
obtenido despues de suprimir de la muestra la
sección s en el estrato h YJh media de los
estimadores correspondientes al estrato h
20
Cálculo de los errores de muestreo
  • Método Jackknife
  • Estimador del sesgo

L nº de estratos Sh total de secciones
muestrales en el estrato h estimador
obtenido despues de suprimir de la muestra la
sección s en el estrato h YJh media de los
estimadores correspondientes al estrato h
21
Cálculo de los errores de muestreo
  • Método Jackknife
  • Estimador del coeficiente de variación

Deberían ser inferiores al 20-25 para indicar
que existe fiabilidad
22
Estimación directa
Tasa de paro
Resultados con mucha variabilidad
23
Estimación sintética
Tasa de paro
Los resultados se estabilizan
24
Estimador compuesto (a2)
Tasa de paro
Los resultados no son tan estables como en el
sintético
25
Situación. Año 2005
Número reducido de personas paradas en la muestra
26
Estimación directa
Tasa de paro. Coeficientes de variación 2005
27
Estimación sintética
Tasa de paro. Coeficientes de variación 2005
28
Estimador compuesto (a2)
29
Estimación directa
Parados. Coeficientes de variación 2005
Los mayor parte de los estimadores tienen muy
poca precisión
30
Estimación sintética
Parados. Coeficientes de variación 2005
31
Estimador compuesto (a2)
32
Estimación directa
Tasa de paro mujeres. Coeficientes de variación
2005
33
Estimación sintética
Tasa de paro mujeres. Coeficientes de variación
2005
Los CV del estimador sintético no tienen una
relación directa con el tamaño de muestra
34
Trabajos a realizar
Encuesta de condiciones de vida (IGE)
Variable OBJETIVO ingreso medio mensual por
hogar, ingreso equivalente del hogar Desagregació
n geográfica 53 comarcas (NUTS IV) Información
auxiliar a nivel de área -Impuesto de la renta
de las personas físicas renta imponible, nº de
declarantes, rendimiento medio, porcentaje de
rendimientos procedentes del trabajo (AEAT)
35
INFORMACIÓN DISPONIBLE
Informacion muestral Encuesta de condiciones de
vida de las familias (ECV).Informacion a nivel de
individuo. Informacion auxiliar Impuesto sobre
la renta de las personas físicas
(IRPF).Información a nivel de municipio.
36
  • ESTIMADORES
  • Estimador basado en el diseño Horvitz-Thompson
  • Para un área d
  • Estimadores asistidos por el diseño
    postestratificado sintético
  • Estimadores compuestos

37
ESTIMADORES
  • Estimadores basados en el modelo Fay-Herriot
  • Modelo de regresión lineal mixto para datos
    agregados
  • Basado en el modelo
  • Para un área d el estimador de Fay-Herriot es

38
Cálculo de los errores de muestreo
  • Fórmulas analíticas
  • Bootstrap Naive (estimador de HT)
  • Se extraen B muestras con reemplazamiento a
    partir de la muestra original, utilizando el
    mismo diseño muestral
  • Sea el estimador obtenido a partir de la
    b-ésima muestra bootstrap. Entonces el estimador
    de la varianza es

39
Cálculo de los errores de muestreo
  • Bootstrap paramétrico (Fay-Herriot)
  • Para estimar el MSE del estimador de Fay-Herriot
    se aplicará un método Bootstrap paramétrico
    (González-Manteiga et al. 2008)
  • 1.- Se construye un modelo Bootstrap a partir de
    los parámetros estimados con la muestra original
  • 2.- A partir de este modelo se generan B
    vectores Bootstrap de los cuales se calcula el MSE

40
ESTIMADORES
Buscamos variables que tengan correlación con
nuestra variable objetivo.
De todas las variables auxiliares disponibles nos
quedamos con Rendi Medio Rendimiento medio
Renta Imponible/Número Declarantes
41
ESTUDIO DE SIMULACIÓN
Generación de una población de 943991 hogares a
partir de los datos de la muestra. Las variables
generadas son comarca Comarca a la que
pertenece el hogar. estrato Estrato al que
pertenece el hogar. ingreso Ingreso mensual del
hogar. pers hogar Numero de miembros del
hogar. ingreso equiv Ingreso equivalente mensual
del hogar. Procedemos a la simulación tomando
10000 muestras de la poblacion generada y
analizamos los posibles estimadores
42
ESTUDIO DE SIMULACIÓN
Indicadores de evaluación Sesgo relativo en valor
absoluto Error cuadrático medio
MSE Raíz cuadrada del error cuadrático medio
relativo
43
ESTUDIO DE SIMULACIÓN
Ingreso medio mensual por hogar
44
ESTUDIO DE SIMULACIÓN
Ingreso medio mensual por hogar
45
ESTUDIO DE SIMULACIÓN
Ingreso medio mensual por hogar
46
ESTUDIO DE SIMULACIÓN
Ingreso medio equivalente por hogar
47
ESTUDIO DE SIMULACIÓN
Ingreso medio equivalente por hogar
48
ESTUDIO DE SIMULACIÓN
Ingreso medio equivalente por hogar
49
ESTUDIO DE SIMULACIÓN
  • Para las comarcas con tamaño muestral grande
    (gt100) los resultados son similares para todos
    los estimadores
  • Para las comarcas con tamaño muestral pequeño el
    estimador de Fay-Herriot es el que mejor se
    aproxima a la variable objetivo
  • Hay suficiente razón para incluir el estimador
    Fay-Herriot como competidor serio de los
    estimadores basados en el diseño.

50
RESULTADOS
51
RESULTADOS
52
RESULTADOS
53
RESULTADOS
54
(No Transcript)
55
  • RESULTADOS
  • El estimador Fay-Herriot es el estimador con
    menor coeficiente de variación.
  • Hay poca diferencia entre la estimación
    analítica y la estimación por Bootstrap del error
    del estimador Fay-Herriot.
  • Es recomendable usar el estimador Fay-Herriot
    para este problema,sobre todo en las comarcas con
    poca muestra ( ?48 hogares).

56
Trabajos a realizar
Encuesta industrial de empresas (INE)
Variable objetivo Importe neto de la cifra de
negocios en las empresas de menos de 20
empleados Desagregación geográfica 53 comarcas
(NUTS IV) Información auxiliar a nivel de
individuo -Directorio de empresas nº de
empleados todos los establecimientos industriales
gallegos -Encuesta nº de empleados, importe neto
de la cifra de negocios en el año anterior, horas
trabajadas en el año, nº medio de personas
ocupadas en el año anterior y nº de personas
ocupadas.
57
Trabajos a realizar
Objetivo Estimación del importe neto de la cifra
de negocios del sector industrial en los
establecimientos con menos de 20 personas
ocupadas remuneradas en las comarcas
gallegas. Informacion auxiliar. (Encuesta
Industrial del INE(2005)). B13importe neto de la
cifra de negocios B10 ventas netas de
productos B141importe neto de la cifra de
negocios en el año anterior A3personas ocupadas
remuneradas (Información poblacional) A140nº
medio de personas ocupadas en el año anterior A4
horas trabajadas en el año por el personal
remunerado Población los establecimientos
industriales con menos de 20 personas ocupadas
remuneradas. N 9235 Muestra m.a.s, de tamaño
n 1152 Áreas pequeñas comarcas gallegas.
58
ESTIMADORES
Estimadores directos
  • Sin información auxiliar Horvitz-Thompson
  • Con información auxiliar específica de las áreas
    pequeñas estimador de regresión generalizado
    directo o estimador GREG

59
ESTIMADORES
Estimadores indirectos
  • Estimador sintético
  • Estimadores compuestos

Drew, Singh y Choudry (1982)
Sarndal y Hidiroglou (1989)
60
ESTIMADORES
Estimadores EBLUP
Basados en el modelo
  • Modelo tipo individuo sin información
    poblacional
  • Modelo tipo individuo con información
    poblacional

61
Cálculo de los errores de muestreo
Fórmulas analíticas Jackknife Las muestras
Jackknife se obtienen suprimiendo una unidad de
la muestra original
Sesgo
Estimador obtenido de suprimir la unidad (j) de
la muestra
Pseudovalores Jackknife
62
Cálculo de los errores de muestreo
Bootstrap 2 tipos En todos los estimadores que
empleen información poblacional de una variable
auxiliar, se aplicará un método de remuestreo
bootstrap en el que se construye una población
artificial a partir de la cual se extraen
muestras, González-Manteiga et al (2008)
Cuando se usa solo información muestral se
aplicará el bootstrap consistente en seleccionar
B muestras aleatorias simples con
reemplazamiento de la muestra original
63
ESTUDIO DE SIMULACIÓN
Generación de una población que se ajusta a un
modelo tipo individuo con cuatro variables
auxiliares (p4) m8 áreas con tamaños
poblacionales Ni i1, , 8 Las 8 áreas tienen
tamaños muestrales ni i1,, 8 (similares al
problema real) Procedemos a la simulación
tomando 1500 muestras de la población generada y
analizamos los posibles estimadores
64
ESTUDIO DE SIMULACIÓN
65
ESTUDIO DE SIMULACIÓN
Los estimadores basados en el modelo con
información poblacional son los que tienen un
mayor MSE
66
ESTUDIO DE SIMULACIÓN
El estimador compuesto 3 sigue el comportamiento
del sintético Los estimadores compuestos 1 y 4
siguen el comportamiento del GREG directo En los
estimadores basados en modelos apenas hay
diferencia en estimar las componentes de ? por
ML o REML
67
ESTUDIO DE SIMULACIÓN
cv_SINT es el cv real cv_SINT1 y cv_SINT2 usan
estimadores analíticos cv_SINTJ y cv_SINTJS usan
estimadores Jackknife cv_SINTB usan estimadores
bootstrap
68
ESTUDIO DE SIMULACIÓN
Parece que el que mejor funciona es el bootstrap
69
ESTUDIO DE SIMULACIÓN
70
ESTUDIO DE SIMULACIÓN
Los estimadores Jackknife y la fórmula analítica
de Prasad y Rao infraestiman el verdadero
coeficiente de variación
71
ESTUDIO DE SIMULACIÓN
El estimador del cv con fórmulas analíticas dá
buenos resultados
72
ESTUDIO DE SIMULACIÓN
  • Mal comportamiento de los estimadores basados en
    el modelo cuando se usa información poblacional
    de una única variable
  • Los estimadores que mejor funcionan, en cuanto a
    que su MSE es bajo, son el estimador GREG, el
    estimador compuesto 2, el estimador sintético y
    por último los basados en el modelo
  • Los estimadores analíticos del MSE no funcionan
    bien, es necesario emplear técnicas de remuestreo
    como el Jackknife o el Bootstrap
  • Para el estimador sintético y el compuesto 2 los
    estimadores Jackknife y Bootstrap para la
    estimación del MSE funcionan mucho mejor que el
    analítico
  • Para el estimador EBLUP los resultados obtenidos
    a partir del estimador Jackknife del MSE
    infraestiman el verdadero valor del coeficiente
    de variación (CV)

73
RESULTADOS
74
RESULTADOS
75
RESULTADOS
76
RESULTADOS
77
RESULTADOS
78
RESULTADOS
79
RESULTADOS
  • El estimador GREG es el estimador cuyos
    coeficientes de variación estimados son más
    altos, alcanzando unos valores muy elevados
  • Con el estimador H-T se obtienen unos estimadores
    del cv bastante buenos
  • El estimador sintético no es un buen estimador
    para este ejemplo
  • Los cv más bajos corresponden al estimador basado
    en el modelo sin información poblacional.
  • Hay que recordar que en la simulación los
    estimadores jackknife del MSE y la fórmula
    analítica de Prasad y Rao infraestimaban el
    coeficiente de variación teórico en los
    estimadores basados en modelos

80
FUTURO
  • Estimadores basados en modelos multinomiales
    mixtos
  • Estudio de modelos dinámicos
  • Inluyen el horizonte temporal

81
BIBLIOGRAFÍA
Azula Lazkano, I., Garrido Espinosa, P. y Olaeta
Goiriena, H. Estimadores directos y asistidos por
modelos. Estimación en Áreas Pequeñas. Una
aplicación a la Encuesta Industrial de la
Comunidad Autónoma de Euskadi, Eustat,
Donostia. Cochran, W.G. (1987), Técnicas de
muestreo. New York Wiley. Datta, G.S. y Lahiri,
P. (2000), A Unified Measure of Uncertainty of
Estimated Best Linear Unbiased Predictors in
Small Area Estimation Problems, Statistica
Sinica, 10, 613-627. EUSTAT. (2007). Cálculo de
coeficientes de variación para diferentes
estimadores directos e indirectos utilizados en
las encuestas económicas de Eustat.
EUSTAT. EUSTAT. (2008). Estimación de áreas
pequeñas en la Encuesta de Población en relación
con la actividad de la C. A. de Euskadi.EUSTAT.
www.eustat.es/documents/datos/CT EAPRA
c.pdf Ghosh, M. y Rao, J.N.K. (1994), Small Area
Estimation An Appraisal, Statistical Science, 9,
55-93. González-Manteiga W, Lombardía MJ, Molina
I, Morales, D, Santamaría L (2008). Analytic and
bootstrap approximations of prediction errors
under a multivariate Fay-Herriot model.
Computational Statistics and Data Analysis 52,
5242-5252 González Manteiga W, Lombardía MJ,
Molina I., Morales D., Santamaría L.(2008).
Bootstrap mean squared error of a small-area
EBLUP. Journal of Statistical Computation and
Simulation Vol 78, nº 5, May 2008, 443-462 Jiang,
J. y Lahiri, P. (2006), Mixed Model Prediction
and Small Area Estimation, Sociedad de
Estadística e Investigación Operativa,
15,1-96. Militino, A. F., Ugarte, M. D. y Goicoa,
T. (2007). A EBLUP Synthetic Versus an EBLUP
Estimator An Empirical Study of a Small Area
Estimation Problem. Journal of Apllied
Statistics. 34, 153-165. Rao, J.N.K. (2003),
Small Area Estimation. New YorkWiley. Sarndal,
C.E., Swensson, B. y Wretman, J.H. (1992), Model
Assisted Survey Sampling, New York
Springer-Verlag. Sarndal, C.E. y Hidiroglou,
M.A. (1989), Small Domain Estimation A
Conditional Analysis, Journal of the American
Statistical Association,84, 266-275. Valliant,
R., Dortman, A.H. y Royall R.M. (2000). Finite
Population Sampling and Inference. New York John
Wiley.
82
FINMUCHAS GRACIAS POR SU ATENCIÓNhttp//www.ig
e.eu
Write a Comment
User Comments (0)
About PowerShow.com