Title: La evaluaci
1La evaluación de programas y la eficacia del
desarrollo
- Carolyn J. Heinrich
- Universidad de Wisconsin-Madison
- Tercera Reunión de la Red de Monitoreo de
Políticas Sociales - Buenos Aires, 22-23 de noviembre de 2004
2Demanda creciente para la evaluación de
rendimiento y de programas
- Si existe un solo tema que define el sector
público en la década de los 90, fue la demanda
por rendimiento. Surgió un mantra en esa década,
que repercutía a todos los niveles de gobierno,
el cual hacía llamamientos a la evaluación del
rendimiento y las consecuencias específicas de
las acciones de los gobiernos. - Beryl Radin, Beyond Machiavelli Policy Analysis
Comes of Age Más allá de Maquiavelo el análisis
de políticas llega a su plena madurez (2000)
3Gestión del rendimiento frente a la evaluación de
impactos
- Gestión de rendimiento su propósito principal
es la responsabilidad por resultados o rendición
de cuentas ante los órganos legislativos, los
contribuyentes y los demás interesados en los
programas. - Evaluación de impactos su objetivo principal es
la generación de conocimientos para poder
entender y perfeccionar los impactos de los
programas y acertar su orientación.
4Gestión del rendimiento en frente a la evaluación
de impactos en la práctica
- Gestión del rendimiento
- Enfoque de más corto alcance
- Análisis de consecuencias
- Permanente, requiriendo datos fácilmente
accesibles, recabados con regularidad - Planes anuales e informes anuales del rendimiento
de los programas - Rendición de cuentas dentro de la misma
organización, incentivos y sanciones vinculadas
al rendimiento
- Evaluación de impactos
- Enfoque de más largo alcance
- Análisis de impactos (valor agregado)
- Recopilación y análisis de datos, periódica y más
intensivamente - Cálculo preciso de los impactos de los programas
y de su distribución - Contribuir información para el diseño de
políticas y programas, la destinación de
beneficios y la toma de decisión sobre la
asignación de fondos
5Tipos de criterios de medición utilizados en la
evaluación
- Insumos (recursos físicos y financieros,
personal, etc.) - Resultados (bienes y servicios producidos)
- Proceso (monitoreo de implementación, uso de
insumos en la producción de resultados) - Eficiencia (productividad, costos por unidad)
- Consecuencias (metas intermedias, fácilmente
observadas) - Ej., número de estudiantes que reciben su grado
(completar el tercer ciclo de la Educación
General Básica) - Impactos (logros netos, valor agregado)
- Ej., aumento en niveles de conocimientos, capital
humano debido a la participación en el programa
6Vínculo entre la gestión de rendimiento y la
evaluación de programas
- Desafío Identificar criterios de medición de
rendimiento accesibles e informativos y métodos
de análisis, los cuáles estiman precisamente los
impactos (valor-agregado) y refuerzan el progreso
hacia las metas del programa de largo alcance
7Vínculo entre la gestión de rendimiento y la
evaluación de programas
- Problemas
- Evidencia de algunas evaluaciones experimentales
de impactos manifiesta conexiones débiles entre
los criterios de las consecuencias de corto
alcance y los impactos de alcance mayor - EL Estudio Nacional de JTPA, el Estudio de GAIN
(siglas del inglés para Vías Mayores hacia la
Independencia), la evaluación experimental del
impacto de Job Corp (programa de trabajo social
voluntario y capacitación) - Evidencia creciente de conducta de jugador
8Ejemplo Jugada de exámenes de rendimiento
estudiantil (estudio de Koretz de métodos de
exámenes comparativos por un plazo de 4 años)
9Evaluación aleatoria experimental
- A los individuos se les asigna tratamiento o
servicio al azar ej., rifa o proceso aleatorio - Asignación aleatoria a grupos experimentales
(tratamiento) y a grupos de control establece
equivalencia estadística entre individuos del
grupo - de tratamiento y del grupo de control
- Suposición No hay diferencias entre las
características promedias (observadas o
desapercibidas) entre los grupos de tratamiento y
de control - Cualquier diferencia de resultados entre grupos
de tratamiento y de control se presume se debe al
tratamiento
10Estimación del impacto promedio en experimentos
aleatorios
- Con asignación aleatoria, la diferencia
pos-programa observada entre los grupos de
tratamiento y de control.
11Limitaciones de los experimentos aleatorios
- Preocupaciones éticas sobre interferir con los
procesos del programa o negar acceso a los
servicios - Conocimiento producido es un estimado de impacto
promedio - Se requieren diseños más complejos (o componentes
no experimentales) para estimar la distribución
de impactos - Los costos de la implementación y colección de
datos son más elevados - Algunos experimentos dependen mucho de
condiciones y contexto locales - La propiedad de equivalencia estadística de las
muestra pequeñas puede no reproducirse.
12Evaluación no experimental (cuasi experimentos)
- Los individuos no reciben tratamiento mediante un
proceso aleatorio - La condición no basada en los datos no se observa
- Es absolutamente necesario entender y modelar los
procesos usados para asignar el tratamiento - Auto-selección (Ej., se aplica la decisión del
individuo) - Selección por el Administrador (Ej., individuos
reciben tratamiento basado en criterios
específicos) - Combinación de la auto-selección y la del
Administrador - Postular una relación causal y evaluar
explicaciones alternativas razonables que puedan
negar la afirmación
13Evaluación no experimental Desafíos al diseño
- Individuos quienes participan probablemente son
diferentes en formas sistémicas de individuos
quienes no participan - Miembros de grupos de comparación deben tener
calificaciones e intereses similares en
participar en el programa y/o deben representar
el mismo mercado laboral local - Los efectos de participar en el programa entre
los individuos pueden ser diferentes
(heterogeneidad en los efectos de tratamiento) - La presencia de heterogeneidad en los efectos
puede afectar la respuesta de los individuos ante
la oferta de tratamiento
14Estimación del impacto no experimental
Si no se hacen correciones, las deferencias
selectivas entre miembros de grupos de
tratamiento y de comparación inducirán sesgos en
las estimaciones de impacto de programas.
15Diseños alternativos no experimentales
- Evaluación ex ante de métodos Estimar el impacto
probable conforme a las suposiciones alternativas
de conducta - Uso de un suceso o factor exógeno que influye en
la participación en el programa en la ausencia de
asignación aleatoria (ej., cuotas) - Ejemplos Evaluaciones de la Bolsa Escuela o de
Becas Estudiantiles
16Diseños alternativos no experimentales
- Estimación de variables instrumentales
- Utiliza una variable sin correlación al término
de error (características no observadas o
variables omitidas), la cual, sin embargo,
pronostica la participación en el programa (para
ajustar por el sesgo en la selección de la
estimación de impacto - Ejemplos distancia al colegio/escuela más cerca
para estimar impactos de programas de selección
de escuelas
17Diseños alternativos no experimentales
(continuación)
- Metodología de datos en paneles utiliza datos
recabados de los individuos en distintos tiempos - Modelos de efectos fijos controlar por
características estables de individuos
(observadas y no observadas) - Modelos de primera diferencia y diferencia entre
diferencias controlar por todas las
características estables, medidas y no medidas, y
por características cambiantes medidas - Hacer observaciones repetidas (cuando menos en
dos puntos por todos los individuos o unidades de
análisis) - Modelos de primera diferencia se ajustan por
características estables que afectan el nivel de
la sección trasversal de la variable dependiente - Modelos de diferencia entre diferencias se
ajustan por características estables que afectan
la variable dependiente a través del tiempo
18Estimador de primera diferencia y diferencia
entre diferencias
- Un modelo de primera diferencia no se ajustará
por características que afectan cambios en la
variable dependiente a través del tiempo se
requiere un estimador de diferencia entre
diferencias, (YT2-YT1)-(YT-1-YT0)
(YC2-YC1)-(YC-1-YC0).
19Evaluación no experimentalRequisitos de los datos
- Es mejor tener más periodos de datos datos de
periodos antes, durante y después del programa - Medidas deben ser congruentes en el transcurso
del tiempo - Datos detallados para evaluar calificaciones de
participación y descripción de participación en
el programa y de efectos heterogéneos del
programa - Integrar mecanismos de colección de datos en el
programa, antes de su implementación - Calar datos independientes de sección trasversal
obtenidos de encuestas nacionales (muestras
aleatorias de individuos en distintos puntos de
tiempo) si no hay datos en paneles disponibles.
20La evaluación de necesidades en relación a los
datos y determinación de criterios idóneos de
medición
- Determinar qué es que se quiere medir o explicar
- Describir la relación causal probable entre el
programa o intervención y el fenómeno de interés
(ej., consecuencia o impacto) - Identificar fuentes existentes de datos para
poder crear criterios de medición (definiciones
operativas) - Ej., Muestras de encuestas nacionales (ej.,
encuestas del censo nacional y otras de
familias), fuentes administrativas de datos - Diseñar instrumentos para la colección de datos
no disponibles de fuentes existentes - Determinar término de colección de datos para
cada criterio de medición (ej., sección
trasversal, secciones trasversales repetidas,
datos longitudinales)
21Problemas con los criterios de medición y
limitaciones frecuentes de los datos
- Falta de claridad o acuerdo sobre objetivos del
programa susceptibles a la medición - Criterios de medición mal definidos producen
datos de baja calidad - Calidad de datos despareja (ej., debido a
procedimientos de colección inferiores o malos
controles sobre el ingreso de datos) - Datos erróneos de informantes sobre sí mismos
- Falta de respuestas, rechazos debido a la
sensibilidad de las preguntas - Altos costos de la colección original de datos
- Integridad de los datos, necesidades de
almacenaje y protecciones de la privacidad
22Uso de fuentes existentes de datos Muestras de
encuestas nacionales
- Ventajas
- Datos recabados en periodos regulares
- Mediciones típicamente congruentes a través de
periodos de tiempo - Se aprovecha de la grande inversión en la
colección de los datos - Normalmente son de acceso económico
- Desventajas
- La representación de sub-grupos puede ser
limitada - Típicamente, los identificadores individuales
para ligar con archivos de otras fuentes no son
disponibles - Incapacidad de influir en los tipos de datos
recopilados (ej., formulación de preguntas
individuales)
23Uso de fuentes existentes de datos Datos
administrativos
- Ventajas
- Información detallada sobre clientes, el progreso
en distintas etapas de tratamiento del programa y
consecuencias - Cobertura completa de poblaciones beneficiarias
- Datos longitudinales para unos programas
- Bajos costos para obtener datos por múltiples
años del programa - Cambios y/o agregaciones de datos se hacen con
mayor facilidad
- Desventajas
- La calidad y uso eventual de datos
administrativos demuestran grandes variaciones - Verificación regular y sistemática por la calidad
de los datos rara vez se hace - Procedimientos estandarizados para la colección
de los datos pueden incumplirse en algunos sitios
del programa. - Problemas con la privacidad y/o permiso de uso
pueden presentar demoras en el acceso y traspaso - Otros limitaciones con el uso de datos
administrativos
24Otros limitaciónes de datos administrativos
- Tasas de la participación del programa, análisis
de individuos quienes califican pero no solicitan
y algunos consecuencias del programa no
susceptibles con datos administrativos - Escasez o ausencia de información sobre
individuos que han salido del programa, ya sean
los que terminan el programa o bien, no lo
completan - Tratarse de problemas de selección y la medición
ex post o a plazo largo de consecuencias,
típicamente requieren colecciones supletorias de
datos
25Ventajas y desventajas de datos de muestras de
encuestas
- Los datos de las encuestas pocas veces cubren
completamente las poblaciones beneficiarias,
aunque cubran una amplia gama de temas (ej.,
información más detallada sobre los antecedentes
y consecuencias de los individuos) - Las encuestas facilitan la colección de datos
sobre un periodo de tiempo más largo, después de
terminar con el programa - Las encuestas pueden obtener información
comparable de individuos quienes no han
participado - Falta de respuestas es una causa común por sesgos
en los datos de las encuestas - Falta de información sobre cuándo la falta de
respuesta desvirtúa los resultados
26Otros factores de sesgos en las estimaciones no
experimentales
- Auto-selección para ingresar o salir del proceso
de matrícula o del mismo programa - Ubicación del programa y otros factores que
gravemente limitan el acceso al tratamiento - Variaciones en la administración e implementación
del programa - Malos conteos de los que abandonan o nunca
aparecen, contaminación
27Estrategias de evaluación no experimental de
impacto para corregir sesgos
- La fuente del grupo de comparación es esencial
usar áreas geográficas similares y controles
internos - Mejorar datos y co-variar los criterios de
medición utilizados en el ajuste de estimaciones
del impacto de programas, incluyendo medidas de
consecuencias previa la intervención del programa
(ex ante) - Técnicas de nivelación econométrica, ej.,
nivelación del puntaje de propensión (propensity
score matching) - Uso de variables instrumentales u otras técnicas
de estimación en dos etapas (ej., discontinuidad
de regresión) para ajustar por diferencias no
observables de diferencias entre grupos de
tratamiento y comparación - Exámenes de especificaciones y análisis de
sensibilidad para evaluar suposiciones
28Métodos de nivelación econométrica
- Estimar el efecto del tratamiento sobre los
beneficiarios, suponiendo que condicionada en las
características medidas, participación en el
programa es independiente de consecuencias - Útil cuando los datos sobre controles previos al
tratamiento (características observadas) son
cuantiosos y la distribución de las
características muestra variaciones
significativas según la condición del tratamiento - Si la condición de tratamiento está influida por
variables los cuales no se han medido, los
métodos de nivelación tienden a producir
estimaciones de impacto sesgados. - Propensity score matching (estimación de la
probabilidad P(X) que un individuo con X
características sí participará) reduce el
problema de nivelación a una sola dimensión - La imposición de apoyo común evita malas
nivelaciones entre miembros de grupos de
tratamiento y de comparación
29Ejemplo de discontinuidad de la regresión
- La discontinuidad de la regresión utilizando un
valor de corte anterior al tratamiento, ej.,
puntaje de calificación u otra medida que hace
cuenta de la condición de tratamiento
30Cita de James J. Heckman
- La mayoría de estimaciones de sensibilidad del
impacto del programa, en relación con la
selección del estimador, en efecto son productos
de violaciones de principios básicos del análisis
de evaluación tales como la comparación entre
personas no comparables. Lo que nos faltan de
hecho son datos mejores, y no estimadores
mejores.
31Los objetivos para el análisis permanente de
rendimiento y la evaluación de impacto
- Efectuar experimentos aleatorios periódicamente
para evaluar los impactos del programa (valor
agregado) - Continuar investigaciones para identificar y
desarrollar criterios de medición de
consecuencias, los cuales se correlacionan
estrechamente con los impactos del programa - Criterios de medición más alejados asociados
mediante relaciones hipotéticas y variables de
reemplazo o supletorias (ej., notas de exámenes
en lugar de avances en conocimientos educativos)
aumentan el grado de incertidumbre sobre el
rendimiento e imponen costos de recursos - Con las evaluaciones cuyos resultados llevan
graves consecuencias es necesario reconocer los
errores e imprecisiones debidas a las
limitaciones metodológicas y de los datos