La evaluaci

About This Presentation

Title:

La evaluaci

Description:

Title: Governmental Accountability Author: UNC Last modified by: Information Center Created Date: 8/21/2000 12:46:19 PM Document presentation format – PowerPoint PPT presentation

Number of Views:55

Avg rating:3.0/5.0

Slides: 32

Provided by: UNC5220

Category:

more less

Transcript and Presenter's Notes

Title: La evaluaci

1
La evaluación de programas y la eficacia del
desarrollo

Carolyn J. Heinrich
Universidad de Wisconsin-Madison
Tercera Reunión de la Red de Monitoreo de
Políticas Sociales
Buenos Aires, 22-23 de noviembre de 2004

2
Demanda creciente para la evaluación de
rendimiento y de programas

Si existe un solo tema que define el sector
público en la década de los 90, fue la demanda
por rendimiento. Surgió un mantra en esa década,
que repercutía a todos los niveles de gobierno,
el cual hacía llamamientos a la evaluación del
rendimiento y las consecuencias específicas de
las acciones de los gobiernos.
Beryl Radin, Beyond Machiavelli Policy Analysis
Comes of Age Más allá de Maquiavelo el análisis
de políticas llega a su plena madurez (2000)

3
Gestión del rendimiento frente a la evaluación de
impactos

Gestión de rendimiento su propósito principal
es la responsabilidad por resultados o rendición
de cuentas ante los órganos legislativos, los
contribuyentes y los demás interesados en los
programas.
Evaluación de impactos su objetivo principal es
la generación de conocimientos para poder
entender y perfeccionar los impactos de los
programas y acertar su orientación.

4
Gestión del rendimiento en frente a la evaluación
de impactos en la práctica

Gestión del rendimiento
Enfoque de más corto alcance
Análisis de consecuencias
Permanente, requiriendo datos fácilmente
accesibles, recabados con regularidad
Planes anuales e informes anuales del rendimiento
de los programas
Rendición de cuentas dentro de la misma
organización, incentivos y sanciones vinculadas
al rendimiento

Evaluación de impactos
Enfoque de más largo alcance
Análisis de impactos (valor agregado)
Recopilación y análisis de datos, periódica y más
intensivamente
Cálculo preciso de los impactos de los programas
y de su distribución
Contribuir información para el diseño de
políticas y programas, la destinación de
beneficios y la toma de decisión sobre la
asignación de fondos

5
Tipos de criterios de medición utilizados en la
evaluación

Insumos (recursos físicos y financieros,
personal, etc.)
Resultados (bienes y servicios producidos)
Proceso (monitoreo de implementación, uso de
insumos en la producción de resultados)
Eficiencia (productividad, costos por unidad)
Consecuencias (metas intermedias, fácilmente
observadas)
Ej., número de estudiantes que reciben su grado
(completar el tercer ciclo de la Educación
General Básica)
Impactos (logros netos, valor agregado)
Ej., aumento en niveles de conocimientos, capital
humano debido a la participación en el programa

6
Vínculo entre la gestión de rendimiento y la
evaluación de programas

Desafío Identificar criterios de medición de
rendimiento accesibles e informativos y métodos
de análisis, los cuáles estiman precisamente los
impactos (valor-agregado) y refuerzan el progreso
hacia las metas del programa de largo alcance

7
Vínculo entre la gestión de rendimiento y la
evaluación de programas

Problemas
Evidencia de algunas evaluaciones experimentales
de impactos manifiesta conexiones débiles entre
los criterios de las consecuencias de corto
alcance y los impactos de alcance mayor
EL Estudio Nacional de JTPA, el Estudio de GAIN
(siglas del inglés para Vías Mayores hacia la
Independencia), la evaluación experimental del
impacto de Job Corp (programa de trabajo social
voluntario y capacitación)
Evidencia creciente de conducta de jugador

8
Ejemplo Jugada de exámenes de rendimiento
estudiantil (estudio de Koretz de métodos de
exámenes comparativos por un plazo de 4 años)
9
Evaluación aleatoria experimental

A los individuos se les asigna tratamiento o
servicio al azar ej., rifa o proceso aleatorio
Asignación aleatoria a grupos experimentales
(tratamiento) y a grupos de control establece
equivalencia estadística entre individuos del
grupo
de tratamiento y del grupo de control
Suposición No hay diferencias entre las
características promedias (observadas o
desapercibidas) entre los grupos de tratamiento y
de control
Cualquier diferencia de resultados entre grupos
de tratamiento y de control se presume se debe al
tratamiento

10
Estimación del impacto promedio en experimentos
aleatorios

Con asignación aleatoria, la diferencia
pos-programa observada entre los grupos de
tratamiento y de control.

11
Limitaciones de los experimentos aleatorios

Preocupaciones éticas sobre interferir con los
procesos del programa o negar acceso a los
servicios
Conocimiento producido es un estimado de impacto
promedio
Se requieren diseños más complejos (o componentes
no experimentales) para estimar la distribución
de impactos
Los costos de la implementación y colección de
datos son más elevados
Algunos experimentos dependen mucho de
condiciones y contexto locales
La propiedad de equivalencia estadística de las
muestra pequeñas puede no reproducirse.

12
Evaluación no experimental (cuasi experimentos)

Los individuos no reciben tratamiento mediante un
proceso aleatorio
La condición no basada en los datos no se observa
Es absolutamente necesario entender y modelar los
procesos usados para asignar el tratamiento
Auto-selección (Ej., se aplica la decisión del
individuo)
Selección por el Administrador (Ej., individuos
reciben tratamiento basado en criterios
específicos)
Combinación de la auto-selección y la del
Administrador
Postular una relación causal y evaluar
explicaciones alternativas razonables que puedan
negar la afirmación

13
Evaluación no experimental Desafíos al diseño

Individuos quienes participan probablemente son
diferentes en formas sistémicas de individuos
quienes no participan
Miembros de grupos de comparación deben tener
calificaciones e intereses similares en
participar en el programa y/o deben representar
el mismo mercado laboral local
Los efectos de participar en el programa entre
los individuos pueden ser diferentes
(heterogeneidad en los efectos de tratamiento)
La presencia de heterogeneidad en los efectos
puede afectar la respuesta de los individuos ante
la oferta de tratamiento

14
Estimación del impacto no experimental
Si no se hacen correciones, las deferencias
selectivas entre miembros de grupos de
tratamiento y de comparación inducirán sesgos en
las estimaciones de impacto de programas.
15
Diseños alternativos no experimentales

Evaluación ex ante de métodos Estimar el impacto
probable conforme a las suposiciones alternativas
de conducta
Uso de un suceso o factor exógeno que influye en
la participación en el programa en la ausencia de
asignación aleatoria (ej., cuotas)
Ejemplos Evaluaciones de la Bolsa Escuela o de
Becas Estudiantiles

16
Diseños alternativos no experimentales

Estimación de variables instrumentales
Utiliza una variable sin correlación al término
de error (características no observadas o
variables omitidas), la cual, sin embargo,
pronostica la participación en el programa (para
ajustar por el sesgo en la selección de la
estimación de impacto
Ejemplos distancia al colegio/escuela más cerca
para estimar impactos de programas de selección
de escuelas

17
Diseños alternativos no experimentales
(continuación)

Metodología de datos en paneles utiliza datos
recabados de los individuos en distintos tiempos
Modelos de efectos fijos controlar por
características estables de individuos
(observadas y no observadas)
Modelos de primera diferencia y diferencia entre
diferencias controlar por todas las
características estables, medidas y no medidas, y
por características cambiantes medidas
Hacer observaciones repetidas (cuando menos en
dos puntos por todos los individuos o unidades de
análisis)
Modelos de primera diferencia se ajustan por
características estables que afectan el nivel de
la sección trasversal de la variable dependiente
Modelos de diferencia entre diferencias se
ajustan por características estables que afectan
la variable dependiente a través del tiempo

18
Estimador de primera diferencia y diferencia
entre diferencias

Un modelo de primera diferencia no se ajustará
por características que afectan cambios en la
variable dependiente a través del tiempo se
requiere un estimador de diferencia entre
diferencias, (YT2-YT1)-(YT-1-YT0)
(YC2-YC1)-(YC-1-YC0).

19
Evaluación no experimentalRequisitos de los datos

Es mejor tener más periodos de datos datos de
periodos antes, durante y después del programa
Medidas deben ser congruentes en el transcurso
del tiempo
Datos detallados para evaluar calificaciones de
participación y descripción de participación en
el programa y de efectos heterogéneos del
programa
Integrar mecanismos de colección de datos en el
programa, antes de su implementación
Calar datos independientes de sección trasversal
obtenidos de encuestas nacionales (muestras
aleatorias de individuos en distintos puntos de
tiempo) si no hay datos en paneles disponibles.

20
La evaluación de necesidades en relación a los
datos y determinación de criterios idóneos de
medición

Determinar qué es que se quiere medir o explicar
Describir la relación causal probable entre el
programa o intervención y el fenómeno de interés
(ej., consecuencia o impacto)
Identificar fuentes existentes de datos para
poder crear criterios de medición (definiciones
operativas)
Ej., Muestras de encuestas nacionales (ej.,
encuestas del censo nacional y otras de
familias), fuentes administrativas de datos
Diseñar instrumentos para la colección de datos
no disponibles de fuentes existentes
Determinar término de colección de datos para
cada criterio de medición (ej., sección
trasversal, secciones trasversales repetidas,
datos longitudinales)

21
Problemas con los criterios de medición y
limitaciones frecuentes de los datos

Falta de claridad o acuerdo sobre objetivos del
programa susceptibles a la medición
Criterios de medición mal definidos producen
datos de baja calidad
Calidad de datos despareja (ej., debido a
procedimientos de colección inferiores o malos
controles sobre el ingreso de datos)
Datos erróneos de informantes sobre sí mismos
Falta de respuestas, rechazos debido a la
sensibilidad de las preguntas
Altos costos de la colección original de datos
Integridad de los datos, necesidades de
almacenaje y protecciones de la privacidad

22
Uso de fuentes existentes de datos Muestras de
encuestas nacionales

Ventajas
Datos recabados en periodos regulares
Mediciones típicamente congruentes a través de
periodos de tiempo
Se aprovecha de la grande inversión en la
colección de los datos
Normalmente son de acceso económico

Desventajas
La representación de sub-grupos puede ser
limitada
Típicamente, los identificadores individuales
para ligar con archivos de otras fuentes no son
disponibles
Incapacidad de influir en los tipos de datos
recopilados (ej., formulación de preguntas
individuales)

23
Uso de fuentes existentes de datos Datos
administrativos

Ventajas
Información detallada sobre clientes, el progreso
en distintas etapas de tratamiento del programa y
consecuencias
Cobertura completa de poblaciones beneficiarias
Datos longitudinales para unos programas
Bajos costos para obtener datos por múltiples
años del programa
Cambios y/o agregaciones de datos se hacen con
mayor facilidad

Desventajas
La calidad y uso eventual de datos
administrativos demuestran grandes variaciones
Verificación regular y sistemática por la calidad
de los datos rara vez se hace
Procedimientos estandarizados para la colección
de los datos pueden incumplirse en algunos sitios
del programa.
Problemas con la privacidad y/o permiso de uso
pueden presentar demoras en el acceso y traspaso
Otros limitaciones con el uso de datos
administrativos

24
Otros limitaciónes de datos administrativos

Tasas de la participación del programa, análisis
de individuos quienes califican pero no solicitan
y algunos consecuencias del programa no
susceptibles con datos administrativos
Escasez o ausencia de información sobre
individuos que han salido del programa, ya sean
los que terminan el programa o bien, no lo
completan
Tratarse de problemas de selección y la medición
ex post o a plazo largo de consecuencias,
típicamente requieren colecciones supletorias de
datos

25
Ventajas y desventajas de datos de muestras de
encuestas

Los datos de las encuestas pocas veces cubren
completamente las poblaciones beneficiarias,
aunque cubran una amplia gama de temas (ej.,
información más detallada sobre los antecedentes
y consecuencias de los individuos)
Las encuestas facilitan la colección de datos
sobre un periodo de tiempo más largo, después de
terminar con el programa
Las encuestas pueden obtener información
comparable de individuos quienes no han
participado
Falta de respuestas es una causa común por sesgos
en los datos de las encuestas
Falta de información sobre cuándo la falta de
respuesta desvirtúa los resultados

26
Otros factores de sesgos en las estimaciones no
experimentales

Auto-selección para ingresar o salir del proceso
de matrícula o del mismo programa
Ubicación del programa y otros factores que
gravemente limitan el acceso al tratamiento
Variaciones en la administración e implementación
del programa
Malos conteos de los que abandonan o nunca
aparecen, contaminación

27
Estrategias de evaluación no experimental de
impacto para corregir sesgos

La fuente del grupo de comparación es esencial
usar áreas geográficas similares y controles
internos
Mejorar datos y co-variar los criterios de
medición utilizados en el ajuste de estimaciones
del impacto de programas, incluyendo medidas de
consecuencias previa la intervención del programa
(ex ante)
Técnicas de nivelación econométrica, ej.,
nivelación del puntaje de propensión (propensity
score matching)
Uso de variables instrumentales u otras técnicas
de estimación en dos etapas (ej., discontinuidad
de regresión) para ajustar por diferencias no
observables de diferencias entre grupos de
tratamiento y comparación
Exámenes de especificaciones y análisis de
sensibilidad para evaluar suposiciones

28
Métodos de nivelación econométrica

Estimar el efecto del tratamiento sobre los
beneficiarios, suponiendo que condicionada en las
características medidas, participación en el
programa es independiente de consecuencias
Útil cuando los datos sobre controles previos al
tratamiento (características observadas) son
cuantiosos y la distribución de las
características muestra variaciones
significativas según la condición del tratamiento
Si la condición de tratamiento está influida por
variables los cuales no se han medido, los
métodos de nivelación tienden a producir
estimaciones de impacto sesgados.
Propensity score matching (estimación de la
probabilidad P(X) que un individuo con X
características sí participará) reduce el
problema de nivelación a una sola dimensión
La imposición de apoyo común evita malas
nivelaciones entre miembros de grupos de
tratamiento y de comparación

29
Ejemplo de discontinuidad de la regresión

La discontinuidad de la regresión utilizando un
valor de corte anterior al tratamiento, ej.,
puntaje de calificación u otra medida que hace
cuenta de la condición de tratamiento

30
Cita de James J. Heckman

La mayoría de estimaciones de sensibilidad del
impacto del programa, en relación con la
selección del estimador, en efecto son productos
de violaciones de principios básicos del análisis
de evaluación tales como la comparación entre
personas no comparables. Lo que nos faltan de
hecho son datos mejores, y no estimadores
mejores.

31
Los objetivos para el análisis permanente de
rendimiento y la evaluación de impacto

Efectuar experimentos aleatorios periódicamente
para evaluar los impactos del programa (valor
agregado)
Continuar investigaciones para identificar y
desarrollar criterios de medición de
consecuencias, los cuales se correlacionan
estrechamente con los impactos del programa
Criterios de medición más alejados asociados
mediante relaciones hipotéticas y variables de
reemplazo o supletorias (ej., notas de exámenes
en lugar de avances en conocimientos educativos)
aumentan el grado de incertidumbre sobre el
rendimiento e imponen costos de recursos
Con las evaluaciones cuyos resultados llevan
graves consecuencias es necesario reconocer los
errores e imprecisiones debidas a las
limitaciones metodológicas y de los datos