Title: TEMA 11 An
1TEMA 11Análisis de la calidad métrica de los
ítems
- Licenciatura de Psicopedagogía
- Métodos, Diseños y Técnicas de Investigación
Psicológica - Salvador Chacón Moscoso
- Susana Sanduvete Chaves
- Dpto. de Psicología Experimental.
- Universidad de Sevilla.
2- Recordando..., la Psicometría es una disciplina
implicada directamente en la medición
psicológica, con una doble vertiente - teórica supone la fundamentación teórica de la
medida. - aplicada supone la
- construcción,
- evaluación y
- aplicación
- de instrumentos de medida para evaluar o medir
las características psicológicas de interés.
3Dentro de los parámetros de los ítems se suele
estimar la dificultad, discriminación,
pseudoadivinación, homogeneidad, información,
fiabilidad y validez, si bien según sea el marco
teórico que se adopte teoría clásica de los
tests, teoría de respuesta al ítem o medición
referida al criterio- algunos de ellos serán
definidos e interpretados/valorados de distinto
modo y se estimará un determinado número de estos
parámetros, no todos. La mayor parte de los
textos de psicometría presentan algún capítulo
dedicado a estas cuestiones (véase, por ejemplo,
Crocker y Algina, 1986 Martínez Arias, 1995
Muñiz, 1992 o Santisteban, 1990).
4- Evaluación del instrumento.
- Análisis de la calidad de los ítems.
- Estudio de la fiabilidad del instrumento
- Estudio de la validez del instrumento.
5FASE DE EVALUACIÓN DE UN INSTRUMENTO DE
MEDIDA La fase de evaluación del instrumento de
medida es absolutamente crucial ya que todas las
medidas obtenidas al aplicar una prueba contienen
error y por tanto se hace necesario la evaluación
de la calidad de los instrumentos de medida, es
decir, determinar si éstos cumplen o no los
criterios métricos de calidad que todo
instrumento de medida debe de satisfacer para
poder ser utilizado con garantía como un
instrumento científico.
6FASE DE EVALUACIÓN DE UN INSTRUMENTO DE
MEDIDA La calidad de los ítems, la fiabilidad y
la validez son las características fundamentales
de un buen instrumento de medida son propiedades
exigibles a un buen test y, por lo tanto,
criterios a tener en cuenta para evaluarlos con
criterios de calidad. Esto supone que habrá
que proceder al análisis de los ítems del mismo y
estudiar la fiabilidad y validez del instrumento.
7Análisis de los ítems
8- El examen de la calidad individual de cada uno de
los elementos, ítems o indicadores que componen
un instrumento de medida implica la obtención de
información descriptiva y estadística. - Información descriptiva hace e referencia a la
calidad técnica de sus elementos y en general
supone la obtención de evidencias de validez de
los mismos, es decir, obtención de indicios sobre
su relevancia, adecuación, claridad, etc. - Información estadística supone la estimación de
una serie de parámetros para cada ítem, el
análisis de los distractores o alternativas
incorrectas de respuestas -en los ítems de
elección múltiple- y el examen del posible
funcionamiento diferencial de los ítems en grupos
de interés.
9- Información descriptiva Validez de los ítems de
un tests (sistema de indicadores) - Objetivo
- Establecer juicios razonables sobre el grado en
que las evidencias aportadas permiten emprender
acciones basadas en el modelo de medida
desarrollado, en este caso, a través de los ítems
o indicadores (Messick, 1989). - No cabe plantear si el sistema de ítems o
indicadores es válido en sí mismo
independientemente del objetivo de la
investigación o del contexto, sino que su validez
está en relación con los objetivos a medir.
10- No hay un coeficiente único que reporte datos
sobre la validez de los ítems o sistema de
indicadores, sino que los datos para establecer
juicios sobre su validez vienen dados por
1. Los resultados de combinar distintas técnicas.
2. Por evidencias empíricas basadas en
experiencias anteriores.
3. La utilidad que muestren para el modelo de
medida propuesto
11-De acuerdo con ello, es necesario dotar a los
ítems o indicadores de distintas evidencias de
validez, en concreto
- Validez de contenido Garantizar que los
indicadores seleccionados constituyan una muestra
representativa de todos los posibles indicadores. - Validez de constructo Garantizar la existencia
del constructo que conforma el conjunto de
indicadores que pretenden medirlo y por ende dota
de sentido a las puntuaciones que se obtienen con
los indicadores. - Validez de criterio Conjunto de evidencias que
permiten demostrar que las puntuaciones del
sistema de indicadores están relacionadas con un
criterio externo de interés (Suen, 1990).
12-En general, los distintos tipos de validez, no
son entidades distintas, sino que son el
resultado de distintas aproximaciones al concepto
de validez de los indicadores o ítems en nuestro
caso.
Los ítems o el sistema de indicadores es
coherente con investigaciones previas
Se corresponda con el modelo teórico referente
Útil para nuestros propósitos
Modelo de medida a partir del cual programar
acciones en el campo aplicado, en nuestro caso,
de la psicología.
132. Validez de constructo Garantizar la
existencia del constructo que conforma el
conjunto de indicadores que pretenden medirlo y
por ende dota de sentido a las puntuaciones que
se obtienen con los indicadores. Para
contrastar la calidad técnica de los ítems, en
cuanto a su validez de constructo suele
recurrirse al estudios del modelo de medida desde
la técnica del Análisis Factorial (Exploratorio
y Confirmatorio) En general, el Análisis
Factorial (AF) como modelo de medida asume que
los factores son causas efectivas de los
indicadores, que son vistos como efectos de los
mismos. Los indicadores o ítems son efectos
(manifestaciones) de las variables latentes o
conceptos psicológicos no observables.
14A titulo de ejemplo, podemos establecer que el
concepto de Calidad Universitaria puede
contemplarse desde un modelo de medida en el que
Enseñanza, Investigación y Gestión son
dimensiones (factores) más específicas del mismo
y se asume que estos factores son causas
efectivas de distintos indicadores o ítems, que
son vistos como efectos de los mismos, es decir,
los indicadores son manifestaciones empíricas que
permiten medir dichas variables latentes.
15Un modo alternativo al planteamiento anterior,
supone establecer el concepto de Calidad
Universitaria desde un modelo en el que
Enseñanza, Investigación y Gestión son
dimensiones específicas (factores) que afectan o
modulan a dicho concepto general y se asume que
estos factores, a su vez, son modulados por
distintos indicadores o ítems, que son
considerados como causas efectivas de los mismos,
es decir, supone definir a los constructos como
funciones lineales de los indicadores más una
parte de error. Los factores pueden ser asumidos
como variables compuestas por variables
observadas, expresadas como combinaciones
lineales de éstas (McCallum y Browne, 1993).
16La calidad universitaria es función de
indicadores observables que conforman el concepto
calidad. Decimos que la calidad será mejor o
peor en función de los valores de los indicadores
, y no que es la calidad universitaria la que
provoca cambios en los indicadores.
173. Validez de criterio Conjunto de evidencias
que permiten demostrar que las puntuaciones del
sistema de indicadores están relacionadas con un
criterio externo de interés (Suen, 1990). Para
contrastar la calidad técnica de los ítems desde
la perspectiva de validez de criterio, se suelen
utilizar procedimientos que implican evaluar el
poder predictivo del instrumento globalmente. En
este sentido nos remitimos al concepto de validez
del instrumento que analizaremos en apartados
subsiguientes.
18Información estadística Estimación de parámetros
para cada ítem. Dentro del marco de la TCT, los
parámetros de los ítems que se suelen estimar son
el índice de dificultad, discriminación y
validez, si bien según sea el marco teórico que
se adopte TCT, TRI o medición referida al
criterio (MRC)- se valoran otros índices
(homogeneidad, información, pseudoadivinación...).
Algunos de ellos serán definidos e
interpretados/valorados de distinto modo según el
marco teórico. La mayor parte de los textos de
psicometría presentan algún capítulo dedicado a
estas cuestiones (véase, por ejemplo, Crocker y
Algina, 1986 Martínez Arias, 1995 Muñiz,
1992/98 o Santisteban, 1990).
19Índice de dificultad (ID) Proporción de sujetos
que responden correctamente al ítem. Es un índice
descriptivo de la distribución de respuestas y/o
puntuaciones del ítem
donde A Número de sujetos que aciertan
el ítem. N Número de sujetos que han intentado
resolver el ítem.
20Índice de dificultad (con corrección del
azar) Proporción de sujetos que responden
correctamente al ítem corrigiendo las posibles
aciertos por azar
donde A Número de sujetos que aciertan
el ítem. E Número de sujetos que han fallado
el ítem. n Número de alternativas de
respuestas del ítem. N Número de sujetos que
han intentado resolver el ítem.
21- En general, un ítem en mejor cuanto mayor sea su
varianza. - Los mejores ítems son los que tienen un índice
de dificultad de 0.5, porque optimizan la
variabilidad del ítem. - Por lo que respecta al test en su conjunto, para
que discrimine adecuadamente entre los niveles de
habilidad de todos los sujetos se han propuesto
criterios para incluir proporcionalmente ítems,
con diferentes valores en sus ID, en el tests. - Osterlind recomienda, en tests de rendimiento,
índices de dificultad que oscilen entre 0.4 y
0.8.
22Yela (1980) recomienda la siguiente distribución
de ítems en el test
En este mismo sentido, Garret (1968) propone
23Comportamiento del ID de un ítem por niveles de
habilidad de los sujetos
24Índice de discriminación (rix) Es un índice que
relaciona el ítem con el test y se define como
la correlación entre las puntuaciones de los
sujetos en el ítem y sus puntuaciones en el test
(Muñiz, 1998, p.219) Su mayor utilidad es
diferenciar a los sujetos con puntuaciones altas
en el test de aquellos que las tienen bajas. En
general, se obtiene aplicando los principios de
la correlación de Pearson, adaptando el cálculo a
las características o modos en que los ítems
vienen medidos. En la literatura psicométrica
podemos encontrar diferentes formas de calcular
este índice
25Índice de discriminación clásico (Croker y
Algina, 1986).
donde Ps es la proporción de sujetos del grupo
superior en el criterio que responden
correctamente al ítem. y Pi es la proporción de
sujetos del grupo inferior que responden
correctamente al ítem.
26Índice de discriminación basado en el coeficiente
de correlación de Pearson. Coeficiente de
Correlación producto-momento de Pearson (rxy)
27Índice de discriminación (casos particulares
basados en el coeficiente de correlación de
Pearson. Coeficiente de Correlación biserial
puntual (rbp)
donde µp Media en el test de los sujetos que
han acertado el ítem µx Media del test ?x
Desviación típica del test p Proporción de
sujetos que aciertan el ítem q 1-p
28Índice de discriminación (casos particulares
basados en el coeficiente de correlación de
Pearson. Coeficiente de Correlación biserial
(rb)
donde µp Media en el test de los sujetos que
han acertado el ítem µx Media del test ?x
Desviación típica del test p Proporción de
sujetos que aciertan el ítem y Ordenada
correspondiente al valor de la puntuación típica
en la curva normal que deja por debajo un área
igual a p (los valores se pueden encontrar en
la tabla estadística correspondiente.
29Índice de discriminación (casos particulares
basados en el coeficiente de correlación de
Pearson. Coeficiente de Correlación Phi (?)
donde a, b, c y d son las frecuencias de cada
una de las cuatro casillas formadas por el cruce
de un ítem dicotómico y un tests dicotómico.
30Índice de discriminación (casos particulares
basados en el coeficiente de correlación de
Pearson. Coeficiente de Correlación Tetracórico
(rt)
donde a, b, c y d son las frecuencias de cada
una de las cuatro casillas formadas por el cruce
de un ítem y un test ambos dicotomizados.
asumiendo distribuciones normales
31Índice de Validez El índice de validez de un
ítems está referido a su correlación con un
criterio externo al propio test. Como ocurre
con el índice de discriminación su calculo
dependerá de la naturaleza de las variables con
las que se correlacione el ítem, es decir, las
distintas fórmulas de correlación reseñadas en el
índice de discriminación pueden ser utilizadas
para el cálculo del índice de validez. Su cálculo
es idéntico, si bien ahora no existe el problema
adicional de que el ítem esté incluido en el
criterio como podía ocurrir en el caso del índice
de discriminación.
32Información estadística análisis de los
distractores o alternativas incorrectas de
respuestas -en los ítems de elección
múltiple-. El análisis de los distractores ha
recibido un tratamiento considerablemente breve
en la literatura, a pesar de que el distractor
constituye una parte importante del ítem o
elemento. El análisis de los distractores
supone detectar qué alternativas incorrectas
funcionan en la dirección esperada y cuáles no, y
proceder subsiguientemente a su revisión,
sustitución o supresión.
33Haladyna (1994) propone tres vías para recoger
información acerca del funcionamiento de los
distractores 1. La tabla de frecuencias
(Levine y Drasgow, 1982 Walner, 1989). 2.
La curva característica del distractor (Thissen,
Steinberg y Fitzpatrick, 1989). 3. Índices
estadísticos (correlación distractor-puntuación
total en el test, media en el test de los sujetos
que eligen un distractor, ?2).
341. La tabla de frecuencias (Levine y
Drasgow, 1982 Walner, 1989). Análisis de las
alternativas incorrectas (Muñiz, 1998).
352. La curva característica del distractor
(Thissen, Steinberg y Fitzpatrick, 1989). Este
enfoque se lleva a cabo desde la TRI. Consiste en
tratar la alternativa incorrecta (distractor)
como si fuese la opción correcta y analizar sus
parámetros desde esta teoría.
363. Índices estadísticos (correlación
distractor-puntuación total en el test, media en
el test de los sujetos que eligen un distractor,
?2).
37- Información estadística examen del posible
funcionamiento diferencial de los ítems en grupos
de interés (DIF). - El Funcionamiento Diferencial del ítem (FDI) es
un término acuñado por Holland y Thayer (1988)
y, de un modo muy general, se puede caracterizar
como un indicador de la existencia en el proceso
de medición de error sistemático respecto a
ciertos grupos de la población que está siendo
evaluada (Baron, 1988).
38En resumen, los principales criterios de bondad
de una prueba y subsecuentemente de un ítem son
dos fiabilidad y validez.
39Procedimiento de Mantel-Haenszel
Este procedimiento permite establecer la
existencia de asociación entre dos variables
cuando se condiciona a una tercera variable. El
valor obtenido tiene un grado de libertad ( gl
columnas - 1 x filas - 1) Si el valor de
Chi cuadrado calculado excede el valor teórico,
se está en condiciones de poder rechazar la
hipótesis de nulidad H0 (falta de asociación) en
favor de H1 (asociación).