¿Existe alguna razón estadística por la cual la teoría de análisis / respuesta de ítems no se aplique más ampliamente? Por ejemplo, si un maestro realiza una prueba de opción múltiple de 25 preguntas y encuentra que 10 preguntas fueron respondidas correctamente por todos, 10 preguntas fueron respondidas por una fracción realmente baja (digamos 10%) y las 5 restantes fueron respondidas por aproximadamente el 50% de las personas . ¿No tiene sentido volver a pesar los puntajes para que las preguntas difíciles tengan más peso?
Y, sin embargo, en el mundo real, las pruebas casi siempre tienen todas las preguntas ponderadas por igual. ¿Por qué?
El siguiente enlace analiza los índices de discriminación y otras medidas de dificultad para elegir qué preguntas son las mejores: http://fcit.usf.edu/assessment/selected/responsec.html
Sin embargo, parece que el método para calcular el índice de discriminación de las preguntas solo se usa de manera prospectiva (por ejemplo, si una pregunta no discrimina bien, tírela). ¿Por qué no se vuelven a evaluar las pruebas para la población actual?