¿Por qué no se califican todas las pruebas a través del análisis de ítems / teoría de la respuesta?


8

¿Existe alguna razón estadística por la cual la teoría de análisis / respuesta de ítems no se aplique más ampliamente? Por ejemplo, si un maestro realiza una prueba de opción múltiple de 25 preguntas y encuentra que 10 preguntas fueron respondidas correctamente por todos, 10 preguntas fueron respondidas por una fracción realmente baja (digamos 10%) y las 5 restantes fueron respondidas por aproximadamente el 50% de las personas . ¿No tiene sentido volver a pesar los puntajes para que las preguntas difíciles tengan más peso?

Y, sin embargo, en el mundo real, las pruebas casi siempre tienen todas las preguntas ponderadas por igual. ¿Por qué?

El siguiente enlace analiza los índices de discriminación y otras medidas de dificultad para elegir qué preguntas son las mejores: http://fcit.usf.edu/assessment/selected/responsec.html

Sin embargo, parece que el método para calcular el índice de discriminación de las preguntas solo se usa de manera prospectiva (por ejemplo, si una pregunta no discrimina bien, tírela). ¿Por qué no se vuelven a evaluar las pruebas para la población actual?

Respuestas:


7

(Usted preguntó si hay una razón estadística: lo dudo, pero supongo que hay otras razones). ¿Habrá gritos de "mover el poste de la portería"? Por lo general, a los estudiantes les gusta saber, al tomar un examen, cuánto vale cada artículo. Podrían estar justificados al quejarse al ver, por ejemplo, que algunas de sus respuestas tan trabajadas no terminaron contando mucho.

Muchos profesores y profesores utilizan criterios subjetivos y poco sistemáticos para calificar las pruebas. Pero aquellos que usan sistemas probablemente desconfían de abrir esos sistemas a críticas específicas, algo que pueden evitar en gran medida si se esconden detrás de enfoques más subjetivos. Eso podría explicar por qué el análisis de ítems y la IRT no se usan más ampliamente de lo que se usan.


1
+1, espero que muchos maestros y profesores no estén familiarizados con IRT también.
gung - Restablecer Monica

¡Absolutamente! Otra razón no estadística. Creo que la formación de docentes en este país es tal que muchos de los que enseñan reciben poca o ninguna capacitación en evaluación. Y luego están los investigadores y diseñadores de pruebas capacitados en evaluación que tienen poca o ninguna capacitación en métodos de instrucción.
rolando2

1
@ rolando2 - Me da vergüenza como economista que no se me ocurriera la idea de incentivos ex ante o durante el examen. Si los examinados están tratando con un objetivo en movimiento y no saben cómo gastar racionalmente su tiempo y esfuerzo respondiendo cada pregunta, ¡eso podría tener algunos efectos realmente perversos!
d_a_c321

Veo cómo podría disgustarlos, pero ¿en qué tipo de efectos "perversos" estás pensando?
rolando2

6

Un primer argumento tiene que ver con la transparencia. @ rolando2 ya ha hecho este punto. Los estudiantes quieren saber ex ante cuánto vale cada artículo.

Un segundo argumento es que los pesos no solo reflejan el grado de dificultad de una pregunta, sino también el grado de importancia que el instructor atribuye a una pregunta. De hecho, el objetivo de un examen es probar y certificar conocimientos y competencias. Como tal, los pesos atribuidos a diferentes preguntas y elementos deben ser establecidos previamente por el maestro. No debe olvidar que "todos los modelos están equivocados y solo algunos son útiles". En este caso, uno puede tener algunas dudas sobre la utilidad.

Dicho esto, creo que el análisis estadístico (más o menos elegante) podría venir a posteriori, para el análisis de los resultados. Allí puede arrojar algunas ideas interesantes. Ahora, si esto se hace y hasta qué punto se hace, depende ciertamente de las habilidades estadísticas del maestro.


2
¡Absolutamente! Como instructor, lo que busco no es una clasificación relativa de los estudiantes, sino una medida absoluta de comprensión y habilidades. Sería perfectamente posible (encantado, incluso), si resultara que todos en la clase se midió con una comprensión del 100% de la materia que estoy enseñando. Por lo tanto, los pesos de las preguntas se eligen para reflejar su importancia y cuánto peso deberían tener en una evaluación general de la comprensión del tema.
DW

2

Quería hacer una aclaración sobre la pregunta original. En la teoría de respuesta al ítem, la discriminación (es decir, la pendiente del ítem o la carga del factor) no es indicativa de dificultad. Usar un modelo que permita una discriminación variable para cada ítem es ponderarlos efectivamente de acuerdo con su correlación estimada con la variable latente, no por su dificultad.

En otras palabras, un ítem más difícil podría ser ponderado si se estima que no está correlacionado con la dimensión de interés y viceversa, un ítem más fácil podría ser ponderado si se estima que está altamente correlacionado.

Estoy de acuerdo con las respuestas anteriores que apuntan a (a) la falta de conocimiento de los métodos de respuesta al ítem entre los profesionales, (b) el hecho de que el uso de estos modelos requiere cierta experiencia técnica, incluso si uno es consciente de sus ventajas (especialmente la capacidad de evaluar el ajuste del modelo de medición), (c) las expectativas del estudiante según lo indicado por @ rolando2, y por último pero no menos importante (d) las consideraciones teóricas que los instructores pueden tener para ponderar diferentes elementos de manera diferente. Sin embargo, quería mencionar que:

  1. No todos los modelos de teoría de respuesta a ítems permiten la variación del parámetro de discriminación, donde el modelo Rasch es probablemente el mejor ejemplo conocido de un modelo donde las discriminaciones entre ítems se mantienen constantes. Bajo la familia de modelos Rasch, el puntaje de suma es una estadística suficiente para el puntaje de respuesta al ítem, por lo tanto, no habrá diferencia en el orden de los encuestados, y las únicas diferencias prácticas serán apreciadas si las 'distancias' entre el puntaje Se consideran grupos.

  2. Hay investigadores que defienden el uso de la teoría de prueba clásica (que se basa en el uso tradicional de puntajes de suma o promedio correcto) por razones teóricas y empíricas. Quizás el argumento más utilizado es el hecho de que los puntajes generados bajo la teoría de respuesta al ítem son efectivamente muy similares a los producidos bajo la teoría de prueba clásica. Véase, por ejemplo, el trabajo de Xu & Stone (2011), Uso de estimaciones de rasgos IRT versus puntajes sumados en predicción de resultados , medición educativa y psicológica , donde informan correlaciones superiores a .97 en una amplia gama de condiciones.


(+1) El primer párrafo está muy bien escrito. Sobre el punto 2, de alguna manera me perdí este artículo, ¡así que gracias por compartir! Es de destacar que se observarían correlaciones de magnitud comparable con los modelos de análisis factorial tradicionales (donde las cargas imitan el parámetro de discriminación; en el marco de CTT, sería el coeficiente de correlación punto-biserial) siempre que las dificultades del ítem se distribuyan uniformemente en el rasgo latente ( es decir, no hay artículos demasiado difíciles ni demasiado fáciles).
chl

1

¿No debería basarse el puntaje de un estudiante en lo que sabe y responde en el examen en lugar de lo que hacen todos los demás en la clase?

Si dio el mismo examen 2 años diferentes y tuvo 2 estudiantes (1 en cada uno) que respondieron exactamente las mismas preguntas correctamente (sin hacer trampa), ¿tiene sentido que recibieran diferentes calificaciones en función de la cantidad de otros estudiantes en su clase estudiada?

Y personalmente, no quiero motivar a ningún alumno para sabotear a sus compañeros de clase en lugar de aprender el material ellos mismos.

IRT puede dar una idea de la prueba, pero no la usaría para ponderar activamente los puntajes.

Cuando pienso en pesas, creo que alguien debería obtener más puntos por responder correctamente una pregunta difícil, pero debería perder más puntos por responder mal una pregunta fácil. Combina esos y aún terminas con la misma ponderación. O, en realidad, trato de sopesar según el tiempo o el esfuerzo necesarios para responder la pregunta, de modo que alguien que responda las preguntas en un orden diferente no tenga ventaja en una prueba cronometrada.


Las grandes organizaciones de prueba que usan IRT también tienen que preocuparse por la coherencia entre la oferta de la prueba. La consistencia de las variables latentes es importante pero es alcanzable.
D Coetzee
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.