Saber cómo difieren grado es buena, pero aún no le dice lo que para compensar los grados a . Para simplificar, imagine solo dos estudiantes de grado. Incluso si concluimos que el grado 1 es consistentemente 5 puntos más generosos que el grado 2, eso no le dice qué hacer con dos estudiantes que fueron calificados 70, uno por grado 1 y otro por grado 2. ¿Decimos que grado 2 fue un marcador áspero y aumentó ese 70 a 75, mientras que los 70 marcados por el grado 1 sin cambios? ¿O suponemos que el alumno de grado 1 fue excesivamente indulgente, redujo a su alumno a 65 puntos y mantuvo los 70 de grado 2 sin cambios? ¿Nos comprometemos a mitad de camino, extendiéndonos a su caso, en base a un promedio de los 11 grados? Lo que importa son las calificaciones absolutas, por lo que conocer la relativa generosidad no es suficiente.
Su conclusión puede depender de cuán "objetivo" sienta que debería ser la marca absoluta final. Un modelo mental sería proponer que cada estudiante tenga una calificación "correcta", la que otorgaría el Asesor Principal si tuviera tiempo de marcar cada trabajo individualmente, a la cual las calificaciones observadas son aproximaciones. En este modelo, las calificaciones observadas deben ser compensadas por su calificador, para acercarlas lo más posible a su calificación "verdadera" no observada. Otro modelo podría ser que todas las calificaciones son subjetivas, y buscamos transformar cada calificación observada hacia la calificación que predecimos que se habría otorgado si todos los estudiantes hubieran considerado el mismo trabajo y hubieran alcanzado algún tipo de compromiso o calificación promedio. El segundo modelo me parece menos convincente como solución, incluso si la admisión de subjetividad es más realista. En un entorno educativo, generalmente hay alguien que tiene la responsabilidad final de la evaluación, para garantizar que los estudiantes reciban "la calificación que se merecen", pero este papel principal esencialmente ha absuelto la responsabilidad a los mismos estudiantes que ya sabemos que están en desacuerdo. De aquí en adelante asumoes una calificación "correcta" que pretendemos estimar, pero esta es una propuesta discutible y puede no ajustarse a sus circunstancias.
Suponga que los estudiantes A, B, C y D, todos en la misma cohorte, "deberían" ser calificados como 75, 80, 85 y 90 respectivamente, pero su generoso calificador constantemente marca 5 puntos demasiado altos. Observamos 80, 85, 90 y 95 y debemos restar 5, pero encontrar la cifra para restar es problemático. No se puede hacer comparando los resultados entre cohortes, ya que esperamos que las cohortes varíen en la capacidad promedio. Una posibilidad es usar los resultados de las pruebas de opción múltiple para predecir los puntajes correctos en la segunda tarea, luego usar esto para evaluar la variación entre cada calificador y las calificaciones correctas. Pero hacer esta predicción no es trivial: si espera una media y una desviación estándar diferentes entre las dos evaluaciones, no puede simplemente asumir que las calificaciones de la segunda evaluación deberían coincidir con la primera.
Además, los estudiantes difieren en aptitud relativa en evaluaciones de opción múltiple y evaluaciones escritas. Podría tratarse como un tipo de efecto aleatorio, formando un componente de las calificaciones "observadas" y "verdaderas" del estudiante, pero no capturadas por su calificación "predicha". Si las cohortes difieren sistemáticamente y los estudiantes en una cohorte tienden a ser similares, entonces no deberíamos esperar que este efecto promedie a cero dentro de cada cohorte. Si las calificaciones observadas de una cohorte promedian +5 en comparación con las predichas, es imposiblepara determinar si esto se debe a un calificador generoso, una cohorte particularmente más adecuada para la evaluación escrita que la opción múltiple, o alguna combinación de los dos. En un caso extremo, la cohorte incluso puede tener una aptitud más baja en la segunda evaluación, pero un calificador muy generoso lo compensó con creces, o viceversa. No puedes romper esto aparte. Está confundido
También dudo de la idoneidad de un modelo aditivo tan simple para sus datos. Los calificadores pueden diferir del Asesor Principal no solo por el cambio de ubicación, sino también por la propagación, aunque dado que las cohortes probablemente varían en homogeneidad, no puede simplemente verificar la propagación de las calificaciones observadas en cada cohorte para detectar esto. Además, la mayor parte de la distribución tiene puntajes altos, bastante cerca del máximo teórico de 100. Anticiparía esta introducción de no linealidad debido a la compresión cerca del máximo: un calificador muy generoso puede otorgar marcas A, B, C y D como 85, 90, 94, 97. Esto es más difícil de revertir que simplemente restar una constante. Peor aún, es posible que vea "recorte": un calificador extremadamente generoso puede calificarlos como 90, 95, 100, 100. Esto es imposiblerevertir, y la información sobre el rendimiento relativo de C y D se pierde irrecuperablemente.
Sus calificadores se comportan de manera muy diferente. ¿Está seguro de que difieren solo en su generosidad general, en lugar de en su generosidad en varios componentes de la evaluación? Puede valer la pena verificar esto, ya que podría introducir varias complicaciones, por ejemplo, la calificación observada para B puede ser peor que la de A, a pesar de que B sea 5 puntos "mejor", incluso si las calificaciones asignadas por el calificador para cada componente son una función monotónicamente creciente del asesor principal! Suponga que la evaluación se divide entre Q1 (A debería obtener una puntuación de 30/50, B 45/50) y Q2 (A debería obtener una puntuación de 45/50, B 35/50). Imagine que el calificador es muy indulgente con Q1 (calificaciones observadas: A 40/50, B 50/50) pero duro con Q2 (observado: A 42/50, 30/50), luego observamos un total de 82 para A y 80 para B. Si tiene que considerar las puntuaciones de los componentes,
Podría decirse que este es un comentario extendido en lugar de una respuesta, en el sentido de que no propone una solución particular dentro de los límites originales de su problema. Pero si sus calificadores ya están manejando alrededor de 55 papeles cada uno, entonces, ¿es tan malo para ellos tener que mirar cinco o diez más para fines de calibración? Ya tiene una buena idea de las habilidades de los estudiantes, por lo que podría elegir una muestra de trabajos de todo el rango de grados. Luego, podría evaluar si necesita compensar la generosidad del evaluador en toda la prueba o en cada componente, y si debe hacerlo simplemente sumando / restando una constante o algo más sofisticado como la interpolación (por ejemplo, si le preocupa no linealidad cercana a 100). Pero una palabra de advertencia sobre la interpolación: supongamos que el Asesor Principal marca cinco muestras de documentos como 70, 75, 80, 85 y 90, mientras que un calificador los marca como 80, 88, 84, 93 y 96, por lo que hay cierto desacuerdo sobre el orden. Es probable que desee asignar calificaciones observadas de 96 a 100 en el intervalo de 90 a 100, y notas observadas de 93 a 96 en el intervalo de 85 a 90. Pero se requiere cierta reflexión para las marcas por debajo de eso. ¿Quizás las calificaciones observadas de 84 a 93 deberían asignarse al intervalo de 75 a 85? Una alternativa sería una regresión (posiblemente polinomial) para obtener una fórmula para el "grado verdadero predicho" a partir del "grado observado". ¿Quizás las calificaciones observadas de 84 a 93 deberían asignarse al intervalo de 75 a 85? Una alternativa sería una regresión (posiblemente polinomial) para obtener una fórmula para el "grado verdadero predicho" a partir del "grado observado". ¿Quizás las calificaciones observadas de 84 a 93 deberían asignarse al intervalo de 75 a 85? Una alternativa sería una regresión (posiblemente polinomial) para obtener una fórmula para el "grado verdadero predicho" a partir del "grado observado".