Hay dos partes en esto: (a) seleccionar un gráfico ( diseño experimental ) para determinar qué pares de ensayos evaluarán los estudiantes en el proceso de calificación de pares, y (b) clasificar todos los ensayos, según las calificaciones de pares del estudiante, determinar qué maestro debe clasificar. Sugeriré algunos métodos para cada uno.
Elegir un gráfico
Planteamiento del problema. El primer paso es generar un gráfico. En otras palabras, debe seleccionar qué pares de ensayos mostrar a los estudiantes durante el ejercicio de calificación entre pares.
Solución sugerida. Para esta tarea, le sugiero que genere un gráfico aleatorio , seleccionado uniformemente al azar del conjunto de todos los gráficos de 3 regulares (simples).sol
Justificación y detalles. Se sabe que un gráfico aleatorio regular es un buen expansor. De hecho, los gráficos regulares tienen un factor de expansión asintóticamente óptimo. Además, debido a que el gráfico es aleatorio, esto debería eliminar el riesgo de sesgar la calificación. Al seleccionar un gráfico uniforme al azar, se asegura de que su enfoque sea igualmente justo para todos los estudiantes. Sospecho que un gráfico uniforme aleatorio de 3 regulares será óptimo para sus propósitos.re
Esto plantea la pregunta: ¿cómo seleccionamos un gráfico 3-regular (simple) en vértices, uniformemente al azar?norte
Afortunadamente, existen algoritmos conocidos para hacer esto. Básicamente, haces lo siguiente:
Crea puntos. Puedes pensar en esto como 3 copias de cada uno de los n vértices. Genere, de manera uniforme al azar, una coincidencia perfecta aleatoria en estos 3 n puntos. (En otras palabras, repita el siguiente procedimiento hasta que los 3 n puntos estén emparejados: seleccione cualquier punto sin emparejar y emparejelo con otro punto elegido uniformemente al azar del conjunto de puntos sin emparejar).3 nnorte3 n3 n
Para cada dos puntos que coincidan con la coincidencia, dibuje un borde entre los vértices correspondientes (de los que son una copia). Esto te da un gráfico en vértices.norte
A continuación, pruebe si el gráfico resultante es simple (es decir, no tiene bucles automáticos ni bordes repetidos). Si no es simple, descarte el gráfico y regrese al paso 1. Si es simple, ya ha terminado; Salida de este gráfico.
Se sabe que este procedimiento genera una distribución uniforme en el conjunto de gráficos de 3 regulares (simples). Además, se sabe que en el paso 3 tiene una probabilidad constante de aceptar el gráfico resultante, por lo que, en promedio, el algoritmo realizará ensayos, por lo que esto es bastante eficiente (por ejemplo, tiempo de ejecución polinómico).O ( 1 )
He visto este enfoque acreditado a Bollobas, Bender y Canfield. El enfoque también se resume brevemente en Wikipedia . También puede encontrar una discusión en esta publicación de blog .
nortenortenorte
Clasificación de todos los ensayos.
Planteamiento del problema. Bien, ahora tiene un gráfico y ha presentado estos pares de ensayos (como lo indican los bordes en el gráfico) a los estudiantes para que los califiquen durante el ejercicio de calificación de pares. Tienes los resultados de cada comparación de ensayos. Ahora su tarea es inferir una clasificación lineal en todos los ensayos, para ayudarlo a determinar cuáles debe evaluar el maestro.
Solución. Le sugerí que usara el modelo Bradley-Terry . Es un enfoque matemático que resuelve exactamente este problema. Fue diseñado para clasificar jugadores en algún deporte, basado en los resultados de los partidos entre algunos pares de jugadores. Se supone que cada jugador tiene una fuerza (desconocida), que puede cuantificarse como un número real, y la probabilidad de que Alice venza a Bob está determinada por una función suave de la diferencia de sus fuerzas. Luego, dados los registros de victorias / derrotas por parejas, estima la fuerza de cada jugador.
Esto debería ser perfecto para ti. Puedes tratar cada ensayo como un jugador. Cada comparación entre dos ensayos (durante el proceso de calificación entre pares) es como el resultado de una coincidencia entre ellos. El modelo Bradley-Terry le permitirá tomar todos esos datos e inferir una fortaleza para cada ensayo, donde las fortalezas más altas corresponden a mejores ensayos. Ahora puede usar esas fortalezas para ordenar por orden todos los ensayos.
yoj
Existen formas alternativas de inferir clasificaciones o clasificaciones para todos los ensayos, dados los datos que tiene. Por ejemplo, el método Elo es otro. Resumo varios de ellos en mi respuesta a una pregunta diferente ; lea esa respuesta para más detalles.
Otro comentario: el modelo Bradley-Terry supone que el resultado de cada comparación entre dos jugadores es una victoria o una pérdida (es decir, un resultado binario). Sin embargo, parece que en realidad tendrá datos más detallados: su control deslizante le dará una estimación aproximada de cuánto mejor calificó un evaluador por pares un ensayo que otro. El enfoque más simple sería simplemente asignar cada control deslizante a un resultado binario. Sin embargo, si realmente lo desea, puede utilizar todos los datos mediante un análisis más sofisticado. El modelo Bradley-Terry implica hacer una regresión logística. Si generaliza el uso de logit ordenado , apuesto a que podría aprovechar la información adicional que tiene de cada control deslizante, dado que los resultados de los controles deslizantes no son binarios, pero son una de varias posibilidades.
Uso eficiente del profesor.
Sugiere que el maestro califique manualmente el X% superior y el X% inferior de todos los ensayos (utilizando la clasificación inferida de los resultados de la calificación entre pares). Esto podría funcionar, pero sospecho que no es el uso más eficiente del tiempo limitado del maestro. En cambio, me gustaría sugerir un enfoque alternativo.
Sugiero que haga que el maestro califique un subconjunto de los ensayos, con el subconjunto cuidadosamente seleccionado para tratar de proporcionar la mejor calibración posible para todos los ensayos que no fueron calificados por el maestro. Para esto, creo que podría ayudar si seleccionara una muestra de ensayos que cubrieran el rango de respuestas posibles (por lo tanto, para cada ensayo, hay algún ensayo calificado por el maestro que no está muy lejos de él). Para esto, puedo pensar en dos enfoques que podrías considerar probar:
nortekkk
kre( eyo, ej)miyomijSre( e , S) = minmi′∈ Sre( e , e′)miSke1,e2,…,ekei+1d(e,{e1,e2,…,ei})ee∉{e1,e2,…,ei}kk . Por lo tanto, sería razonable que el maestro calificara los ensayos seleccionados por el algoritmo FPF.k
Sospecho que cualquiera de estos enfoques podría proporcionar puntajes más precisos que hacer que el maestro califique el X% superior y el X% inferior de los ensayos, ya que los mejores y peores ensayos probablemente no son representativos de la masa de ensayos en el medio.
En ambos enfoques, podría usar una función de distancia más sofisticada que tenga en cuenta no solo las estimaciones de fuerza basadas en la calificación de pares, sino también otros factores derivados de los ensayos. La función de distancia más simple posible tendría en cuenta solo el resultado del modelo de Terry-Bradley, es decir, donde es la fuerza de ensayo según lo estimado por el modelo de Terry-Bradley basado en los resultados de la clasificación por pares. Sin embargo, puedes hacer algo más sofisticado. Por ejemplo, podría calcular la distancia de edición normalizada de Levenshtein entre el ensayo y s ( e ) e e 1 e 2 kd(e1,e2)=(s(e1)−s(e2))2s(e)ee1e2(tratándolos como cadenas de texto, calculando la distancia de edición y dividiendo por la longitud del mayor de los dos) y utilícelo como otro factor en la función de distancia. También podría calcular vectores de características usando un modelo de bolsa de palabras en las palabras de los ensayos, y usar la distancia L2 entre estos vectores de características (con características normalizadas usando tf-idf) como otro factor en la función de distancia. Puede usar una función de distancia que sea un promedio ponderado de la diferencia en las fuerzas (según las estimaciones de Terry-Bradley), la distancia de edición normalizada y cualquier otra cosa que parezca útil. Dicho más sofisticado podría ayudar función de distancia hacer un mejor trabajo de ayudar al algoritmo de agrupamiento seleccionar cuales son las mejores ensayos para tener el grado de maestro.k