detección de plagio en prueba de opción múltiple

Suponga que un supervisor sospecha que un alumno copia las respuestas del papel de otro alumno durante un examen de opción múltiple. Más tarde verifica sus respuestas y encuentra algunas similitudes, pero por otro lado, es probable que haya similitudes dada la naturaleza del examen. ¿Cómo debería determinar si sus sospechas fueron fundadas?

En otras palabras, seguramente tendrá que comparar los exámenes con los de otros estudiantes (que, supongamos, no estaban haciendo trampa). Pero si el tamaño de la clase es muy grande, ¿es razonable tomar una muestra aleatoria para comparar? ¿Cuántos tomaría ella entonces? Si hubiera muchas preguntas en el examen, ¿también sería razonable tomar una muestra de las preguntas para compararlas? ¿Hace una diferencia significativa si cada pregunta tenía 2 respuestas posibles (verdadero / falso) o, por ejemplo, 4?

No tengo ningún número específico porque me pregunto cómo funcionaría esto en general. Tengo experiencia en matemáticas pero poca capacitación en estadística. ¿Cómo describirías este análisis en términos estadísticos?

Gracias.

correlation terminology

— Teófilo
fuente

Tengo la sensación de que tiene que suponer aquí que ni el tramposo ni el tacaño tenían respuestas correctas de la mayoría. Por ejemplo, si ambos obtuvieron respuestas correctas, no puede probar nada. Pero digamos que ambos obtuvieron las mismas respuestas incorrectas, probablemente hay una probabilidad muy alta de hacer trampa. Creo que tendrá que concentrarse en las respuestas que fueron incorrectas para hacer esta medición.

— Spacey

Creo que es posible que desee ser selectivo y elegir preguntas que es más probable que se copien. Esos probablemente serían los que parecen ser los más difíciles. Pero también existe la posibilidad de que la persona que hace trampa solo escoja preguntas que cubran temas que no estudió y que serían difíciles de discernir. Pero tener las mismas respuestas en preguntas fáciles realmente no le diría nada, ya que ambas partes sabrían la respuesta correcta.

— Michael R. Chernick

No es sorprendente que muchas personas hayan analizado la detección de trampas en el pasado, incluido Steven Levitt, autor de Freakonomics. Si desea saber si alguien hizo trampa solo con las respuestas, no realice pruebas de opción múltiple y supervise los exámenes usted mismo. Es posible que pueda rechazar la hipótesis de que el trabajo de los estudiantes no estaba relacionado, pero pasará un tiempo terrible demostrando que simplemente no estudiaron juntos. ¿Tiene una tabla de asientos y verificó las identificaciones de los estudiantes, que estaban sentados de acuerdo con la tabla de asientos? ¿Puedes volver a evaluar a los estudiantes?

— Douglas Zare el

El muestreo de las preguntas parece una idea terrible, ya que puede analizar fácilmente todas las preguntas, y perderá excelentes indicadores de copia, como una serie de respuestas que se compensan con 1 de la respuesta correcta. Por ejemplo, las respuestas correctas son 30) A 31) B 32) C 33) D 34) E y un estudiante tiene 30) A 31) B 32) C 33) D 34) B, y otro tiene 30) B 31) C 32) D 33) B. Si estas respuestas son respuestas incorrectas muy impopulares, entonces se ajustan al modelo que el segundo alumno estaba copiando al primero, y cometieron un error de omisión. Es difícil, aunque posible, explicar estas respuestas sin copiar.

— Douglas Zare el

Con el software actual, es relativamente fácil y eficiente crear un conjunto de exámenes con las mismas preguntas, pero tanto el orden de las preguntas como el orden de las respuestas están permutadas. Generalmente solo necesitas como máximo 4 versiones.

— R. Schumacher

Aquí hay una gama sorprendentemente amplia de los índices de copia de respuestas, aunque con poca discusión sobre sus méritos: http://www.bjournal.co.uk/paper/BJASS_01_01_06.pdf .

Hay un campo de psicología (educativa) llamado teoría de respuesta al ítem (IRT) que proporciona el fondo estadístico para preguntas como estas. Si usted es estadounidense y realizó un SAT, ACT o GRE, se enfrentó a una prueba desarrollada teniendo en cuenta IRT. El postulado básico de IRT es que cada estudiante $i$ se caracteriza por su habilidad $a_i$ ; cada pregunta se caracteriza por su dificultad $b_j$ ; y la probabilidad de responder una pregunta correctamente es

π (a_{i}, b_{j}; c) = P r o b [student i answers question j correctly] = Φ (c (a_{i} - b_{j}))

$\pi(a_i,b_j;c) = {\rm Prob}[\mbox{student $i$ answers question $j$ correctly}] = \Phi( c(a_i-b_j) )$ dónde

Φ (z)

$\Phi(z)$ es el cdf del estándar normal, y

c

$c$ es un parámetro adicional de sensibilidad / discriminación (a veces, se hace para preguntas específicas,

c_{j}

$c_j$ , si hay suficiente información, es decir, suficientes examinados, para identificar las diferencias). Una suposición oculta aquí que da a los estudiantes la habilidad

i

$i$ , las respuestas a diferentes preguntas son independientes. Esta suposición se viola si tiene una batería de preguntas sobre decir el mismo párrafo de texto, pero resumamos por un minuto.

Para las preguntas "Sí / No", este puede ser el final de la historia. Para más de dos preguntas de categoría, podemos hacer una suposición adicional de que todas las elecciones incorrectas son igualmente probables; por una pregunta $j$ con $k_j$ elecciones, la probabilidad de cada elección incorrecta es $\pi'(a_i,b_j;c) = [1-\pi(a_i,b_j;c)]/(k_j-1)$ .

Para estudiantes de habilidades. $a_i$ y $a_k$ , la probabilidad de que coincidan en sus respuestas para una pregunta con dificultad $b_j$ es

ψ (a_{i}, a_{k}; b_{j}, c) = π (a_{i}, b_{j}; c) π (a_{k}, b_{j}; c) + (k - 1) π^{'} (a_{i}, b_{j}; c) π^{'} (a_{k}, b_{j}; c)

$\psi(a_i,a_k;b_j,c) = \pi(a_i,b_j;c)\pi(a_k,b_j;c) + (k-1)\pi'(a_i,b_j;c)\pi'(a_k,b_j;c)$ Si lo desea, puede dividir esto en probabilidad de que coincida con la respuesta correcta,

ψ_{c} (a_{i}, a_{k}; b_{j}, c) = π (a_{i}, b_{j}; c) π (a_{k}, b_{j}; c)

$\psi_c(a_i,a_k;b_j,c) = \pi(a_i,b_j;c)\pi(a_k,b_j;c)$ , y la probabilidad de coincidir con una respuesta incorrecta,

ψ_{i} (a_{i}, a_{k}; b_{j}, c) = (k - 1) π^{'} (a_{i}, b_{j}; c) π^{'} (a_{k}, b_{j}; c)

$\psi_i(a_i,a_k;b_j,c) = (k-1)\pi'(a_i,b_j;c)\pi'(a_k,b_j;c)$ , aunque desde el marco conceptual de IRT, esta distinción no es material.

Ahora, puede calcular la probabilidad de coincidencia, pero probablemente será combinatoriamente minúscula. Una mejor medida puede ser la relación de la información en el patrón de respuestas en pares,

I (i, k) = \sum_{j} 1 {{match}_{j}} \ln ψ (a_{i}, a_{k}; b_{j}, c) + 1 {{non-match}_{j}} \ln [1 - ψ (a_{i}, a_{k}; b_{j}, c)]

$I(i,k) = \sum_j 1\{ \mbox{match}_j \} \ln \psi(a_i,a_k;b_j,c) + 1\{ \mbox{non-match}_j \} \ln [1- \psi(a_i,a_k;b_j,c) ]$ y relacionarlo con la entropía

E (i, k) = E [I (i, k)] = \sum_{j} ψ (a_{i}, a_{k}; b_{j}, c) \ln ψ (a_{i}, a_{k}; b_{j}, c) + (1 - ψ (a_{i}, a_{k}; b_{j}, c)) \ln [1 - ψ (a_{i}, a_{k}; b_{j}, c)]

$E(i,k) = {\rm E}[ I(i,k) ] = \sum_j \psi(a_i,a_k;b_j,c) \ln \psi(a_i,a_k;b_j,c) + (1- \psi(a_i,a_k;b_j,c) ) \ln [1- \psi(a_i,a_k;b_j,c) ]$ Puede hacer esto para todos los pares de estudiantes, trazarlos o clasificarlos, e investigar las mayores proporciones de información a entropía.

Los parámetros de la prueba $\{c,b_j, j=1, 2, \ldots\}$ y habilidades estudiantiles $\{a_i\}$ no caerán del cielo azul, pero son fácilmente estimables en software moderno como R con lme4o paquetes similares:

    irt <- glmer( answer ~ 1 + (1|student) + (1|question), family = binomial)

o algo muy parecido a esto.

— StasK
fuente