Es importante enmarcar la pregunta correctamente y adoptar un modelo conceptual útil de los puntajes.
La pregunta
Los umbrales de trampa potenciales, como 55, 65 y 85, se conocen a priori independientemente de los datos: no tienen que determinarse a partir de los datos. (Por lo tanto, este no es un problema de detección atípico ni un problema de ajuste de distribución). La prueba debe evaluar la evidencia de que algunos (no todos) puntajes apenas inferiores a estos umbrales se movieron a esos umbrales (o, tal vez, simplemente por encima de esos umbrales).
Modelo conceptual
Para el modelo conceptual, es crucial comprender que es poco probable que los puntajes tengan una distribución normal (ni ninguna otra distribución fácilmente parametrizable). Eso está muy claro en el ejemplo publicado y en todos los demás ejemplos del informe original. Estos puntajes representan una mezcla de escuelas; incluso si las distribuciones dentro de cualquier escuela fueran normales (no lo son), es probable que la mezcla no sea normal.
Un enfoque simple acepta que hay una distribución de puntaje verdadera: la que se informaría, excepto por esta forma particular de trampa. Por lo tanto, es una configuración no paramétrica. Eso parece demasiado amplio, pero hay algunas características de la distribución de puntajes que pueden anticiparse u observarse en los datos reales:
i−1ii+11≤i≤99
Habrá variaciones en estos recuentos en torno a una versión suave idealizada de la distribución de puntajes. Estas variaciones serán típicamente de un tamaño igual a la raíz cuadrada de la cuenta.
ti≥tic(i)δ(t−i)c(i)t(i)
δ(i)i=1,2,…
tδ(1)=0δ0δ(1)>0
Construyendo una prueba
c′(i)=c(i+1)−c(i)ittt+1
c′′(i)=c′(i+1)−c′(i)=c(i+2)−2c(i+1)+c(i),
porque en esto combinará una disminución negativa grande con el negativo de un gran aumento positivo , lo que aumenta el efecto de trampa .i=t−1c(t+1)−c(t)c(t)−c(t−1)
Voy a hipotetizar, y esto se puede verificar, que la correlación en serie de los recuentos cerca del umbral es bastante pequeña. (La correlación serial en otros lugares es irrelevante). Esto implica que la varianza de es aproximadamentec′′(t−1)=c(t+1)−2c(t)+c(t−1)
var(c′′(t−1))≈var(c(t+1))+(−2)2var(c(t))+var(c(t−1)).
Anteriormente sugerí que para todo (algo que también se puede verificar). De dóndevar(c(i))≈c(i)i
z=c′′(t−1)/c(t+1)+4c(t)+c(t−1)−−−−−−−−−−−−−−−−−−−−√
debería tener aproximadamente la varianza de la unidad. Para poblaciones con puntajes grandes (el publicado parece ser de alrededor de 20,000) también podemos esperar una distribución aproximadamente Normal de . Como esperamos que un valor altamente negativo indique un patrón de trampa, obtenemos fácilmente una prueba de tamaño : escribiendo para el cdf de la distribución Normal estándar, rechace la hipótesis de no hacer trampa en el umbral cuando .c′′(t−1)αΦtΦ(z)<α
Ejemplo
Por ejemplo, considere este conjunto de puntajes de prueba verdaderos , extraídos de una mezcla de tres distribuciones normales:
A esto apliqué un horario de trampa en el umbral definido por . Esto enfoca casi todas las trampas en uno o dos puntajes inmediatamente por debajo de 65:t=65δ(i)=exp(−2i)
Para tener una idea de lo que hace la prueba, calculé para cada puntaje, no solo , y lo tracé contra el puntaje:zt
(En realidad, para evitar problemas con recuentos pequeños, primero agregué 1 a cada recuento de 0 a 100 para calcular el denominador de ).z
La fluctuación cerca de 65 es evidente, como lo es la tendencia de todas las demás fluctuaciones a ser aproximadamente 1 en tamaño, de acuerdo con los supuestos de esta prueba. El estadístico de prueba es con un valor p correspondiente de , un resultado extremadamente significativo. La comparación visual con la figura en la pregunta en sí sugiere que esta prueba devolvería un valor p al menos tan pequeño.z=−4.19Φ(z)=0.0000136
(Tenga en cuenta, sin embargo, que la prueba en sí misma no utiliza esta gráfica, que se muestra para ilustrar las ideas. La prueba solo analiza el valor trazado en el umbral, en ningún otro lugar. Sin embargo, sería una buena práctica hacer tal gráfica para confirmar que el estadístico de prueba realmente destaca los umbrales esperados como lugares de trampa y que todos los demás puntajes no están sujetos a tales cambios. Aquí, vemos que en todos los demás puntajes hay fluctuación entre aproximadamente -2 y 2, pero rara vez Tenga en cuenta también que no es necesario calcular la desviación estándar de los valores en este gráfico para calcular , evitando así los problemas asociados con los efectos de trampa que inflan las fluctuaciones en múltiples ubicaciones.z
Al aplicar esta prueba a múltiples umbrales, sería aconsejable un ajuste de Bonferroni del tamaño de la prueba. Un ajuste adicional cuando se aplica a múltiples pruebas al mismo tiempo también sería una buena idea.
Evaluación
Este procedimiento no se puede proponer seriamente para su uso hasta que se pruebe con datos reales. Una buena manera sería tomar puntajes para un examen y usar un puntaje no crítico para el examen como umbral. Presumiblemente, dicho umbral no ha sido sujeto a esta forma de trampa. Simule trampas según este modelo conceptual y estudie la distribución simulada de . Esto indicará (a) si los valores p son precisos y (b) el poder de la prueba para indicar la forma simulada de trampa. De hecho, uno podría emplear dicho estudio de simulación en los mismos datos que está evaluando, proporcionando una forma extremadamente efectiva de probar si la prueba es apropiada y cuál es su poder real. Porque la estadística de pruebazz es tan simple que las simulaciones serán practicables y rápidas de ejecutar.