¿Cómo se ve afectada la fórmula de la profecía de Spearman-Brown por preguntas de diferentes dificultades?


10

¿Cómo se ven afectados los resultados de la fórmula de profecía de Spearman-Brown al tener preguntas de prueba de diferentes dificultades o evaluadores que son calificadores fáciles o difíciles? Un texto respetado dice que la SB está afectada, pero no da detalles. (Consulte la cita a continuación).

Guion, R. M (2011). Evaluación, medición y predicción para decisiones de personal, 2a edición. 477

"La confiabilidad se puede aumentar al agrupar a los evaluadores, utilizando la ecuación de Spearman-Brown ... Si la confiabilidad de una calificación única es .50, entonces la confiabilidad de dos, cuatro o seis clasificaciones paralelas será aproximadamente .67, .80 y .86, respectivamente "(Houston, Raymond y Svec, 1991, p. 409). Me gusta esta cita porque la palabra reconoce aproximadamente que las estimaciones estadísticas son declaraciones "en promedio" de lo que podría esperarse si todo sale como se supone. Más allá de eso, la palabra operativa es paralela. Promediar calificaciones (o usar Spearman-Brown) si un evaluador es, por ejemplo, sistemáticamente indulgente, simplemente no se ajusta a la suposición. Si los ensayos son calificados por dos evaluadores, uno más indulgente que el otro, el problema es como el de usar dos pruebas de opción múltiple de dificultad desigual (formas no paralelas). Los puntajes basados ​​en diferentes formas de prueba (sin igual) no son comparables. Lo mismo ocurre con la mezcla de calificadores indulgentes y difíciles; La confiabilidad de las calificaciones agrupadas se estima incorrectamente por la ecuación de Spearman-Brown de la teoría de prueba clásica. Las cosas son peores si cada juez define un constructo un poco diferente ".


1
Creo que el problema con la búsqueda de una fuente creíble es que la respuesta proviene de la teoría de prueba, y es algo obvio si comprende la teoría subyacente, y en particular las limitaciones de nuestra capacidad para evaluar la confiabilidad. Es por eso que Guion no se molesta en explicarlo. Pero buena suerte en su búsqueda de todos modos, tal vez alguien, en algún lugar, conozca una mejor explicación.
Jeremy Miles

Respuestas:


10

Aunque me siento un poco tímido al contradecir tanto un "texto respetado" como otro usuario de CV, me parece que la fórmula de Spearman-Brown no se ve afectada por tener elementos de diferente dificultad. Sin duda, la fórmula de Spearman-Brown generalmente se deriva bajo el supuesto de que tenemos elementos paralelos , lo que implica (entre otras cosas) que los elementos tienen la misma dificultad. Pero resulta que esta suposición no es necesaria; se puede relajar para permitir dificultades desiguales, y la fórmula Spearman-Brown aún se mantendrá. Demuestro esto a continuación.


Recuerde que en la teoría de prueba clásica, se supone que una medida es la suma de un componente de "puntaje verdadero" y un componente de error , es decir, con y correlación. La suposición de los ítems paralelos es que todos los ítems tienen los mismos puntajes verdaderos, que difieren solo en sus componentes de error, aunque se supone que tienen la misma varianza. En símbolos, para cualquier par de elementos y , XTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
Veamos qué sucede cuando relajamos la primera suposición, de modo que los ítems pueden diferir en sus dificultades, y luego derivar la confiabilidad de una puntuación total de la prueba bajo estas nuevas suposiciones. Específicamente, suponga que los puntajes verdaderos pueden diferir por una constante aditiva, pero los errores aún tienen la misma varianza. En símbolos, Cualquier diferencia en dificultad es capturada por la constante aditiva. Por ejemplo, si , las puntuaciones en tienden a ser más altas que las puntuaciones en , de modo que es "más fácil" que . Podríamos llamar a estos esencialmente paralelos
T=T+cvar(E)=var(E).
c>0XXXXítems, en analogía a la suposición de "equivalencia tau esencial" que relaja el modelo equivalente tau de manera similar.

Ahora para derivar la fiabilidad de una forma de prueba de dichos elementos. Considere una prueba que consta de elementos esencialmente paralelos, cuya suma da el puntaje de la prueba. La fiabilidad es, por definición, la relación entre la varianza de puntaje real y la varianza de puntaje observada. Para la fiabilidad de los elementos individuales, de la definición de paralelismo esencial se deduce que tienen la misma fiabilidad, que denotamos con , con es la varianza de puntuación verdadera y la varianza de error. Para la confiabilidad del puntaje total de la prueba, primero examinamos la varianza del puntaje total de la prueba, que es kρ=σT2/(σT2+σE2)σT2σE2 Tσ 2 T σ 2 E k 2 σ 2 T

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
donde (sin subíndice) es cualquier puntaje verdadero arbitrario al que se pueden cambiar todos los puntajes verdaderos de los elementos a través de sus términos constantes, es la verdadera varianza de puntaje, y es la varianza de error. ¡Tenga en cuenta que los términos constantes desaparecen! Esta es la clave. Entonces, la confiabilidad del puntaje total de la prueba es TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,
que es solo la fórmula clásica de Spearman-Brown, sin modificaciones. Lo que esto muestra es que, incluso al variar la "dificultad" de los ítems, definidos como sus puntajes promedio, la fórmula de Spearman-Brown aún se mantiene.

@JeremyMiles plantea algunos puntos interesantes e importantes sobre lo que puede suceder cuando aumentamos la duración de la prueba "en el mundo real", pero al menos de acuerdo con los supuestos idealizados de la teoría de prueba clásica, las variaciones en la dificultad del ítem no importan para la confiabilidad de un forma de prueba (en marcado contraste con los supuestos de la teoría moderna de respuesta al ítem). Esta misma línea básica de razonamiento también es la razón por la que generalmente hablamos de equivalencia tau esencial en lugar de equivalencia tau, porque la mayoría de los resultados importantes son válidos para el caso más indulgente donde las dificultades del ítem (es decir, los medios) pueden diferir.


2
Si, buen punto. Lo que escribí no necesariamente se cumple.
Jeremy Miles

5

No es fácil decirlo.

Primero, Spearman-Brown asume que los ítems de prueba (o evaluadores) son muestreados aleatoriamente de una población de ítems de prueba (o evaluadores). Esto nunca es realmente cierto, particularmente en las pruebas, porque inventar más elementos es difícil, y es probable que use los mejores elementos para comenzar, entonces encontrará que la prueba debe ser más larga, por lo que 'raspar el barril' para artículos.

En segundo lugar, los ítems varían en su confiabilidad, y la confiabilidad no está necesariamente relacionada con la dificultad (si ayuda, piense en la pendiente e intercepción de la curva característica del ítem en la teoría de respuesta al ítem). Sin embargo, el cálculo de la confiabilidad (digamos, el alfa de Cronbach, que es una forma de correlación intraclase) supone que las confiabilidades son todas iguales (asumen un modelo de medición esencial equivalente a tau, es decir, que las confiabilidades no estandarizadas de cada ítem son todas igual). Eso es casi seguro que está mal. Agregar elementos podría subir, bajar. Depende de los artículos.

Aquí hay otra forma de pensarlo. Selecciono al azar una muestra de una población y calculo la media y el error estándar de la media. Esa media será un estimador imparcial de la media de la población. Luego, aumento el tamaño de mi muestra: el valor esperado de la media es el mismo, pero es poco probable que sea el mismo, casi con toda seguridad subirá o bajará. Tal como espero que el error estándar se haga más pequeño, pero la cantidad que se reduce no será consistente (y no es imposible que el error estándar sea mayor).


¿La fórmula SB proporciona el valor mínimo, máximo o intermedio para la confiabilidad esperada? Además, dado que las confiabilidades se calculan en términos de correlaciones, ¿por qué los elementos fáciles / difíciles o los evaluadores tienen algún efecto?
Joel W.

La fórmula SB brinda la confiabilidad esperada. Podría ser más alto o más bajo que eso. Un problema es que hay más de una forma de calcular la confiabilidad, y las suposiciones que hacen rara vez se cumplen. Todo está enraizado en la teoría de prueba clásica: la teoría de respuesta al ítem es una forma más moderna de pensar sobre la medición, y tiene más sentido muchas veces, por ejemplo, la confiabilidad de una prueba no es la misma para cada uno. persona en IRT.
Jeremy Miles

Si una pregunta es muy difícil o muy fácil, podría afectar la correlación. Por ejemplo, "7 * 11" podría ser una pregunta confiable para 3er grado, pero para estudiantes de pregrado en matemáticas, no lo es.
Jeremy Miles

1
<la prueba debe ser más larga, por lo que 'raspará el barril' para los artículos. Claramente, usted ha tenido experiencia en el mundo real haciendo pruebas.
Joel W.
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.