Aunque me siento un poco tímido al contradecir tanto un "texto respetado" como otro usuario de CV, me parece que la fórmula de Spearman-Brown no se ve afectada por tener elementos de diferente dificultad. Sin duda, la fórmula de Spearman-Brown generalmente se deriva bajo el supuesto de que tenemos elementos paralelos , lo que implica (entre otras cosas) que los elementos tienen la misma dificultad. Pero resulta que esta suposición no es necesaria; se puede relajar para permitir dificultades desiguales, y la fórmula Spearman-Brown aún se mantendrá. Demuestro esto a continuación.
Recuerde que en la teoría de prueba clásica, se supone que una medida es la suma de un componente de "puntaje verdadero" y un componente de error , es decir,
con y correlación. La suposición de los ítems paralelos es que todos los ítems tienen los mismos puntajes verdaderos, que difieren solo en sus componentes de error, aunque se supone que tienen la misma varianza. En símbolos, para cualquier par de elementos y ,
XTE
X=T+E,
TEXX′T=T′var(E)=var(E′).
Veamos qué sucede cuando relajamos la primera suposición, de modo que los ítems pueden diferir en sus dificultades, y luego derivar la confiabilidad de una puntuación total de la prueba bajo estas nuevas suposiciones. Específicamente, suponga que los puntajes verdaderos pueden diferir por una constante aditiva, pero los errores aún tienen la misma varianza. En símbolos,
Cualquier diferencia en dificultad es capturada por la constante aditiva. Por ejemplo, si , las puntuaciones en tienden a ser más altas que las puntuaciones en , de modo que es "más fácil" que . Podríamos llamar a estos
esencialmente paralelosT=T′+c′var(E)=var(E′).
c′>0XX′XX′ítems, en analogía a la suposición de "equivalencia tau esencial" que relaja el modelo equivalente tau de manera similar.
Ahora para derivar la fiabilidad de una forma de prueba de dichos elementos. Considere una prueba que consta de elementos esencialmente paralelos, cuya suma da el puntaje de la prueba. La fiabilidad es, por definición, la relación entre la varianza de puntaje real y la varianza de puntaje observada. Para la fiabilidad de los elementos individuales, de la definición de paralelismo esencial se deduce que tienen la misma fiabilidad, que denotamos con , con es la varianza de puntuación verdadera y la varianza de error. Para la confiabilidad del puntaje total de la prueba, primero examinamos la varianza del puntaje total de la prueba, que es
kρ=σ2T/(σ2T+σ2E)σ2Tσ2E Tσ 2 T σ 2 E k 2 σ 2 T
var(∑i=1kTi+Ei)=var(∑i=1kT+ci+Ei)=k2σ2T+kσ2E,
donde (sin subíndice) es cualquier puntaje verdadero arbitrario al que se pueden cambiar todos los puntajes verdaderos de los elementos a través de sus términos constantes, es la verdadera varianza de puntaje, y es la varianza de error. ¡Tenga en cuenta que los términos constantes desaparecen! Esta es la clave. Entonces, la confiabilidad del puntaje total de la prueba es
Tσ2Tσ2Ek2σ2Tk2σ2T+kσ2E=kσ2Tkσ2T+σ2X−σ2T=kρ1+(k−1)ρ,
que es solo la fórmula clásica de Spearman-Brown, sin modificaciones. Lo que esto muestra es que, incluso al variar la "dificultad" de los ítems, definidos como sus puntajes promedio, la fórmula de Spearman-Brown aún se mantiene.
@JeremyMiles plantea algunos puntos interesantes e importantes sobre lo que puede suceder cuando aumentamos la duración de la prueba "en el mundo real", pero al menos de acuerdo con los supuestos idealizados de la teoría de prueba clásica, las variaciones en la dificultad del ítem no importan para la confiabilidad de un forma de prueba (en marcado contraste con los supuestos de la teoría moderna de respuesta al ítem). Esta misma línea básica de razonamiento también es la razón por la que generalmente hablamos de equivalencia tau esencial en lugar de equivalencia tau, porque la mayoría de los resultados importantes son válidos para el caso más indulgente donde las dificultades del ítem (es decir, los medios) pueden diferir.