Un modelo psicológicamente significativo puede guiarnos.
Derivación de una prueba útil.
Cualquier variación en las observaciones puede atribuirse a variaciones entre los sujetos. Podríamos imaginar que cada sujeto, en algún nivel, obtiene un valor numérico para el resultado del método 1 y un valor numérico para el resultado del método 2. Luego comparan estos resultados. Si los dos son suficientemente diferentes, el sujeto hace una elección definitiva, pero de lo contrario el sujeto declara un empate. (Esto se relaciona con la existencia de un umbral de discriminación ).
La variación entre los sujetos causa variación en las observaciones experimentales. Habrá una cierta probabilidad de favorecer el método 1, una cierta probabilidad de favorecer el método 2 y una cierta probabilidad de empate.π1π2π0
Es justo asumir que el sujeto responde independientemente uno del otro. En consecuencia, la probabilidad de observar sujetos que favorecen el método 1, sujetos que favorecen el método 2 y sujetos que dan lazos, es multinomial . Además de una constante de normalización (irrelevante), el logaritmo de la probabilidad es igualn1n2n0
n1log(π1)+n2log(π2)+n0log(π0).
Dado que , esto se maximiza cuando donde es el número de sujetos.π0+π1+π2=0πi=ni/nn=n0+n1+n2
Para probar la hipótesis nula de que los dos métodos se consideran igualmente buenos, maximizamos la probabilidad sujeta a la restricción implícita en esta hipótesis. Teniendo en cuenta el modelo psicológico y su invocación de un umbral hipotético, tendremos que vivir con la posibilidad de que (la posibilidad de vínculos) no sea cero. La única forma de detectar una tendencia a favorecer un modelo sobre el otro radica en cómo y se ven afectados: si se favorece el modelo 1, entonces debería aumentar y disminuir, y viceversa . Suponiendo que la variación es simétrica , la situación de no preferencia ocurre cuandoπ0π1π2π1π2π1=π2 . (El tamaño de nos dirá algo sobre el umbral, sobre la capacidad discriminatoria, pero por lo demás no proporciona información sobre las preferencias).π0
Cuando no hay un modelo favorito, la probabilidad máxima ocurre cuando , una vez más, . Al conectar las dos soluciones anteriores, calculamos el cambio en las probabilidades máximas, :π1=π2=n1+n22/nπ0=n0/nG
G=(n1logn1n+n2logn2n+n0logn0n)−(n1log(n1+n2)/2n+n2log(n1+n2)/2n+n0logn0n)=n1log2n1n1+n2+n2log2n2n1+n2.
El tamaño de este valor, que no puede ser negativo, nos dice cuán creíble es la hipótesis nula: cuando es pequeño, los datos se "explican" casi tan bien con la hipótesis nula (restrictiva) como en general; cuando el valor es grande, la hipótesis nula es menos creíble.G
La teoría de estimación de probabilidad máxima (asintótica) dice que un umbral razonable para este cambio es la mitad del cuantil de una distribución de chi-cuadrado con un grado de libertad (debido a la restricción única impuesta por La hipótesis nula). Como de costumbre, es el tamaño de esta prueba, a menudo tomada como 5% ( ) o 1% ( ). Los cuantiles correspondientes son y .1−απ1=π2α0.050.013.8414596.634897
Ejemplo
Supongamos que de sujetos, favorecen el método 1 y favorecen el método 2. Eso implica que hay lazos. La probabilidad se maximiza, entonces, para y , donde tiene un valor de . Bajo la hipótesis nula, la probabilidad se maximiza en su lugar para , donde su valor es solo . La diferencia de es menos de la mitad del umbral 5% de . Por lo tanto hacemosn=20n1=3n2=9n0=20−3−9=8π1=3/20=0.15π2=9/20=0.45−20.208…π1=π2=6/20=0.30−21.778G=−20.208−(−21.778)=1.57α=3.84No rechazar la hipótesis nula.
Sobre lazos y pruebas alternativas
Mirando hacia atrás en la fórmula para , observe que el número de lazos ( ) no aparece . En el ejemplo, si en cambio hubiéramos observado sujetos y entre ellos preferían el método 1, favorecían el método 2 y los restantes estaban empatados, el resultado sería el mismo.Gn0n=10039100−3−9=88
Dividir los lazos y asignar la mitad al método 1 y la mitad al método 2 es intuitivamente razonable, pero resulta en una prueba menos poderosa . Por ejemplo, deje y . Considere dos casos:n1=5n2=15
n=20 sujetos, entonces hubo lazos. La prueba de máxima verosimilitud rechazaría el valor nulo para cualquier valor de mayor que . Otra prueba utilizada con frecuencia en esta situación (porque no hay vínculos) es una prueba binomial; rechazaría el valor nulo para cualquier valor de mayor que . Por lo tanto, las dos pruebas generalmente darían los mismos resultados, porque estos valores críticos están bastante cerca.n0=0α0.02217α0.02660
n=100 sujetos, entonces hubo lazos. La prueba de máxima verosimilitud aún rechazaría el valor nulo para cualquier valor de mayor que . La prueba binomial rechazaría el nulo solo para cualquier valor de mayor que . Las dos pruebas dan resultados completamente diferentes. En particular, los lazos han debilitado la capacidad de la prueba binomial para distinguir una diferencia que la teoría de máxima probabilidad sugiere que es real.n0=80α0.02217α0.319780
Finalmente, consideremos el enfoque de tabla de contingencia3×1 sugerido en otra respuesta. Considere sujetos con favoreciendo el método 1, favoreciendo el método 2 y con vínculos. La "tabla" es solo el vector . Su estadística chi-cuadrado es con dos grados de libertad. El valor p es , lo que haría que la mayoría de las personas concluyera que no hay diferencia entre los métodos. El resultado de máxima verosimilitud en cambio da un valor p de , que rechazaría esta conclusión en el nivel 5%.n=20n1=3n2=10n0=7(n0,n1,n2)=(7,3,10)3.70.15720.04614α=
Con sujetos, suponga que solo favoreció el método 1, solo favoreció el método 2 y hubo lazos. Intuitivamente, hay muy poca evidencia de que uno de estos métodos tiende a ser favorecido. Pero esta vez, la estadística de chi-cuadrado de claramente, de manera incontrovertible, (pero completamente equivocada) muestra que hay una diferencia (el valor p es menor que ).n=1001297182.4210−15
En ambas situaciones, el enfoque de chi cuadrado obtiene la respuesta completamente incorrecta: en el primer caso carece de poder para detectar una diferencia sustancial, mientras que en el segundo caso (con muchos vínculos) es extremadamente confiado sobre una diferencia intrascendente. El problema no es que la prueba de ji cuadrado sea mala; El problema es que prueba una hipótesis diferente: a saber, si . Según nuestro modelo conceptual, esta hipótesis es una tontería psicológica, porque confunde la información sobre las preferencias (a saber, y ) con la información sobre los umbrales de discriminación (a saber, ). π1=π2=π0π1π2π0Esta es una buena demostración de la necesidad de utilizar un contexto de investigación y conocimiento de la materia (aunque simplificado) al seleccionar una prueba estadística.