Una regla de puntuación es un medio para evaluar la suposición de un agente de las probabilidades asociadas con un evento categórico, dado un resultado (categórico) del evento. Dependiendo de la suposición y el resultado observado, la regla de puntuación le da al agente una puntuación (un número real). Se supone que una regla de puntaje asigna puntajes de tal manera que, en promedio, el agente con el menor puntaje haga las conjeturas más precisas. (Las convenciones difieren en cuanto a si las reglas de puntuación se enmarcan en términos de minimización o maximización. Aquí estoy tomando la vista de minimización).
Una propiedad importante de las reglas de puntuación es si son una regla de puntuación adecuada; es decir, si otorgan la menor puntuación media cuando un agente adivina las verdaderas probabilidades (o, en un marco bayesiano subjetivo, otorgan la menor puntuación media posterior, dados los propios antecedentes del agente, cuando un agente usa sus propios grados de creencia como sus conjeturas). En el caso de un evento binario, el error al cuadrado de 0 o 1 (la puntuación de Brier) es una regla de puntuación adecuada, mientras que el error absoluto no lo es. ¿Por qué? Bueno, el criterio de adecuación se basa en la media, y la media es la medida de la tendencia central que minimiza la suma de las diferencias al cuadrado, pero no necesita minimizar el error absoluto.
Esta línea de pensamiento sugiere que si reemplazamos la media en la definición de una regla de puntuación adecuada con alguna otra función estadística, como la mediana, obtendremos un tipo análogo de familia rica de reglas de puntuación adecuadas. No es irrazonable imaginar una situación en la que un agente quiera minimizar su puntaje promedio en lugar de su puntaje promedio. En realidad, parece que no hay reglas de puntuación no triviales adecuadas para la mediana. Considerando nuevamente el caso de un evento binario, si la probabilidad real es menor a 1/2, entonces la puntuación media de un agente será igual a la puntuación que se le dé al agente cuando el evento no ocurra, independientemente del evento probabilidad exacta Las travesuras análogas parecen ocurrir si reemplazamos la media por, digamos, la media geométrica.
Entonces, ¿hay una sensación de que, para que la teoría de las reglas de puntaje adecuadas funcione según lo previsto, la función estadística debe ser la media?
Me doy cuenta de que esta es una pregunta vaga, y es probable que la mejor respuesta sea una explicación de por qué la pregunta realmente no tiene sentido, así que aquí está el contexto en el que me encuentro preguntándola, para ayudarlo a no confundirme. Soy psicólogo de la toma de decisiones, y a menudo me encuentro con ganas de cuantificar el rendimiento (ya sea el rendimiento predictivo, bajo validación cruzada o el ajuste del modelo post-hoc) de un modelo que escupe las probabilidades de lo que las personas elegirán en Un escenario de decisión binaria. La discusión anterior sugiere que debería usar una regla de puntuación adecuada. Molesto, las reglas de puntuación adecuadas no están en la misma escala que las probabilidades. Me parece que quiero, por ejemplo, tomar la raíz cuadrada del error cuadrático medio en lugar de solo mirar el error cuadrático medio (es decir, la puntuación media de Brier), pero en el caso de un ensayo, el RMSE es equivalente al error absoluto, lo cual no es correcto, entonces ¿no pensaría que los modelos que son menos precisos son mejores? Evidentemente, no puedo cambiar mi método de evaluar las reglas de puntuación de uno en términos de medios a uno en términos de, por ejemplo, medianas. ¿Debo simplemente familiarizarme con la escala de una de las reglas de puntuación adecuadas habituales, o usar una estadística de detección de señal como área bajo la curva ROC o d '?
Una complicación adicional es que, para un estudio, estoy buscando ajustes paramétricos de modelos de arranque, de acuerdo con Wagenmakers, Ratcliff, Gomez e Iverson (2004), lo que significa que estoy viendo gráficos de densidad de puntajes en lugar de puntajes individuales. Entonces, está aún menos claro si debería preocuparme por lo apropiado o por algún criterio análogo.
Editar: vea este hilo de comentarios en Reddit para más discusión.
Wagenmakers, E.-J., Ratcliff, R., Gómez, P. e Iverson, GJ (2004). Evaluación de la imitación del modelo utilizando el bootstrap paramétrico. Revista de psicología matemática, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004