Suponga que su modelo realmente predice que A tiene una probabilidad del 40% y B tiene una probabilidad del 60%. En algunas circunstancias, es posible que desee convertir esto en una clasificación de que B sucederá (ya que es más probable que A). Una vez convertida en una clasificación, cada predicción es correcta o incorrecta, y hay varias formas interesantes de contar esas respuestas correctas e incorrectas. Una es la precisión directa (el porcentaje de respuestas correctas). Otros incluyen precisión y la recuperación o F-medida . Como otros han mencionado, es posible que desee mirar la curva ROC . Además, su contexto puede proporcionar una matriz de costos específica que recompensa los verdaderos positivos de manera diferente de los verdaderos negativos y / o penaliza los falsos positivos de manera diferente de los falsos negativos.
Sin embargo, no creo que eso sea lo que realmente estás buscando. Si dijiste que B tiene un 60% de posibilidades de que suceda y yo dije que tenía un 99% de posibilidades de que suceda, tenemos predicciones muy diferentes a pesar de que ambos serían asignados a B en un sistema de clasificación simple. Si sucede A, en cambio, estás un poco equivocado mientras yo estoy muy equivocado, así que espero recibir una penalización más severa que la tuya. Cuando su modelo realmente produce probabilidades, una regla de puntuación es una medida del rendimiento de sus predicciones de probabilidad. Específicamente, probablemente desee una regla de puntuación adecuada , lo que significa que la puntuación está optimizada para obtener resultados bien calibrados.
Un ejemplo común de una regla de puntuación es la puntuación de Brier : donde es la probabilidad pronosticada de el evento ocurre y es 1 si el evento sucedió y 0 si no sucedió.ftot
B S= 1norte∑t = 1norte( ft- ot)2
Ftot
Por supuesto, el tipo de regla de puntuación que elija puede depender de qué tipo de evento está tratando de predecir. Sin embargo, esto debería darle algunas ideas para investigar más.
Agregaré una advertencia de que, independientemente de lo que haga, al evaluar su modelo de esta manera le sugiero que mire su métrica en los datos fuera de la muestra (es decir, los datos no utilizados para construir su modelo). Esto se puede hacer mediante validación cruzada . Quizás de manera más simple puede construir su modelo en un conjunto de datos y luego evaluarlo en otro (teniendo cuidado de no dejar que las inferencias de la muestra se derramen en el modelado dentro de la muestra).