Tengo un modelo de regresión logística entrenado que estoy aplicando a un conjunto de datos de prueba. La variable dependiente es binaria (booleana). Para cada muestra en el conjunto de datos de prueba, aplico el modelo de regresión logística para generar un% de probabilidad de que la variable dependiente sea verdadera. Luego registro si el valor acutal era verdadero o falso. Estoy tratando de calcular una figura o ajustada como en un modelo de regresión lineal.
Esto me da un registro para cada muestra en el conjunto de pruebas como:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
Me pregunto cómo probar la precisión del modelo. Mi primer intento fue usar una tabla de contingencia y decir "si prob_value_is_true
> 0,80, supongo que el valor real es verdadero" y luego medir la proporción de clasificaciones correctas a incorrectas. Pero no me gusta eso, porque parece que solo estoy evaluando el 0.80 como límite, no la precisión del modelo en su conjunto y en todos los prob_value_is_true
valores.
Luego traté de mirar cada valor discreto prob_value_is_true, como ejemplo, mirando todas las muestras donde prob_value_is_true
= 0.34 y midiendo el% de esas muestras donde el valor acutal es verdadero (en este caso, la precisión perfecta sería si el% de muestras eso era cierto = 34%). Podría crear un puntaje de precisión del modelo sumando la diferencia en cada valor discreto de prob_value_is_true
. Pero los tamaños de muestra son una gran preocupación aquí, especialmente para los extremos (cerca del 0% o 100%), de modo que los promedios de los valores agudos no son precisos, por lo que usarlos para medir la precisión del modelo no parece correcto.
Incluso intenté crear rangos enormes para asegurar tamaños de muestra suficientes (0-.25, .25-.50, .50-.75, .75-1.0), pero la forma de medir la "bondad" de ese% del valor real me desconcierta . Digamos que todas las muestras prob_value_is_true
entre 0.25 y 0.50 tienen un promedio acutal_value
de 0.45. ¿Eso es bueno ya que está en el rango? ¿Malo ya que no está cerca del 37.5% (el centro del rango)?
Así que estoy atascado en lo que parece ser una pregunta fácil, y espero que alguien pueda señalarme un recurso o método para calcular una precisión estática para un modelo de regresión logística.