Usar la regla de puntuación adecuada para determinar la pertenencia a la clase a partir de la regresión logística


8

Estoy usando la regresión logística para predecir la probabilidad de que ocurra un evento. En última instancia, estas probabilidades se colocan en un entorno de producción, donde nos enfocamos lo más posible en alcanzar nuestras predicciones de "Sí". Por lo tanto, es útil para nosotros tener una idea de qué "aciertos" o "no aciertos" definitivos podrían ser a priori (antes de ejecutarse en producción), además de otras medidas que utilizamos para informar esta determinación.

Mi pregunta es, ¿cuál sería la forma correcta de predecir una clase definitiva (1,0) basada en la probabilidad pronosticada? Específicamente, uso el glmnetpaquete de R para mi modelado. Este paquete elige arbitrariamente la probabilidad de .5 como umbral para un sí o un no. Creo que necesito tomar los resultados de una regla de puntuación adecuada, basada en las probabilidades predichas, para extrapolar a una clase definitiva. A continuación se muestra un ejemplo de mi proceso de modelado:

mods <- c('glmnet', 'scoring')
lapply(mods, require, character.only = T)

# run cross-validated LASSO regression
fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial', 
type.measure = 'auc')

# generate predicted probabilities across new data
df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min')

# calculate Brier score for each record
df2$propscore <- brierscore(df2[,1] ~ df2$prob, data = df2)

Entonces, ahora tengo una serie de puntajes de Brier para cada predicción, pero ¿cómo puedo usar el puntaje de Brier para ponderar adecuadamente cada probabilidad de ser un sí o un no?

Entiendo que también hay otros métodos para hacer esta determinación, como Random Forest.

Respuestas:


6

Lo que debe hacer es "poner el modelo en producción", es decir, como usted dice, para predecir qué casos serán "sí", lo que necesita es una función de pérdida . Tiene dos posibles errores: decir "sí" cuando no, decir "no" cuando sí. ¿Estos errores tienen consecuencias económicas, costos asociados? ¿Estos costos también dependen de otras cosas, como un valor covariable específico? Luego, construye esta información en una función de costo y puede determinar los límites minimizando el costo esperado. Esa es la solución de principios.


1
Sí, esto es realmente lo que necesitamos, por ejemplo, el costo de revisión por unidad. Haré mi tarea para crear una función de pérdida adecuada, pero ¿incluyo una medida como la regla de puntuación en esto?
NiuBiBang

¡Una función de pérdida adecuada y una función de pérdida son dos conceptos distintos! La función de pérdida solo debe medir las consecuencias económicas, y una regla de puntuación adecuada no tiene nada que ver con eso.
kjetil b halvorsen
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.