Para calibrar un nivel de confianza a una probabilidad en el aprendizaje supervisado (por ejemplo, para mapear la confianza de un SVM o un árbol de decisión usando datos sobremuestreados), un método es usar la Escala de Platt (por ejemplo, Obteniendo Probabilidades Calibradas de Impulso ).
Básicamente se usa la regresión logística para mapear a [ 0 ; 1 ] . La variable dependiente es la etiqueta verdadera y el predictor es la confianza del modelo no calibrado. Lo que no entiendo es el uso de una variable de destino que no sea 1 o 0. El método requiere la creación de una nueva "etiqueta":
Para evitar el sobreajuste del conjunto de trenes sigmoides, se utiliza un modelo sin muestra. Si hay ejemplos positivos y N - ejemplos negativos en el conjunto de trenes, para cada ejemplo de entrenamiento Platt Calibration usa los valores objetivo y + e y - (en lugar de 1 y 0, respectivamente), donde y + = N + + 1
Lo que no entiendo es cómo es útil este nuevo objetivo. ¿No es la regresión logística simplemente tratar la variable dependiente como una etiqueta binaria (independientemente de qué etiqueta se proporcione)?
ACTUALIZAR:
PROC GENMOD
data(ToothGrowth)
attach(ToothGrowth)
# 1/0 coding
dep <- ifelse(supp == "VC", 1, 0)
OneZeroModel <- glm(dep~len, family=binomial)
OneZeroModel
predict(OneZeroModel)
# Platt coding
dep2 <- ifelse(supp == "VC", 31/32, 1/32)
plattCodeModel <- glm(dep2~len, family=binomial)
plattCodeModel
predict(plattCodeModel)
compare <- cbind(predict(OneZeroModel), predict(plattCodeModel))
plot(predict(OneZeroModel), predict(plattCodeModel))