¿Hay alguna manera de obtener un puntaje de confianza (podemos llamarlo también valor de confianza o probabilidad) para cada valor pronosticado cuando se usan algoritmos como Bosques aleatorios o Incremento de gradiente extremo (XGBoost)? Digamos que este puntaje de confianza iría de 0 a 1 y mostraría cuán seguro estoy de una predicción en particular .
Por lo que he encontrado en Internet sobre la confianza, generalmente se mide por intervalos. Aquí hay un ejemplo de intervalos de confianza calculados con confpred
función de la lava
biblioteca:
library(lava)
set.seed(123)
n <- 200
x <- seq(0,6,length.out=n)
delta <- 3
ss <- exp(-1+1.5*cos((x-delta)))
ee <- rnorm(n,sd=ss)
y <- (x-delta)+3*cos(x+4.5-delta)+ee
d <- data.frame(y=y,x=x)
newd <- data.frame(x=seq(0,6,length.out=50))
cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T,
col=Col("blue"), border=F))
}
La salida del código solo da intervalos de confianza:
También hay una biblioteca conformal
, pero también se usa para intervalos de confianza en regresión: "conforme permite el cálculo de errores de predicción en el marco de predicción conforme: (i) valores p. Para clasificación, y (ii) intervalos de confianza para regresión. "
Entonces, ¿hay alguna manera?
¿Para obtener valores de confianza para cada predicción en cualquier problema de regresión?
Si no hay una manera, ¿sería significativo usarlo para cada observación como puntaje de confianza?
la distancia entre los límites superior e inferior del intervalo de confianza (como en el ejemplo de salida anterior). Entonces, en este caso, cuanto más amplio es el intervalo de confianza, más incertidumbre existe (pero esto no tiene en cuenta en qué parte del intervalo está el valor real)
randomForestCI
paquete de Stephan Wager y el documento asociado con Susan Athey. Tenga en cuenta que solo proporciona CI ', pero puede hacer un intervalo de predicción a partir de él calculando la varianza residual.