Estoy usando el paquete randomForest en R (R versión 2.13.1, randomForest versión 4.6-2) para la regresión y noté un sesgo significativo en mis resultados: el error de predicción depende del valor de la variable de respuesta. Los valores altos se predicen por debajo y los valores bajos se predicen en exceso. Al principio sospeché que esto era una consecuencia de mis datos, pero el siguiente ejemplo simple sugiere que esto es inherente al algoritmo de bosque aleatorio:
n = 1000;
x1 = rnorm(n, mean = 0, sd = 1)
response = x1
predictors = data.frame(x1=x1)
rf = randomForest(x=predictors, y=response)
error = response-predict(rf, predictors)
plot(x1, error)
Sospecho que el sesgo depende de la distribución de la respuesta, por ejemplo, si x1
está distribuido uniformemente, no hay sesgo; si x1
se distribuye exponencialmente, el sesgo es unilateral. Esencialmente, los valores de la respuesta en las colas de una distribución normal son valores atípicos. No sorprende que un modelo tenga dificultades para predecir valores atípicos. En el caso de randomForest, es menos probable que un valor de respuesta de magnitud extrema desde la cola de una distribución termine en una hoja terminal y su efecto se eliminará en el promedio del conjunto.
Tenga en cuenta que intenté capturar este efecto en un ejemplo anterior, "RandomForest en R regresión lineal colas mtry". Este fue un mal ejemplo. Si el sesgo en el ejemplo anterior es realmente inherente al algoritmo, se deduce que podría formularse una corrección de sesgo dada la distribución de respuesta que uno está tratando de predecir, lo que resulta en predicciones más precisas.
¿Los métodos basados en árboles, como el bosque aleatorio, están sujetos al sesgo de distribución de respuesta? Si es así, ¿es esto previamente conocido por la comunidad estadística y cómo se corrige generalmente (por ejemplo, un segundo modelo que utiliza los residuos del modelo sesgado como entrada)?
La corrección de un sesgo dependiente de la respuesta es difícil porque, por naturaleza, la respuesta no se conoce. Desafortunadamente, la respuesta estimada / pronosticada a menudo no comparte la misma relación con el sesgo.