Creo que esta es una pregunta directa, aunque el razonamiento detrás de por qué o por qué no puede no serlo. La razón por la que pregunto es que recientemente escribí mi propia implementación de un RF y, aunque funciona bien, no está funcionando tan bien como esperaba (según el conjunto de datos de la competencia Kaggle Photo Quality Prediction , los puntajes ganadores y algunos de la información posterior disponible sobre qué técnicas se usaron).
Lo primero que hago en tales circunstancias es el error de predicción de la trama para mi modelo, por lo que para cada valor de predicción determinado determino el sesgo medio (o desviación) del valor objetivo correcto. Para mi RF obtuve esta trama:
Me pregunto si este es un patrón de sesgo comúnmente observado para RF (de lo contrario, tal vez podría ser algo específico para el conjunto de datos y / o mi implementación). Por supuesto, puedo usar este gráfico para mejorar las predicciones al usarlo para compensar el sesgo, pero me pregunto si hay un error o deficiencia más fundamental en el modelo de RF en sí que necesita abordarse. Gracias.
== ADDENDUM ==
Mi investigación inicial es en la entrada de este blog Random Forest Bias - Update