¿Los bosques aleatorios muestran un sesgo de predicción?


12

Creo que esta es una pregunta directa, aunque el razonamiento detrás de por qué o por qué no puede no serlo. La razón por la que pregunto es que recientemente escribí mi propia implementación de un RF y, aunque funciona bien, no está funcionando tan bien como esperaba (según el conjunto de datos de la competencia Kaggle Photo Quality Prediction , los puntajes ganadores y algunos de la información posterior disponible sobre qué técnicas se usaron).

Lo primero que hago en tales circunstancias es el error de predicción de la trama para mi modelo, por lo que para cada valor de predicción determinado determino el sesgo medio (o desviación) del valor objetivo correcto. Para mi RF obtuve esta trama:

Valor de predicción versus sesgo del valor objetivo correcto

Me pregunto si este es un patrón de sesgo comúnmente observado para RF (de lo contrario, tal vez podría ser algo específico para el conjunto de datos y / o mi implementación). Por supuesto, puedo usar este gráfico para mejorar las predicciones al usarlo para compensar el sesgo, pero me pregunto si hay un error o deficiencia más fundamental en el modelo de RF en sí que necesita abordarse. Gracias.

== ADDENDUM ==

Mi investigación inicial es en la entrada de este blog Random Forest Bias - Update


2
Puede ser una característica de sus datos; ¿Has intentado ejecutar otra implementación de RF en el mismo conjunto de datos para ver si reproduce este efecto?

Respuestas:


4

(Estoy lejos de ser experto. Estas son solo reflexiones de un estadístico junior que se ha ocupado de cuestiones diferentes, pero poco análogas. Mi respuesta podría estar fuera de contexto).

Dada una nueva muestra para predecir, y un oráculo que tiene acceso a un conjunto de entrenamiento mucho más grande, entonces quizás la "mejor" y más honesta predicción sea decir "Predigo con un 60% de probabilidad de que esto pertenezca a la clase Roja en lugar de la clase azul ".

Daré un ejemplo más concreto. Imagine que, en nuestro gran conjunto de entrenamiento, hay un gran conjunto de muestras que son muy similares a nuestra nueva muestra. De estos, el 60% son azules y el 40% son rojos. Y parece que no hay nada que distinga a los azules de los rojos. En tal caso, es obvio que un 60% / 40% es la única predicción que una persona cuerda puede hacer.

Por supuesto, no tenemos tal oráculo, en cambio tenemos muchos árboles. Los árboles de decisión simples son incapaces de hacer estas predicciones del 60% / 40% y, por lo tanto, cada árbol hará una predicción discreta (Rojo o Azul, nada intermedio). Como esta nueva muestra cae justo en el lado rojo de la superficie de decisión, encontrará que casi todos los árboles predicen rojo en lugar de azul. Cada árbol pretende ser más seguro de lo que es y comienza una estampida hacia una predicción sesgada.

El problema es que tendemos a malinterpretar la decisión de un solo árbol. Cuando un solo pone de árboles en un nodo de la clase Roja, que deberían no interpretarlo como una predicción 100% / 0% desde el árbol. (No solo digo que 'sabemos' que probablemente sea una mala predicción. Estoy diciendo algo más fuerte, es decir, que debemos tener cuidado de interpretar que es la predicción del árbol). No puedo expandirme concisamente sobre cómo solucionar esto. Pero es posible tomar prestadas ideas de áreas de estadísticas sobre cómo construir divisiones más 'difusas' dentro de un árbol para alentar a un solo árbol a ser más honesto sobre su incertidumbre. Entonces, debería ser posible promediar significativamente las predicciones de un bosque de árboles.

Espero que esto ayude un poco. Si no, espero aprender de cualquier respuesta.


Divisiones difusas, entendido, en el espíritu de RF extrema (¿pero posiblemente no tan extrema?). Intentaré esto ya que su explicación tiene sentido para mí. Gracias.
redcalx

[Bosque aleatorio - Reflexiones sobre el problema de sesgo] ( the-locster.livejournal.com/134241.html ) "La clave entonces (creo) es utilizar una aleatorización no uniforme [del umbral dividido] de modo que el conjunto de todos los puntos divididos cuando se combinen recrearán y = f (x) y se acercarán a una representación perfecta de y = f (x) ya que el número de DT en la RF tiende hacia el infinito ".
redcalx

¿Las predicciones del 60/40% no serían manejadas por un árbol de regresión? La confianza sería la relación de clase en la partición de una hoja (para el conjunto de entrenamiento). Tal vez esto lata / ha ampliado para hacer frente a la potencia estadística demasiado
Alter

3

Si. La mayoría de los árboles tienen un sesgo en las colas. Ver:

¿Cómo deben implementarse las divisiones del árbol de decisión al predecir variables continuas?

"Un problema potencial con los árboles es que tienden a encajar mal en las colas. Piense en un nodo terminal que capture el rango bajo del conjunto de entrenamiento. Predecirá usando la media de esos puntos de ajuste de entrenamiento, que siempre predecirán por debajo el resultado (ya que es la media) ".


No creo que ese comentario se aplique a bosques aleatorios
Zach

Creo que la implementación de referencia de bosques aleatorios se detiene con ~ 5 observaciones en los nodos cuando la variable de respuesta es continua. Eso aún introduciría una pequeña cantidad de sesgo si la variable de división fuera continua también. Similar a por qué LOESS a menudo se ve mejor que una media móvil centrada en los bordes del soporte ...
Shea Parkes
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.