¿Cómo deben implementarse las divisiones del árbol de decisión al predecir variables continuas?

En realidad, estoy escribiendo una implementación de Bosques aleatorios, pero creo que la pregunta es específica de los árboles de decisión (independientemente de los RF).

Entonces, el contexto es que estoy creando un nodo en un árbol de decisión y tanto la predicción como las variables objetivo son continuas. El nodo tiene un umbral dividido para dividir los datos en dos conjuntos, y creo una nueva predicción para cada subconjunto en función del valor objetivo promedio en cada conjunto. ¿Es este el enfoque correcto?

La razón por la que pregunto es que al predecir variables binarias creo que el enfoque típico (¿correcto?) Es dividir los datos en 0 y 1 subconjuntos sin tomar un promedio sobre las filas de datos en cada subconjunto. Las divisiones posteriores se dividirán en subconjuntos de grano más fino y tomar un promedio en cada división da como resultado divisiones posteriores (más abajo en el árbol de decisión) que operan en lo que ahora son variables continuas en lugar de variables binarias (porque estamos operando en los valores de error residual en lugar del original objetivos).

Pregunta secundaria: ¿Es significativa la distinción entre los dos enfoques (binario versus continuo), o darán resultados idénticos para un árbol de decisión completo?

algorithms cart random-forest

— Redcalx
fuente

La división en una variable continua asegurará que el "modelo" resultante no se ajuste a los datos correctamente. Si tiene una X continua y una Y continua, considere usar el loess no paramétrico más suave.

— Frank Harrell

El problema en el que estoy trabajando ahora tiene muchas variables predictoras (una combinación de continuo y binario) y una sola variable objetivo. Por lo tanto, creo que RF es un enfoque razonable.

— redcalx

Muy probablemente así. Pero un bosque aleatorio es una mezcla de árboles (no es un árbol de decisión), por lo que se aproxima a las relaciones continuas haciendo divisiones múltiples y, en efecto, utilizando la contracción. Así que no creo que se aplique su pregunta original, si la entiendo.

— Frank Harrell

Estoy tentado a decir que su descripción del caso continuo es correcta (es decir, la forma estándar de hacer las cosas), pero luego su descripción del caso de la variable binaria no coincide en absoluto con mi comprensión de cómo los bosques aleatorios (o la decisión árboles) funcionan, así que me preocupa que uno de nosotros esté confundido.

— joran

@joran. Sí, al forzar que las predicciones sean 0 o 1, pierde la capacidad de hacer ajustes sutiles a las predicciones (entre 0 y 1) que pueden reducir el error (por ejemplo, error de predicción cuadrático medio). Como tal, sospecho que ese enfoque es inferior. Lo intenté y la mayoría de los intentos de construir un árbol de decisión no logran encontrar ni siquiera una división que mejore el error.

— redcalx

Un problema potencial con los árboles es que tienden a encajar mal en las colas. Piense en un nodo terminal que capture el rango bajo del conjunto de entrenamiento. Se pronosticará utilizando la media de esos puntos de ajuste de entrenamiento, que siempre subestimarán el resultado (ya que es la media).

Puede probar árboles modelo [1]. Estos se ajustarán a modelos lineales en los nodos terminales y (creo) harán un mejor trabajo que los árboles de regresión. Mejor aún, use una versión más evolucionada llamada Cubista que combine diferentes enfoques ([1] y [2] a continuación).

Estos modelos también manejan predictores continuos y discretos de manera diferente. Pueden hacer divisiones de múltiples vías para variables categóricas. El criterio de división es muy similar a los árboles CART.

Los árboles modelo se pueden encontrar en R en el paquete RWeka (llamado 'M5P') y Cubist está en el paquete Cubist. Por supuesto, también puede usar Weka y Cubist tiene una versión C disponible en el sitio web de RuleQuest.

[1] Quinlan, J. (1992). Aprendizaje con clases continuas. Actas de la 5ª Conferencia Conjunta Australiana sobre Inteligencia Artificial, 343–348.

[2] Quinlan, J. (1993). Combina el aprendizaje basado en instancias y en modelos. Actas de la Décima Conferencia Internacional sobre Aprendizaje Automático, 236–243.

— topepo
fuente

¿No podría simplemente tener árboles más profundos para minimizar el mal ajuste de las colas?

— Jase