En realidad, estoy escribiendo una implementación de Bosques aleatorios, pero creo que la pregunta es específica de los árboles de decisión (independientemente de los RF).
Entonces, el contexto es que estoy creando un nodo en un árbol de decisión y tanto la predicción como las variables objetivo son continuas. El nodo tiene un umbral dividido para dividir los datos en dos conjuntos, y creo una nueva predicción para cada subconjunto en función del valor objetivo promedio en cada conjunto. ¿Es este el enfoque correcto?
La razón por la que pregunto es que al predecir variables binarias creo que el enfoque típico (¿correcto?) Es dividir los datos en 0 y 1 subconjuntos sin tomar un promedio sobre las filas de datos en cada subconjunto. Las divisiones posteriores se dividirán en subconjuntos de grano más fino y tomar un promedio en cada división da como resultado divisiones posteriores (más abajo en el árbol de decisión) que operan en lo que ahora son variables continuas en lugar de variables binarias (porque estamos operando en los valores de error residual en lugar del original objetivos).
Pregunta secundaria: ¿Es significativa la distinción entre los dos enfoques (binario versus continuo), o darán resultados idénticos para un árbol de decisión completo?