Los bosques aleatorios (RF) son un método competitivo de modelado / extracción de datos.
Un modelo de RF tiene una salida: la variable de salida / predicción.
El enfoque ingenuo para modelar múltiples salidas con RF sería construir un RF para cada variable de salida. Entonces tenemos N modelos independientes, y donde hay correlación entre las variables de salida tendremos una estructura de modelo redundante / duplicada. Esto podría ser muy derrochador, de hecho. Además, como regla general, más variables del modelo implican un modelo más sobreajustado (menos generalización). No estoy seguro si esto se aplica aquí, pero probablemente sí.
En principio podríamos tener una RF con múltiples salidas. La variable de predicción ahora es un vector (n-tupla). Los nodos de decisión en cada árbol de decisión ahora están dividiendo el conjunto de vectores de destino / predicción basados en un vector de umbral, imagino que este umbral se toma como un plano en el espacio n-dimensional y que, por lo tanto, podemos determinar qué lado del umbral vector cada uno de los vectores de destino está activado.
El valor de predicción óptimo para cada lado de la división de decisión es la media (centroide) calculada para los vectores en cada lado.
Encontrar el punto de división óptimo cuando se trabaja con variables individuales es trivial y computacionalmente rápido / eficiente. Para una n-tupla, no podemos encontrar la división óptima (o al menos se vuelve computacionalmente inviable a medida que N aumenta), pero podemos encontrar una división casi óptima utilizando un método de tipo Monte Carlo (o algún híbrido de Monte Carlo y local gradiente transversal).
¿Funcionaría esto realmente? Es decir, ¿solo mapearía los pares de entrenamiento sin generalizar? ¿Esta técnica ya existe con un nombre diferente?
Es posible que también desee considerar cómo se relaciona esto con las redes neuronales como las Máquinas de Boltzmann restringidas (RBM) y las Redes de creencias profundas.