Un bosque aleatorio es una colección de árboles de decisión formados seleccionando aleatoriamente solo ciertas características con las que construir cada árbol (y algunas veces empaquetando los datos de entrenamiento). Aparentemente aprenden y generalizan bien. ¿Alguien ha realizado un muestreo MCMC del espacio del árbol de decisión o los ha comparado con bosques aleatorios? Sé que podría ser computacionalmente más costoso ejecutar el MCMC y guardar todos los árboles muestreados, pero estoy interesado en las características teóricas de este modelo, no en los costos computacionales. Lo que quiero decir es algo como esto:
- Construya un árbol de decisión aleatorio (probablemente funcionaría horriblemente)
- Calcule la probabilidad del árbol con algo como , o quizás agregue un P p r i o r ( T r e e ) término.
- Elija un paso aleatorio para cambiar el árbol y seleccione en función de la probabilidad .
- Cada N pasos, guarde una copia del árbol actual
- Regrese a 3 para algunos grandes N * M veces
- Usa la colección de M árboles guardados para hacer predicciones
¿Daría esto un rendimiento similar a los bosques aleatorios? Tenga en cuenta que aquí no desechamos buenos datos o características en ningún paso, a diferencia de los bosques aleatorios.