¿Por qué no se necesita la poda para árboles forestales al azar?


20

Breiman dice que los árboles se cultivan sin podar. ¿Por qué? Quiero decir que debe haber una razón sólida por la cual los árboles en un bosque aleatorio no se poden. Por otro lado, se considera muy importante podar un solo árbol de decisión para evitar un ajuste excesivo. ¿Hay alguna literatura disponible para leer por este motivo? Por supuesto, los árboles pueden no estar correlacionados, pero aún existe la posibilidad de un ajuste excesivo.


Realmente necesitas decir más sobre el contexto aquí. @ChrisA. ha hecho un intento notable, pero es difícil saber si su pregunta está realmente respondida, porque es difícil saber mucho sobre su quandry.
gung - Restablece a Monica

2
¿Que mas se ha de decir? La pregunta es muy clara.
Seanosapien

Respuestas:


20

Hablando en términos generales, algunas de las posibles sobreajustes que podrían ocurrir en un solo árbol (que es una razón por la que generalmente se poda) se mitigan por dos cosas en un Bosque aleatorio:

  1. El hecho de que las muestras utilizadas para entrenar a los árboles individuales son "bootstrapped".
  2. El hecho de que tiene una multitud de árboles aleatorios que usan características aleatorias y, por lo tanto, los árboles individuales son fuertes pero no están tan correlacionados entre sí.

Editar: según el comentario de OP a continuación:

Definitivamente todavía hay potencial para un ajuste excesivo. En cuanto a los artículos, puede leer sobre la motivación para "embolsar" por Breiman y "bootstrapping" en general por Efron y Tibshirani. En cuanto a 2., Brieman obtuvo un límite suelto en el error de generalización que está relacionado con la fuerza del árbol y la anti-correlación de los clasificadores individuales. Nadie usa el límite (lo más probable), pero tiene la intención de dar una intuición sobre lo que ayuda a un bajo error de generalización en los métodos de conjunto. Esto se encuentra en el documento de Random Forests. Mi publicación fue empujarlo en la dirección correcta según estas lecturas y mi experiencia / deducciones.

  • Breiman, L., Predictores de ensacado, Machine Learning, 24 (2), pp.123-140, 1996.
  • Efron, B .; Tibshirani, R. (1993). Una introducción a Bootstrap. Boca Raton, FL
  • Breiman, Leo (2001). "Bosques al azar". Machine Learning 45 (1): 5–32.

Pero aún puede existir una posibilidad de sobreajuste. ¿Puedes citar un artículo para leer para esto?
Z Khan

@Z Khan ¿Eres quizás también este Z Khan ? Si es así, infórmenos para que podamos fusionar sus cuentas.
whuber

3
@ZKhan El problema del sobreajuste en las RF está cubierto en Hastie et al, (2009) Elements of Statistical Learning, 2nd Edition . Hay un PDF gratuito disponible en el sitio web para el libro. Echa un vistazo al capítulo sobre bosques aleatorios.
Restablece a Monica - G. Simpson el
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.