Preguntas prácticas sobre la sintonización de bosques al azar


65

Mis preguntas son sobre bosques al azar. El concepto de este hermoso clasificador es claro para mí, pero aún hay muchas preguntas prácticas de uso. Desafortunadamente, no pude encontrar ninguna guía práctica para RF (¡He estado buscando algo como "Una guía práctica para entrenar máquinas de Boltzman restringidas" por Geoffrey Hinton, pero para bosques aleatorios!

¿Cómo se puede sintonizar RF en la práctica?

¿Es cierto que un mayor número de árboles siempre es mejor? ¿Existe un límite razonable (excepto la capacidad de comp., Por supuesto) para aumentar el número de árboles y cómo estimarlo para un conjunto de datos dado?

¿Qué pasa con la profundidad de los árboles? ¿Cómo elegir el razonable? ¿Tiene sentido experimentar con árboles de diferente longitud en un bosque y cuál es la guía para eso?

¿Hay otros parámetros que valga la pena observar al entrenar RF? Algos para la construcción de árboles individuales pueden ser?

Cuando dicen que los RF son resistentes al sobreajuste, ¿qué tan cierto es eso?

Agradecería cualquier respuesta y / o enlace a guías o artículos que podría haber perdido durante mi búsqueda.


Para el ajuste de perforación, consulte también SO: "Cómo mejorar el rendimiento de randomForest"
smci

Respuestas:


43

No soy una figura autorizada, así que considera estas breves notas para profesionales:

Más árboles siempre es mejor con rendimientos decrecientes. Los árboles más profundos casi siempre están mejor sujetos a requerir más árboles para un rendimiento similar.

Los dos puntos anteriores son directamente el resultado de la compensación de sesgo-varianza. Los árboles más profundos reducen el sesgo; Más árboles reduce la varianza.

El hiperparámetro más importante es cuántas funciones probar para cada división. Cuantas más funciones inútiles haya, más funciones deberías probar. Esto necesita sintonizar. Puede ajustarlo mediante estimaciones OOB si solo desea conocer su rendimiento en sus datos de entrenamiento y no hay hermanamiento (~ medidas repetidas). A pesar de que este es el parámetro más importante, su valor óptimo suele estar bastante cerca de los valores predeterminados de sugerencia originales (sqrt (p) o (p / 3) para clasificación / regresión).

Una investigación bastante reciente muestra que ni siquiera necesita hacer búsquedas divididas exhaustivas dentro de una función para obtener un buen rendimiento. Simplemente pruebe algunos puntos de corte para cada característica seleccionada y continúe. Esto hace que el entrenamiento sea aún más rápido. (~ Bosques / árboles extremadamente aleatorios).


Un par de otras notas: en la práctica, generalmente confirmo la convergencia al comparar predicciones de la mitad de los árboles con la otra. En cuanto al sobreajuste, es más una función de lo que estás tratando de generalizar. No se van a sobreajustar si está entrenando en una muestra representativa, pero rara vez es así como funciona realmente.
Shea Parkes

¿Son verdaderos sus 'árboles más profundos = mejores, todo lo demás constante' para datos extremadamente ruidosos con estructuras de dependencia que cambian con el tiempo, en las cuales las relaciones lineales son las más sólidas para no cambiar entre el conjunto de entrenamiento y el conjunto de prueba?
Jase

Podría ver el potencial para que los árboles menos profundos sean mejores si tiene una situación en la que solo debe aprender relaciones superficiales, pero realmente me gustaría usar evidencia empírica para demostrarlo (y no tengo tiempo para trabajar en eso). Si cree o tiene pruebas de que las relaciones lineales son las más resistentes, entonces consideraría mucho algo que no esté basado en un árbol. ¿Quizás redes neuronales con capas de salto?
Shea Parkes

Bueno, digamos que tiene un conjunto de datos con 3 características relevantes y 100 características que son ruido blanco y 50 puntos de datos. Pero no sabe cuáles son el ruido blanco y cuáles son relevantes antes de tiempo, solo sabe que sus datos son tan ruidosos que este es el caso. Claramente, los árboles extremadamente poco profundos con un gran tamaño mtryson mejores, no se necesitan pruebas o pruebas empíricas para ver esto.
Jase

22
  • Número de árboles : cuanto más grande, mejor: sí. Una forma de evaluar y saber cuándo detenerse es monitorear su tasa de error mientras construye su bosque (o cualquier otro criterio de evaluación que pueda usar) y detectar cuándo converge. Puede hacerlo en el propio conjunto de aprendizaje o, si está disponible, en un conjunto de prueba independiente. Además, debe tenerse en cuenta que la cantidad de nodos de prueba en sus árboles está limitada por la cantidad de objetos, por lo que si tiene muchas variables y no tantos objetos de entrenamiento, se recomienda un bosque más grande para aumentar el posibilidades de evaluar todos los descriptores al menos una vez en su bosque.

  • Profundidad del árbol : hay varias formas de controlar la profundidad de sus árboles (limite la profundidad máxima, limite la cantidad de nodos, limite la cantidad de objetos necesarios para dividir, deje de dividir si la división no mejora lo suficiente el ajuste, ... ) La mayoría de las veces, se recomienda podar (limitar la profundidad de) los árboles si se trata de datos ruidosos. Finalmente, puede usar sus árboles completamente desarrollados para calcular el rendimiento de los árboles más cortos, ya que estos son un "subconjunto" de los árboles completamente desarrollados.

  • Cuántas características probar en cada nodo : valide de forma cruzada sus experiencias con una amplia gama de valores (incluidos los recomendados), debe obtener una curva de rendimiento y poder identificar un máximo que indique cuál es el mejor valor para este parámetro + Shea Parkes responde.

  • Shea Parkes mencionó los árboles extra, aquí está el documento original que describe en detalle el método: http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.