¿Cuáles deberían ser los parámetros óptimos para el clasificador de bosque aleatorio?

14

Actualmente estoy usando RF toolbox en MATLAB para un problema de clasificación binaria

Conjunto de datos: 50000 muestras y más de 250 características

Entonces, ¿cuál debería ser el número de árboles y la función seleccionada al azar en cada división para cultivar los árboles? ¿Puede algún otro parámetro afectar en gran medida los resultados?

machine-learning classification random-forest

— Rizwan
fuente

8

Elija una gran cantidad de árboles, digamos 100. De lo que he leído en Internet, elija funciones seleccionadas al azar. Sin embargo, enel artículo original, Breiman utilizó el número entero más cercano para $\sqrt{250}$ . $\frac{\log{M}}{\log{2}}$

Diría que la validación cruzada suele ser la clave para encontrar parámetros óptimos, pero no sé lo suficiente sobre bosques aleatorios.

— Wok
fuente

⌊ 1 + \log_{2} M ⌋

$\lfloor 1 + \log_2 M\rfloor$

Gracias, he actualizado el enlace. Ahora, es directo a Berkeley.

— Wok

12

Número de árboles cuanto más grande, mejor. Casi no puede excederse con este parámetro, pero, por supuesto, el límite superior depende del tiempo computacional que desee pasar en RF.
La buena idea es hacer un bosque largo primero y luego ver (espero que esté disponible en la implementación de MATLAB) cuando converge la precisión OOB.

Número de atributos probados: el valor predeterminado es la raíz cuadrada de la cantidad total de atributos, aunque generalmente el bosque no es muy sensible al valor de este parámetro; de hecho, rara vez se optimiza, especialmente porque el aspecto estocástico de RF puede introducir variaciones más grandes.

7

Número de árboles cuanto más grande, mejor: de acuerdo.

El número de atributos probados dependerá. Si ya tiene algo a priori sobre la forma en que se difunde la información o no entre las características. Si la información es compartida por muchas características, mejores resultados obtendrían un valor menor de ese parámetro. Mientras que, por otro lado, si solo unas pocas características llevan la información, debe usar valores más grandes. En otras palabras, con muchas variables relevantes: los valores más pequeños son mejores y con muchas variables irrelevantes: los valores más grandes son mejores.

— 0asa
fuente

1

Si bien su afirmación sobre el número de atributos probados tiene sentido, ¿tiene una cita para esto?

— James Owers

Recomiendo leer esta tesis: github.com/glouppe/phd-thesis así como esta: orbi.ulg.ac.be/handle/2268/25737

— 0asa