Cuántas características para muestrear usando bosques aleatorios

La página de Wikipedia que cita "Los elementos del aprendizaje estadístico" dice:

Por lo general, para un problema de clasificación con características , $p$ característicasse utilizan en cada división. $\lfloor \sqrt{p}\rfloor$

Entiendo que esta es una conjetura bastante buena y probablemente fue confirmada por evidencia empírica, pero ¿hay otras razones por las que uno elegiría la raíz cuadrada? ¿Hay un fenómeno estadístico sucediendo allí?

¿Esto de alguna manera ayuda a disminuir la varianza de los errores?

¿Es esto lo mismo para la regresión y la clasificación?

— Valentin Calomme
fuente

Creo que en el documento original sugieren usar ), pero de cualquier manera la idea es la siguiente: $\log_2(N +1$

El número de características seleccionadas al azar puede influir en el error de generalización de dos maneras: la selección de muchas características aumenta la fuerza de los árboles individuales, mientras que la reducción del número de características conduce a una menor correlación entre los árboles, lo que aumenta la fuerza del bosque en su conjunto.

Lo interesante es que los autores de Random Forests (pdf) encuentran una diferencia empírica entre clasificación y regresión:

Una diferencia interesante entre la regresión y la clasificación es que la correlación aumenta bastante lentamente a medida que aumenta el número de características utilizadas.

$N/3$ $\sqrt N$

$\sqrt N$ $\log N$

El rango intermedio suele ser grande. En este rango, a medida que aumenta el número de características, la correlación aumenta, pero PE * (árbol) compensa disminuyendo.

(PE * es el error de generalización)

Como dicen en Elementos del aprendizaje estadístico:

En la práctica, los mejores valores para estos parámetros dependerán del problema y deben tratarse como parámetros de ajuste.

Una cosa de la que puede depender su problema es el número de variables categóricas. Si tiene muchas variables categóricas que están codificadas como variables ficticias, generalmente tiene sentido aumentar el parámetro. Nuevamente, del artículo de Random Forests:

$int(log_2M+1)$

— oW_
fuente

Gracias, esa es una respuesta muy útil. De hecho, estaba pensando que había algo que ver con la fuerza de cada árbol versus la fuerza del bosque en su conjunto. Y de hecho, es muy interesante que haya tanta diferencia entre regresión y clasificación. Muchas gracias por vincular el artículo original. He estado tratando de recopilar esos documentos para muchas técnicas.

— Valentin Calomme