La idea principal es el procedimiento de ensacado, no hacer árboles al azar. En detalle, cada árbol se construye sobre una muestra de objetos dibujados con reemplazo del conjunto original; así, cada árbol tiene algunos objetos que no ha visto, que es lo que hace que todo el conjunto sea más heterogéneo y, por lo tanto, mejor en generalización.
Además, los árboles se debilitan de tal manera que en cada división solo se consideran M (o mtry
) atributos seleccionados al azar; M suele ser una raíz cuadrada del número de atributos en el conjunto. Esto asegura que los árboles estén menos equipados, ya que no se podan. Puedes encontrar más detalles aquí .
Por otro lado, hay una variante de RF llamada Extreme Random Forest, en la que los árboles se hacen de forma aleatoria (no hay optimización de divisiones): consulte, creo que esta referencia .