Esto es bastante simple: RF optimiza las divisiones en los árboles (es decir, selecciona aquellos que brindan la mejor ganancia de información con respecto a la decisión) y ERF los hace al azar. Ahora,
- costos de optimización (no mucho, pero aún así), por lo que ERF suele ser más rápido.
- la optimización puede contribuir a la correlación de árboles en conjunto o sobreajuste general, por lo que los ERF son probablemente más robustos, especialmente si la señal es débil.
Yendo aún más lejos en esta dirección, puede ganar velocidad adicional al igualar las divisiones en cada nivel de árbol, convirtiendo los árboles en helechos , que también son bastante interesantes; ahí está mi implementación R de tal individuo.