¿Alguien puede explicar la diferencia entre RandomForestClassifier y ExtraTreesClassifier en scikit learn? He pasado bastante tiempo leyendo el periódico:
P. Geurts, D. Ernst. Y L. Wehenkel, "Árboles extremadamente aleatorios", Machine Learning, 63 (1), 3-42, 2006
Parece que estas son la diferencia para ET:
1) Al elegir variables en una división, las muestras se extraen del conjunto de entrenamiento completo en lugar de una muestra de arranque del conjunto de entrenamiento.
2) Las divisiones se eligen completamente al azar del rango de valores de la muestra en cada división.
El resultado de estas dos cosas son muchas más "hojas".