Estoy aplicando un algoritmo de bosque aleatorio como clasificador en un conjunto de datos de microarrays que se dividen en dos grupos conocidos con miles de características. Después de la ejecución inicial, miro la importancia de las características y ejecuto nuevamente el algoritmo del árbol con las 5, 10 y 20 características más importantes. Creo que para todas las funciones, las 10 y 20 principales, la estimación OOB de la tasa de error es del 1.19%, mientras que para las 5 funciones principales es del 0%. Esto me parece contrario a la intuición, así que me preguntaba si podría explicar si me falta algo o si estoy usando la métrica incorrecta.
I usando el paquete randomForest en R con ntree = 1000, nodeize = 1 y mtry = sqrt (n)