Utilicé randomForest para clasificar 6 comportamientos de animales (p. Ej., Estar de pie, caminar, nadar, etc.) en base a 8 variables (diferentes posturas corporales y movimiento).
El MDSplot en el paquete randomForest me da este resultado y tengo problemas para interpretar el resultado. Hice un PCA con los mismos datos y obtuve una buena separación entre todas las clases en PC1 y PC2, pero aquí Dim1 y Dim2 parecen separar 3 comportamientos. ¿Significa esto que estos tres comportamientos son más diferentes que todos los demás comportamientos (por lo que MDS trata de encontrar la mayor diferencia entre las variables, pero no necesariamente todas las variables en el primer paso)? ¿Qué indica el posicionamiento de los tres grupos (como, por ejemplo, en Dim1 y Dim2)? Como soy bastante nuevo en RI, también tengo problemas para trazar una leyenda para esta trama (sin embargo, tengo una idea de lo que significan los diferentes colores), pero ¿tal vez alguien podría ayudar? ¡¡Muchas gracias!!
Agrego un diagrama hecho con la función ClassCenter en RandomForest. Esta función también utiliza la matriz de proximidad (igual que en el diagrama MDS) para trazar los prototipos. Pero solo mirando los puntos de datos de los seis comportamientos diferentes, no puedo entender por qué la matriz de proximidad trazaría mis prototipos como lo hace. También probé la función classcenter con los datos del iris y funciona. Pero parece que no funciona para mis datos ...
Aquí está el código que usé para esta trama
be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE)
class1 <- classCenter(be[,-1], be[,1], be.rf$prox)
Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))])
points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange"))
Mi columna de clase es la primera, seguida de 8 predictores. Tracé dos de las mejores variables predictoras como x e y.