Entonces, tengo una matriz de aproximadamente 60 x 1000. Lo estoy viendo como 60 objetos con 1000 características; Los 60 objetos se agrupan en 3 clases (a, b, c). 20 objetos en cada clase, y sabemos la verdadera clasificación. Me gustaría hacer un aprendizaje supervisado en este conjunto de 60 ejemplos de capacitación, y estoy interesado tanto en la precisión del clasificador (y las métricas relacionadas) como en la selección de funciones en las 1000 funciones.
Primero, ¿cómo está mi nomenclatura?
Ahora la verdadera pregunta:
Podría arrojar bosques aleatorios sobre él como se indicó, o cualquier número de otros clasificadores. Pero hay una sutileza: realmente solo me importa diferenciar la clase c de las clases a y b. Podría agrupar las clases a y b, pero ¿hay una buena manera de utilizar el conocimiento a priori de que todos los objetos que no son c probablemente forman dos grupos distintos? Prefiero usar bosques aleatorios o una variante de los mismos, ya que se ha demostrado que es efectivo en datos similares a los míos. Pero podría estar convencido de probar otros enfoques.