Tengo un conjunto de datos de más de 1000 muestras de 19 variables. Mi objetivo es predecir una variable binaria basada en las otras 18 variables (binarias y continuas). Estoy bastante seguro de que 6 de las variables de predicción están asociadas con la respuesta binaria, sin embargo, me gustaría analizar más a fondo el conjunto de datos y buscar otras asociaciones o estructuras que me pueden faltar. Para hacer esto, decidí usar PCA y clustering.
Cuando se ejecuta el PCA en los datos normalizados, resulta que se deben mantener 11 componentes para retener el 85% de la variación. Al trazar las parcelas obtengo esto:
No estoy seguro de lo que sigue ... No veo un patrón significativo en la PCA y me pregunto qué significa esto y si podría haber sido causado por el hecho de que algunas de las variables son binarias. Al ejecutar un algoritmo de agrupamiento con 6 grupos, obtengo el siguiente resultado, que no es exactamente una mejora, aunque algunos blobs parecen destacarse (los amarillos).
Como probablemente pueda notar, no soy un experto en PCA, pero vi algunos tutoriales y cómo puede ser poderoso tener una idea de las estructuras en el espacio de alta dimensión. Con el famoso conjunto de datos de dígitos MNIST (o IRIS) funciona muy bien. Mi pregunta es: ¿qué debo hacer ahora para que la PCA tenga más sentido? La agrupación no parece recoger nada útil, ¿cómo puedo decir que no hay un patrón en la PCA o qué debo intentar a continuación para encontrar patrones en los datos de la PCA?