Soy nuevo en ciencia de datos y tengo problemas para encontrar clústeres en un conjunto de datos con 200,000 filas y 50 columnas en R.
Dado que los datos tienen variables tanto numéricas como nominales, los métodos como K-means que usa la medida de distancia euclidiana no parecen ser una opción adecuada. Así que recurro a PAM, agnes y hclust, que acepta una matriz de distancia como entrada.
El método Margarita puede funcionar en datos de tipo mixto, pero la matriz de distancia es demasiado grande: 200,000 veces 200,000 es mucho mayor que 2 ^ 31-1 (el límite de longitud del vector antes de R 3.0.0).
El nuevo R 3.0.0 lanzado ayer admite vectores largos con una longitud mayor a 2 ^ 31-1. Pero una matriz doble de 200,000 por 200,000 requiere una RAM continua mayor a 16Gb, lo cual no es posible en mi máquina.
Leí acerca de la computación paralela y el paquete bigmemory y no estoy seguro de si van a ayudar: si estoy usando Daisy, generará una gran matriz que de todos modos no puede caber en la memoria.
También leí sobre la publicación sobre muestreo: ¿es relevante el muestreo en el momento de los 'grandes datos'?
Entonces, en mi caso, ¿es relevante usar el muestreo en el conjunto de datos, agrupar en la muestra y luego inferir la estructura de todo el conjunto de datos?
¿Me puede dar alguna sugerencia? ¡Gracias!
Acerca de mi máquina:
R versión 3.0.0 (03/04/2013)
Plataforma: x86_64-w64-mingw32 / x64 (64 bits)
SO: Windows 7 de 64 bits
RAM: 16.0GB