Segundo comentario de @suncoolsu: la dimensionalidad de su conjunto de datos no es el único criterio que debería orientarlo hacia un software específico. Por ejemplo, si solo está planeando agrupar sin supervisión o usar PCA, existen varias herramientas dedicadas que hacen frente a grandes conjuntos de datos, como se encuentra comúnmente en los estudios genómicos.
Ahora, R (64 bits) maneja grandes cantidades de datos bastante bien, y usted todavía tiene la opción de almacenamiento en disco utilización en lugar de acceso a la RAM, pero ver CRAN vista de tareas de alto rendimiento y computación paralela con R . GLM estándar puede acomodar fácilmente 20,000 obs. (pero vea también speedglm ) dentro de un tiempo razonable, como se muestra a continuación:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Para dar una ilustración más concreta, utilicé R para procesar y analizar datos genéticos grandes (800 individuos x 800k SNPs , donde el modelo estadístico principal era un GLM estratificado con varias covariables (2 min); eso fue posible gracias a R eficiente y Códigos C disponibles en el paquete snpMatrix (en comparación, el mismo tipo de modelo tomó alrededor de 8 minutos usando un software dedicado C ++ ( plink ). También trabajé en un estudio clínico (12k pacientes x 50 variables de interés) y R se ajusta a mis necesidades Finalmente, hasta donde yo sé, el paquete lme4 es el único software que permite ajustar el modelo de efectos mixtos con conjuntos de datos grandes y no balanceados (como es el caso de la evaluación educativa a gran escala).
Stata / SE es otro software que puede manejar grandes conjuntos de datos . SAS y SPSS son software basado en archivos, por lo que manejarán grandes volúmenes de datos. Una revisión comparativa del software para minería de datos está disponible en Herramientas de minería de datos: cuál es el mejor para CRM . Para la visualización, también hay muchas opciones; quizás un buen comienzo es Gráficos de grandes conjuntos de datos: visualizar un millón ( revisado en el JSS por P Murrell), y todos los hilos relacionados en este sitio.