Preguntas etiquetadas con large-data

Los 'datos grandes' se refieren a situaciones en las que el número de observaciones (puntos de datos) es tan grande que necesita cambios en la forma en que el analista de datos piensa o realiza el análisis. (No debe confundirse con 'alta dimensionalidad').



3
Agrupación de espacio eficiente
La mayoría de los algoritmos de agrupación que he visto comienzan con la creación de una distancia de cada uno entre cada punto, lo que se vuelve problemático en conjuntos de datos más grandes. ¿Hay alguno que no lo haga? ¿O lo hace en algún tipo de enfoque parcial / …

4
Estimando la dimensión de un conjunto de datos
Un colega en estadísticas aplicadas me envió esto: "Me preguntaba si conoces alguna forma de descubrir la verdadera dimensión del dominio de una función. Por ejemplo, un círculo es una función unidimensional en un espacio bidimensional. Si no sé cómo dibujar, ¿hay un estadística que puedo calcular que me dice …



3
Haciendo regresiones en muestras de un archivo muy grande: ¿son las medias y los SE de los coeficientes de la muestra estimadores consistentes?
Tengo un archivo bastante larege 100M filas y 30 columnas más o menos en el que me gustaría ejecutar múltiples regresiones. Tengo un código especializado para ejecutar las regresiones en todo el archivo, pero lo que me gustaría hacer es extraer muestras aleatorias del archivo y ejecutarlas en R. La …

1
Bosque aleatorio en una configuración de Big Data
Tengo un conjunto de datos con 5.818.446 líneas y 51 columnas, de las cuales 50 son predictores. Mi respuesta es cuantitativa, así que estoy interesado en un modelo de regresión. Estoy tratando de ajustar un bosque aleatorio a mis datos usando el paquete caret. Sin embargo, no tengo suficiente RAM …

5
¿Por qué los regresores irrelevantes se vuelven estadísticamente significativos en muestras grandes?
Estoy tratando de comprender mejor la significación estadística, los tamaños del efecto y similares. Tengo la percepción (tal vez está mal) de que incluso los regresores irrelevantes a menudo se vuelven estadísticamente significativos en muestras grandes . Por irrelevante quiero decir que no hay una explicación del tema por qué …

2
¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?
Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación): id, age, income, gender, job category, monthly spend en el cual monthly spendestá …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 


2
R como alternativa a SAS para datos grandes
Sé que R no es particularmente útil para analizar grandes conjuntos de datos dado que R carga todos los datos en la memoria, mientras que algo como SAS hace análisis secuenciales. Dicho esto, hay paquetes como bigmemory que permiten a los usuarios realizar análisis de datos grandes (análisis estadístico) de …
8 r  sas  large-data 

3
¿De qué sirven las matrices densas en estadística?
OK, no soy un estadístico (ni siquiera cerca). Soy un investigador de computación de alto rendimiento y quería algunos casos de prueba para matrices densas grandes (mayores de 5000x5000). Había preguntado aquí y en algunos otros lugares, pero nunca recibí respuesta de un estadístico. Estoy muy interesado en probar mis …
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.