¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?


8

Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación):

id, age, income, gender, job category, monthly spend

en el cual monthly spendestá la variable de respuesta. Pero el conjunto de datos de entrenamiento contiene aproximadamente 3 millones de filas, y el conjunto de datos (que contiene id, age, income, gender, job categorypero sin variable de respuesta) para predecir contiene 1 millón de filas. Mi pregunta es: ¿hay algún problema potencial si arrojo demasiadas filas (3 millones en este caso) en un modelo estadístico? Entiendo que los gastos computacionales son una de las preocupaciones, ¿hay alguna otra preocupación? ¿Hay libros / documentos que expliquen completamente el problema del tamaño del conjunto de datos?

modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

15
Tener demasiadas filas no da como resultado un sobreajuste. Tener demasiadas columnas sí.
Peter Flom

55
Debido a que esta pregunta se basa en múltiples suposiciones falsas: que las personas son reacias a usar muchos casos para los análisis y que la mayoría de los modelos estadísticos no pueden hacer frente a grandes conjuntos de datos, es probable que acumule respuestas irrelevantes o confusas. Considere editar su pregunta para eliminar estas tergiversaciones.
whuber

Sin embargo, aún no tuvo en cuenta lo que dijo @whuber. Las premisas están mal. No es cierto que "la mayoría de los modelos estadísticos no pueden manejar grandes conjuntos de datos", por lo que no obtendrá una respuesta útil a su pregunta. Tampoco es cierto que pueda usar información sobre todas las personas en un país en un momento dado (supongo que esto es lo que quiere decir con "población").
pkofod

2
ID es, si este es un análisis sensato, no una sola variable continua. La ID es una variable categórica porque las diferencias entre los individuos no se corresponden con la asignación numérica arbitraria que reciben. Eso significa que tiene 1 variable para cada individuo en el análisis. Potencialmente millones.
AdamO

gracias por el comentario, pero aún me confundo por qué no puedo usar información sobre todas las personas en un país en un momento dado (este es un ejemplo artificial, así que supongamos que tengo esa información).
user2926523

Respuestas:


12

Hay dos tipos de problemas que puede encontrar:

1) Problemas informáticos porque el conjunto de datos es demasiado grande. En estos días, unos pocos millones de filas con 6 columnas no son tan grandes. Pero, dependiendo de su programa, su computadora, su cantidad de RAM y probablemente otras cosas, podría atascarse.

2) Problemas estadísticos. Aquí, un problema como el que usted discute tendrá un "problema" que conozco: incluso los efectos pequeños serán muy significativos. Esto no es realmente un problema con la regresión, es un problema con los valores de p. Es mejor observar los tamaños de los efectos (parámetros de regresión).

3) Otro tipo de problema con su modelo no se debe al número de filas, sino a la naturaleza de la variable de respuesta (gasto mensual). Aunque la regresión OLS no hace suposiciones sobre la distribución de la respuesta (solo sobre el error), sin embargo, los modelos con dinero como variable dependiente a menudo tienen errores no normales. Además, a menudo tiene sentido, sustantivamente, tomar el registro de la respuesta. Si esto es así en su caso depende exactamente de lo que está tratando de hacer.


Hola Peter, ¿puedes explicar con más detalle por qué la variable de respuesta (es decir, el gasto mensual) debe tomarse como registro? ¿Qué beneficio podemos obtener de esto?
shihpeng

1
Por supuesto. Los valores monetarios a menudo deben registrarse. Pensamos en el dinero en términos multiplicativos, no aditivos. Si pasas de gastar 1010, eso no es nada. Si vas de 20, eso es enorme. 1000to10to
Peter Flom

2

Lo importante es la cantidad de individuos (filas) en comparación con la cantidad de coeficientes que necesita estimar para el modelo que desea ajustar. Las reglas generales típicas sugieren como mínimo unas 20 observaciones por coeficiente, por lo que debería poder estimar hasta 150,000 coeficientes, seguramente más que adecuados para sus cuatro predictores.

De hecho, tiene una oportunidad, no un problema, en este caso: ajustar un modelo bastante complejo que incluye relaciones no lineales de la respuesta a los predictores e interacciones entre predictores; que puede predecir la respuesta mucho mejor que una simple en la que se supone que las relaciones de la respuesta a los predictores son lineales y aditivas.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.