¿Por qué un modelo estadístico se sobreajusta si se le da un gran conjunto de datos?

Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación):

id, age, income, gender, job category, monthly spend

en el cual monthly spendestá la variable de respuesta. Pero el conjunto de datos de entrenamiento contiene aproximadamente 3 millones de filas, y el conjunto de datos (que contiene id, age, income, gender, job categorypero sin variable de respuesta) para predecir contiene 1 millón de filas. Mi pregunta es: ¿hay algún problema potencial si arrojo demasiadas filas (3 millones en este caso) en un modelo estadístico? Entiendo que los gastos computacionales son una de las preocupaciones, ¿hay alguna otra preocupación? ¿Hay libros / documentos que expliquen completamente el problema del tamaño del conjunto de datos?

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

— usuario2926523
fuente

Tener demasiadas filas no da como resultado un sobreajuste. Tener demasiadas columnas sí.

— Peter Flom

Debido a que esta pregunta se basa en múltiples suposiciones falsas: que las personas son reacias a usar muchos casos para los análisis y que la mayoría de los modelos estadísticos no pueden hacer frente a grandes conjuntos de datos, es probable que acumule respuestas irrelevantes o confusas. Considere editar su pregunta para eliminar estas tergiversaciones.

— whuber

Sin embargo, aún no tuvo en cuenta lo que dijo @whuber. Las premisas están mal. No es cierto que "la mayoría de los modelos estadísticos no pueden manejar grandes conjuntos de datos", por lo que no obtendrá una respuesta útil a su pregunta. Tampoco es cierto que pueda usar información sobre todas las personas en un país en un momento dado (supongo que esto es lo que quiere decir con "población").

— pkofod

ID es, si este es un análisis sensato, no una sola variable continua. La ID es una variable categórica porque las diferencias entre los individuos no se corresponden con la asignación numérica arbitraria que reciben. Eso significa que tiene 1 variable para cada individuo en el análisis. Potencialmente millones.

— AdamO

gracias por el comentario, pero aún me confundo por qué no puedo usar información sobre todas las personas en un país en un momento dado (este es un ejemplo artificial, así que supongamos que tengo esa información).

— user2926523

Respuestas:

Hay dos tipos de problemas que puede encontrar:

1) Problemas informáticos porque el conjunto de datos es demasiado grande. En estos días, unos pocos millones de filas con 6 columnas no son tan grandes. Pero, dependiendo de su programa, su computadora, su cantidad de RAM y probablemente otras cosas, podría atascarse.

2) Problemas estadísticos. Aquí, un problema como el que usted discute tendrá un "problema" que conozco: incluso los efectos pequeños serán muy significativos. Esto no es realmente un problema con la regresión, es un problema con los valores de p. Es mejor observar los tamaños de los efectos (parámetros de regresión).

3) Otro tipo de problema con su modelo no se debe al número de filas, sino a la naturaleza de la variable de respuesta (gasto mensual). Aunque la regresión OLS no hace suposiciones sobre la distribución de la respuesta (solo sobre el error), sin embargo, los modelos con dinero como variable dependiente a menudo tienen errores no normales. Además, a menudo tiene sentido, sustantivamente, tomar el registro de la respuesta. Si esto es así en su caso depende exactamente de lo que está tratando de hacer.

— Peter Flom
fuente

Hola Peter, ¿puedes explicar con más detalle por qué la variable de respuesta (es decir, el gasto mensual) debe tomarse como registro? ¿Qué beneficio podemos obtener de esto?

— shihpeng

Por supuesto. Los valores monetarios a menudo deben registrarse. Pensamos en el dinero en términos multiplicativos, no aditivos. Si pasas de gastar 1010, eso no es nada. Si vas de 20, eso es enorme.

1000 t o

$1000 to$

10 t o

$10 to$

— Peter Flom

Lo importante es la cantidad de individuos (filas) en comparación con la cantidad de coeficientes que necesita estimar para el modelo que desea ajustar. Las reglas generales típicas sugieren como mínimo unas 20 observaciones por coeficiente, por lo que debería poder estimar hasta 150,000 coeficientes, seguramente más que adecuados para sus cuatro predictores.

De hecho, tiene una oportunidad, no un problema, en este caso: ajustar un modelo bastante complejo que incluye relaciones no lineales de la respuesta a los predictores e interacciones entre predictores; que puede predecir la respuesta mucho mejor que una simple en la que se supone que las relaciones de la respuesta a los predictores son lineales y aditivas.

— Scortchi - Restablece a Monica
fuente