Mi proyecto actual puede requerir que construya un modelo para predecir el comportamiento de un determinado grupo de personas. el conjunto de datos de entrenamiento contiene solo 6 variables (la identificación es solo para fines de identificación):
id, age, income, gender, job category, monthly spend
en el cual monthly spend
está la variable de respuesta. Pero el conjunto de datos de entrenamiento contiene aproximadamente 3 millones de filas, y el conjunto de datos (que contiene id, age, income, gender, job category
pero sin variable de respuesta) para predecir contiene 1 millón de filas. Mi pregunta es: ¿hay algún problema potencial si arrojo demasiadas filas (3 millones en este caso) en un modelo estadístico? Entiendo que los gastos computacionales son una de las preocupaciones, ¿hay alguna otra preocupación? ¿Hay libros / documentos que expliquen completamente el problema del tamaño del conjunto de datos?