Estoy tratando de predecir el éxito o el fracaso de los estudiantes en función de algunas características con un modelo de regresión logística. Para mejorar el rendimiento del modelo, ya he pensado en dividir a los estudiantes en diferentes grupos basados en diferencias obvias y construir modelos separados para cada grupo. Pero creo que podría ser difícil identificar estos grupos mediante un examen, así que pensé en dividir a los estudiantes agrupando sus características. ¿Es esta una práctica común en la construcción de tales modelos? ¿Sugeriría que lo divida en grupos obvios (por ejemplo, estudiantes de primer trimestre versus estudiantes que regresan) y luego realice la agrupación en esos grupos, o agrupación desde el principio?
Para intentar aclarar:Lo que quiero decir es que estoy considerando usar un algoritmo de agrupamiento para dividir mi conjunto de entrenamiento para la regresión logística en grupos. Luego haría regresiones logísticas separadas para cada uno de esos grupos. Luego, cuando use la regresión logística para predecir el resultado para un estudiante, elegiría qué modelo usar según el grupo que mejor se adapte.
Quizás podría hacer lo mismo al incluir un identificador de grupo, por ejemplo, un 1 si el alumno regresa y un 0 si no.
Ahora me tiene pensando si podría ser ventajoso agrupar el conjunto de datos de entrenamiento y usar su etiqueta de agrupamiento como una característica en la regresión logística, en lugar de construir modelos de regresión logística separados para cada población.
Si es útil incluir un identificador de grupo para aquellos que regresan estudiantes vs. nuevos estudiantes, ¿podría ser útil también expandir la lista de grupos? La agrupación parece una forma natural de hacer esto.
Espero que esté claro ...