He estado buscando varios hilos aquí, pero no creo que mi pregunta exacta sea respondida.
Tengo un conjunto de datos de ~ 50,000 estudiantes y su tiempo de deserción. Voy a realizar una regresión de riesgos proporcionales con una gran cantidad de posibles covariables. También voy a hacer una regresión logística en cuanto a la deserción / permanencia. El objetivo principal será la predicción para nuevas cohortes de estudiantes, pero no tenemos ninguna razón para creer que variarán mucho de la cohorte del año pasado.
Por lo general, no tengo ese lujo de datos y hago ajustes de modelos con algún tipo de penalización, pero esta vez pensé dividir el entrenamiento internacional y los conjuntos de datos de prueba y luego hacer la selección variable en el conjunto de entrenamiento; luego usando el conjunto de datos de prueba para estimar parámetros y capacidad predictiva.
¿Es esta una buena estrategia? Si no, ¿qué es mejor?
Las citas son bienvenidas pero no necesarias.