Estoy construyendo un modelo predictivo que pronostica la probabilidad de éxito de un estudiante al final de un período. Me interesa específicamente si el estudiante tiene éxito o no, donde el éxito generalmente se define como completar el curso y lograr el 70% o más puntos del total de puntos posibles.
Cuando implemente el modelo, la estimación de la probabilidad de éxito debe actualizarse a lo largo del tiempo a medida que haya más información disponible, idealmente inmediatamente después de que algo ocurra, como cuando un estudiante envía una tarea u obtiene una calificación en una. Esta actualización me suena un poco bayesiana, pero dado mi entrenamiento en estadísticas educativas, está un poco fuera de mi zona de confort.
Hasta ahora he estado usando regresión logística (en realidad lazo) con un conjunto de datos históricos que contiene instantáneas basadas en la semana. Este conjunto de datos tiene observaciones correlacionadas, ya que cada estudiante tiene observaciones ; Las observaciones para un estudiante están correlacionadas. No estoy modelando específicamente la correlación dentro de las observaciones semanales de un estudiante en particular. Creo que solo necesitaría considerar eso en un entorno de inferencia ya que los errores estándar serían demasiado pequeños. Creo, pero no estoy seguro de esto, que el único problema que surge de las observaciones correlacionadas es que debo tener cuidado cuando valido de forma cruzada para mantener las observaciones agrupadas en un subconjunto de datos, de modo que no obtenga tasas de error fuera de la muestra artificialmente bajas basadas en hacer predicciones sobre una persona que el modelo ya ha visto.
Estoy usando el paquete glmnet de R para hacer un lazo con un modelo logístico para generar una probabilidad de éxito / fracaso y elegir automáticamente predictores para un curso en particular. He estado usando la variable de la semana como factor, he interactuado con todos los demás predictores. No creo que esto difiera en general de solo estimar modelos individuales basados en la semana, excepto que da una idea de cómo puede haber algún modelo común que se mantenga a lo largo del plazo que se ajusta a través de varios factores de ajuste de riesgo en diferentes semanas.
Mi pregunta principal es esta: ¿Existe una mejor manera de actualizar las probabilidades de clasificación a lo largo del tiempo en lugar de simplemente dividir el conjunto de datos en instantáneas semanales (u otras basadas en intervalos), introduciendo una variable de factor de período de tiempo que interactúa con cada otra característica, y utilizando características acumulativas (puntos acumulados ganados, días acumulados en clase, etc.)?
Mi segunda pregunta es: ¿me estoy perdiendo algo crítico aquí sobre el modelado predictivo con observaciones correlacionadas?
Mi tercera pregunta es: ¿cómo puedo generalizar esto a una actualización en tiempo real, dado que estoy haciendo instantáneas semanales? Estoy planeando simplemente conectar variables para el intervalo semanal actual, pero esto me parece muy difícil.
Para su información, estoy entrenado en estadísticas educativas aplicadas, pero tengo experiencia en estadísticas matemáticas de hace mucho tiempo. Puedo hacer algo más sofisticado si tiene sentido, pero necesito que me lo expliquen en términos relativamente accesibles.