Estoy entrenando una regresión logística para predecir qué corredores tienen más probabilidades de terminar una agotadora carrera de resistencia.
Muy pocos corredores completan esta carrera, por lo que tengo un grave desequilibrio de clase y una pequeña muestra de éxitos (tal vez unas pocas docenas). Siento que podría obtener una buena "señal" de las docenas de corredores que casi lo lograron. (Mis datos de entrenamiento no solo se completaron, sino también hasta qué punto los que no terminaron realmente lo lograron). Así que me pregunto si es una idea terrible o no incluir algún "crédito parcial". Se me ocurrieron un par de funciones para crédito parcial, la rampa y la curva logística, que podrían recibir varios parámetros.
La única diferencia con la regresión sería que usaría datos de entrenamiento para predecir el resultado continuo modificado en lugar de un resultado binario. Comparando sus predicciones en un conjunto de prueba (usando la respuesta binaria) obtuve resultados bastante poco concluyentes: el crédito parcial logístico pareció mejorar marginalmente R-cuadrado, AUC, P / R, pero este fue solo un intento en un caso de uso usando un pequeña muestra
No me importa que las predicciones tengan un sesgo uniforme hacia la finalización; lo que me importa es clasificar correctamente a los concursantes según su probabilidad de terminar, o tal vez incluso estimar su probabilidad relativa de terminar.
Entiendo que la regresión logística supone una relación lineal entre los predictores y el registro de la razón de posibilidades, y obviamente esta relación no tiene una interpretación real si empiezo a jugar con los resultados. Estoy seguro de que esto no es inteligente desde un punto de vista teórico, pero podría ayudar a obtener alguna señal adicional y evitar el sobreajuste. (Tengo casi tantos predictores como éxitos, por lo que puede ser útil utilizar las relaciones con finalización parcial como un control de las relaciones con finalización completa).
¿Se utiliza este enfoque en la práctica responsable?
De cualquier manera, ¿existen otros tipos de modelos (tal vez algo que explícitamente modele la tasa de riesgo, aplicada a distancia en lugar de tiempo) que podrían ser más adecuados para este tipo de análisis?