Sé que los modelos estadísticos tradicionales como la regresión de riesgos proporcionales de Cox y algunos modelos de Kaplan-Meier se pueden usar para predecir días hasta la próxima ocurrencia de un evento, por ejemplo, falla, etc., es decir, análisis de supervivencia
Preguntas
- ¿Cómo se puede usar la versión de regresión de modelos de aprendizaje automático como GBM, redes neuronales, etc. para predecir días hasta la ocurrencia de un evento?
- ¿Creo que usar días hasta que ocurra como variable objetivo y simplemente ejecutar un modelo de regresión no funcionará? ¿Por qué no funciona y cómo se puede solucionar?
- ¿Podemos convertir el problema del análisis de supervivencia en una clasificación y luego obtener probabilidades de supervivencia? Si entonces, ¿cómo crear la variable objetivo binaria?
- ¿Cuáles son los pros y los contras del enfoque de aprendizaje automático frente a la regresión de riesgos proporcionales de Cox y los modelos de Kaplan-Meier, etc.?
Imagine que los datos de entrada de muestra tienen el siguiente formato
Nota:
- El sensor hace ping a los datos a intervalos de 10 minutos, pero a veces los datos pueden faltar debido a un problema de red, etc., como lo representa la fila con NA.
- var1, var2, var3 son los predictores, variables explicativas.
- failure_flag indica si la máquina falló o no.
- Tenemos datos de los últimos 6 meses en cada intervalo de 10 minutos para cada ID de máquina
EDITAR:
La predicción de salida esperada debe estar en el siguiente formato
Nota: Quiero predecir la probabilidad de falla para cada una de las máquinas durante los próximos 30 días a nivel diario.
failure_flag
.