Nunca he encontrado ningún buen texto o ejemplos sobre cómo manejar datos 'inexistentes' para entradas a cualquier tipo de clasificador. He leído mucho sobre datos faltantes, pero qué se puede hacer sobre los datos que no pueden existir o no existen en relación con las entradas multivariadas. Entiendo que esta es una pregunta muy compleja y variará dependiendo de los métodos de entrenamiento utilizados ...
Por ejemplo, si trata de predecir el tiempo de vuelta para varios corredores con buenos datos precisos. Entre muchas entradas, las posibles variables entre muchas son:
- Variable de entrada: primer corredor (S / N)
- Variable de entrada: tiempo de vuelta anterior (0 - 500 segundos)
- Variable de entrada - Edad
- Variable de entrada - Altura. . . muchas más variables de entrada, etc.
& Predictor de salida - Tiempo de espera previsto (0 - 500 segundos)
Una 'variable faltante' para '2. Laptime anterior' podría calcularse de varias maneras pero '1. Corredor por primera vez 'siempre sería igual a N. Pero para 'DATOS NO EXISTENTES' para un corredor por primera vez (donde '1. Corredor por primera vez' = Y), ¿qué valor / tratamiento debo dar para '2? Laptime anterior '?
Por ejemplo, asignando '2. Laptime anterior '-99 o 0 puede sesgar la distribución dramáticamente y hacer que parezca que un nuevo corredor ha funcionado bien.
Mis métodos de entrenamiento actuales han estado usando regresión logística, SVM, NN y árboles de decisión