Supongamos que quiero aprender un clasificador que toma un vector de números como entrada y le da una etiqueta de clase como salida. Mis datos de entrenamiento consisten en una gran cantidad de pares de entrada-salida.
Sin embargo, cuando vengo a probar algunos datos nuevos, estos datos generalmente solo están parcialmente completos. Por ejemplo, si el vector de entrada es de longitud 100, solo 30 de los elementos pueden tener valores, y el resto son "desconocidos".
Como ejemplo de esto, considere el reconocimiento de imágenes donde se sabe que parte de la imagen está ocluida. O considere la clasificación en un sentido general donde se sabe que parte de los datos está corrupta. En todos los casos, sé exactamente qué elementos en el vector de datos son las partes desconocidas.
Me pregunto cómo puedo aprender un clasificador que funcione para este tipo de datos. Simplemente podría establecer los elementos "desconocidos" en un número aleatorio, pero dado que a menudo hay más elementos desconocidos que conocidos, esto no parece una buena solución. O bien, podría cambiar aleatoriamente elementos en los datos de entrenamiento a "desconocidos" y entrenar con estos en lugar de los datos completos, pero esto podría requerir un muestreo exhaustivo de todas las combinaciones de elementos conocidos y desconocidos.
En particular, estoy pensando en las redes neuronales, pero estoy abierto a otros clasificadores.
¿Algunas ideas? ¡Gracias!