Estoy tratando de desarrollar un modelo predictivo utilizando datos clínicos de alta dimensión, incluidos los valores de laboratorio. El espacio de datos es escaso con 5k muestras y 200 variables. La idea es clasificar las variables usando un método de selección de características (IG, RF, etc.) y usar características de alto rango para desarrollar un modelo predictivo.
Si bien la selección de funciones va bien con un enfoque Naïve Bayes, ahora estoy teniendo problemas para implementar un modelo predictivo debido a la falta de datos (NA) en mi espacio variable. ¿Existe algún algoritmo de aprendizaje automático que pueda manejar cuidadosamente las muestras con datos faltantes?