La reducción de la dimensionalidad a través de algo como PCA sería útil para tener una idea de la cantidad de dimensiones que son críticas para representar sus datos.
Para verificar instancias mal clasificadas, puede hacer una agrupación rudimentaria de k-means de sus datos para tener una idea de qué tan bien sus datos sin procesar se ajustarían a las categorías propuestas. Si bien no es automático, la visualización en esta etapa sería útil, ya que su cerebro visual es un clasificador poderoso en sí mismo.
En términos de datos que faltan por completo, las estadísticas ya tienen numerosas técnicas para lidiar con esa situación, incluida la imputación, tomar datos del conjunto existente u otro conjunto para llenar los vacíos.