Muchas veces he analizado un conjunto de datos en el que realmente no podría hacer ningún tipo de clasificación. Para ver si puedo obtener un clasificador, generalmente he usado los siguientes pasos:
- Genere diagramas de caja de etiqueta contra valores numéricos.
- Reduce la dimensionalidad a 2 o 3 para ver si las clases son separables, también probé LDA a veces.
- Intente encajar con fuerza los SVM y los bosques aleatorios y observe la importancia de las características para ver si las características tienen sentido o no.
- Intente cambiar el equilibrio de clases y técnicas, como submuestreo y sobremuestreo para verificar si el desequilibrio de clase podría ser un problema.
Hay muchos otros enfoques en los que puedo pensar, pero no lo he intentado. A veces sé que estas características no son buenas y no están relacionadas en absoluto con la etiqueta que intentamos predecir. Luego uso esa intuición comercial para finalizar el ejercicio, concluyendo que necesitamos mejores características o etiquetas totalmente diferentes.
Mi pregunta es cómo informa un científico de datos que la clasificación no se puede hacer con estas características. ¿Existe alguna forma estadística de informar esto o ajustar primero los datos en diferentes algoritmos y observar la métrica de validación es la mejor opción?