He creado un clasificador de regresión logística que es muy preciso en mis datos. Ahora quiero entender mejor por qué funciona tan bien. Específicamente, me gustaría clasificar qué características están haciendo la mayor contribución (qué características son las más importantes) e, idealmente, cuantificar cuánto contribuye cada característica a la precisión del modelo general (o algo en este sentido). ¿Cómo hago esto?
Mi primer pensamiento fue clasificarlos en función de su coeficiente, pero sospecho que esto no puede ser correcto. Si tengo dos características que son igualmente útiles, pero la extensión de la primera es diez veces mayor que la segunda, entonces esperaría que la primera reciba un coeficiente más bajo que la segunda. ¿Existe una forma más razonable de evaluar la importancia de la característica?
Tenga en cuenta que no estoy tratando de entender cuánto afecta un pequeño cambio en la función a la probabilidad del resultado. Más bien, estoy tratando de entender qué tan valiosa es cada característica, en términos de hacer que el clasificador sea preciso. Además, mi objetivo no es tanto realizar una selección de características o construir un modelo con menos características, sino tratar de proporcionar alguna "explicabilidad" para el modelo aprendido, de modo que el clasificador no sea solo un recuadro negro opaco.