Me he convertido en una especie de nihilista cuando se trata de clasificaciones de importancia variable (en el contexto de modelos multivariados de todo tipo).
A menudo, en el curso de mi trabajo, se me pide que ayude a otro equipo a producir una clasificación de importancia variable o que produzca una clasificación de importancia variable de mi propio trabajo. En respuesta a estas solicitudes, hago las siguientes preguntas
¿Para qué le gustaría este ranking de importancia variable? ¿Qué esperas aprender de él? ¿Qué tipo de decisiones te gustaría tomar al usarlo?
Las respuestas que recibo casi siempre se dividen en una de dos categorías.
- Me gustaría saber la importancia de las diferentes variables en mi modelo para predecir la respuesta.
- Me gustaría usarlo para la selección de funciones, eliminando variables de baja importancia.
La primera respuesta es tautológica (me gustaría una clasificación de importancia variable porque me gustaría una clasificación de importancia variable). Debo suponer que estas clasificaciones satisfacen una necesidad psicológica al consumir el resultado de un modelo multivariante. Me cuesta entender esto, ya que clasificar las variables "importancia" individualmente parece rechazar implícitamente la naturaleza multidimensional del modelo en cuestión.
La segunda respuesta se reduce esencialmente a una versión informal de selección hacia atrás , cuyos pecados estadísticos están bien documentados en otras partes de CrossValidated.
También lucho con la naturaleza mal definida de las clasificaciones de importancia. Parece haber poco acuerdo sobre qué concepto subyacente debe medir la clasificación, dándoles un sabor muy ad hoc. Hay muchas formas de asignar un puntaje o clasificación de importancia, y generalmente sufren inconvenientes y advertencias:
- Pueden depender mucho del algoritmo, como en las clasificaciones de importancia en bosques aleatorios y gbms.
- Pueden tener una varianza extremadamente alta, cambiando drásticamente con perturbaciones a los datos subyacentes.
- Pueden sufrir una gran correlación en los predictores de entrada.
Entonces, con todo lo dicho, mi pregunta es, ¿cuáles son algunos de los usos estadísticamente válidos de las clasificaciones de importancia variable, o cuál es un argumento convincente (ya sea para un estadístico o un laico) por la inutilidad de tal deseo? Estoy interesado tanto en argumentos teóricos generales como en estudios de casos, lo que sea más efectivo para hacer el punto.
glmnet
esté disponible?