En mi opinión, la respuesta de Gungs es una crítica de la idea de comparar la fuerza relativa de diferentes variables en un análisis empírico sin tener un modelo en mente cómo interactúan esas variables o cómo se ve la distribución conjunta (verdadera) de todas las variables relevantes. Piense en el ejemplo de la importancia de las menciones de altura y peso de los atletas. Nadie puede probar que, por ejemplo, una regresión lineal aditiva es una buena aproximación de la función de expectativa condicional o, en otras palabras, la altura y el peso pueden ser importantes de una manera muy complicada para el rendimiento del atleta. Puede ejecutar una regresión lineal que incluya ambas variables y comparar los coeficientes estandarizados, pero no sabe si los resultados realmente tienen sentido.
Para dar un ejemplo de Mickey Mouse, mirando al escalador deportivo (mi deporte favorito), aquí hay una lista de los mejores escaladores masculinos de acuerdo con algunas medidas de rendimiento tomadas del sitio 8a.nu con información sobre su altura, peso y año de nacimiento (solo aquellos con información disponible). Estandarizamos todas las variables de antemano para poder comparar directamente la asociación entre un cambio de desviación estándar en los predictores en un cambio de desviación estándar en la distribución del rendimiento. Excluyendo para la ilustración al número uno, Adam Ondra, quien es inusualmente alto, obtenemos el siguiente resultado. :
rm(list=ls(all=TRUE))
# Show only two decimal places
options(digits=2)
# Read Data and attach
climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
head(climber)
# Drop best climber Adam Ondra who is very tall (kind of outlier)
climber<-subset(climber,name!="Adam Ondra")
# Standardize Predictors
climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
# Simple Regression, excluding intercept because of the standardization
lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std
-0.16 -0.25
Ignorando los errores estándar, etc., parece que el peso es más importante que la altura o igualmente importante. Pero se podría argumentar que los escaladores han mejorado con el tiempo. ¿Quizás deberíamos controlar los efectos de la cohorte, por ejemplo, oportunidades de capacitación a través de mejores instalaciones en interiores? ¡Incluyamos el año de nacimiento!
# Add year of birth
lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std born_std
-0.293 -0.076 0.256
Ahora, descubrimos que ser joven y pequeño es más importante que ser delgado. ¿Pero ahora otra persona podría argumentar que esto es válido solo para los mejores escaladores? Podría tener sentido comparar los coeficientes estandarizados en toda la distribución del rendimiento (por ejemplo, a través de la regresión cuantil). Y, por supuesto, puede ser diferente para las escaladoras que son mucho más pequeñas y delgadas. Nadie lo sabe.
Este es un ejemplo de Mickey Mouse de lo que creo que se refiere al gung. No soy tan escéptico, creo que puede tener sentido mirar los coeficientes estandarizados, si crees que has especificado el modelo correcto o que la separabilidad aditiva tiene sentido. Pero esto depende tan frecuentemente de la pregunta en cuestión.
En cuanto a las otras preguntas:
¿Es esto equivalente a decir que no deberíamos usar coeficientes estandarizados para evaluar la importancia porque podríamos haber muestreado aleatoriamente un rango restringido de valores X1 y un rango más amplio de valores X2? Entonces, cuando estandarizamos este problema no ha desaparecido, y terminamos pensando espuriosamente que X1 es un predictor más débil que X2.
Sí, creo que se podría decir así. El "rango más amplio de valores de X2" podría surgir a través del sesgo de variable omitido al incluir variables importantes correlacionadas con X1 pero omitiendo aquellas que están correlacionadas con X2.
¿Por qué desaparece el problema si la verdadera r es exactamente 0?
El sesgo variable omitido es nuevamente un buen ejemplo de por qué esto se cumple. Las variables omitidas solo causan problemas (o sesgos) si están correlacionadas con los predictores, así como con el resultado, consulte la fórmula en la entrada de Wikipedia. Si la verdadera es exactamente 0, la variable no está correlacionada con el resultado y no hay problema (incluso si está correlacionada con los predictores).r
¿Cómo otros métodos (por ejemplo, mirar los coeficientes semipaciales) eliminan este problema?
Otros modelos tienen, como los coeficientes semipaciales, enfrentan el mismo problema. Si su conjunto de datos es lo suficientemente grande, puede hacer, por ejemplo, una regresión no paramétrica e intentar estimar la distribución conjunta completa sin suposiciones sobre la forma funcional (por ejemplo, la separabilidad aditiva) para justificar lo que está haciendo, pero esto nunca es una prueba.
En resumen, creo que puede tener sentido comparar coeficientes estandarizados o semipaciales, pero depende y usted tiene que razonarse a sí mismo oa los demás por qué cree que tiene sentido.