Los procedimientos comunes de selección de variables basadas en datos (por ejemplo, hacia adelante, hacia atrás, paso a paso, todos los subconjuntos) tienden a generar modelos con propiedades indeseables, que incluyen:
- Coeficientes sesgados lejos de cero.
- Errores estándar que son demasiado pequeños e intervalos de confianza que son demasiado estrechos.
- Pruebe las estadísticas y los valores p que no tienen el significado anunciado.
- Estimaciones de ajuste del modelo que son demasiado optimistas.
- Términos incluidos que pueden no tener sentido (p. Ej., Exclusión de términos de orden inferior).
Sin embargo, los procedimientos de selección variable persisten. Dados los problemas con la selección de variables, ¿por qué son necesarios estos procedimientos? ¿Qué motiva su uso?
Algunas propuestas para comenzar la discusión ...
- ¿El deseo de coeficientes de regresión interpretables? (¿Desorientado en un modelo con muchas vías intravenosas?)
- ¿Eliminar la varianza introducida por variables irrelevantes?
- ¿Eliminar las covarianzas / redundancias innecesarias entre las variables independientes?
- Reduzca el número de estimaciones de parámetros (problemas de potencia, tamaño de muestra)
¿Hay otros? ¿Los problemas abordados por las técnicas de selección variable son más o menos importantes que los problemas que presentan los procedimientos de selección variable? ¿Cuándo deberían ser utilizados? ¿Cuándo no deberían ser utilizados?