¿Por qué es necesaria la selección de variables?

Los procedimientos comunes de selección de variables basadas en datos (por ejemplo, hacia adelante, hacia atrás, paso a paso, todos los subconjuntos) tienden a generar modelos con propiedades indeseables, que incluyen:

Coeficientes sesgados lejos de cero.
Errores estándar que son demasiado pequeños e intervalos de confianza que son demasiado estrechos.
Pruebe las estadísticas y los valores p que no tienen el significado anunciado.
Estimaciones de ajuste del modelo que son demasiado optimistas.
Términos incluidos que pueden no tener sentido (p. Ej., Exclusión de términos de orden inferior).

Sin embargo, los procedimientos de selección variable persisten. Dados los problemas con la selección de variables, ¿por qué son necesarios estos procedimientos? ¿Qué motiva su uso?

Algunas propuestas para comenzar la discusión ...

¿El deseo de coeficientes de regresión interpretables? (¿Desorientado en un modelo con muchas vías intravenosas?)
¿Eliminar la varianza introducida por variables irrelevantes?
¿Eliminar las covarianzas / redundancias innecesarias entre las variables independientes?
Reduzca el número de estimaciones de parámetros (problemas de potencia, tamaño de muestra)

¿Hay otros? ¿Los problemas abordados por las técnicas de selección variable son más o menos importantes que los problemas que presentan los procedimientos de selección variable? ¿Cuándo deberían ser utilizados? ¿Cuándo no deberían ser utilizados?

modeling feature-selection

— Brett
fuente

En mi opinión, para discutir un problema claramente, primero debemos especificarlo de alguna manera buena y luego formularlo en una forma matemática apropiada para que podamos tener un marco bajo el cual el problema se discuta claramente. Para el problema de selección variable para, por ejemplo, modelos de regresión lineal. Parece razonable arreglar primero un modelo y estudiar (i) las ventajas / desventajas (por ejemplo, mejora / empeoramiento en la estimación o predicción) de la selección de variables. (ii) las ventajas del procedimiento de selección variable en comparación con la estimación de LS?

Respuestas:

La selección variable (sin penalización) solo empeora las cosas. La selección de variables casi no tiene posibilidades de encontrar las variables "correctas" y da como resultado grandes exageraciones de los efectos de las variables restantes y una gran subestimación de los errores estándar. Es un error creer que la selección de variables realizada de la manera habitual ayuda a evitar el problema "p grande n pequeña". La conclusión es que el modelo final es engañoso en todos los sentidos. Esto está relacionado con una declaración sorprendente que leí en un artículo de epidemiología: "No teníamos un tamaño de muestra adecuado para desarrollar un modelo multivariable, por lo que realizamos todas las pruebas posibles para tablas de 2x2".

Cada vez que el conjunto de datos en cuestión se usa para eliminar variables, mientras se usa Y para tomar la decisión, todas las cantidades estadísticas se distorsionarán. La selección de variables típica es un espejismo.

Editar : (Copiando comentarios desde abajo ocultos por el pliegue)

$L_2$ $L_1$ $L_1$ $L_2$ $Y$

— Frank Harrell
fuente

Creo que esta respuesta mejoraría al proporcionar algunos consejos sobre cómo proceder. La respuesta hace declaraciones muy amplias y definitivas (muchas de las cuales generalmente estoy de acuerdo) sin hacer referencia a los recursos que respaldarían las afirmaciones. Ciertamente, la penalización tampoco es una panacea, y hay muchas opciones para tomar si se sigue ese camino.

— cardenal

Vea arriba donde proporcioné más información. La forma más breve de plantear el problema es que una razón principal por la que una variable se "selecciona" es porque su efecto fue sobreestimado.

— Frank Harrell

L_{2}

$L_2$

L_{1}

$L_1$

L_{2}

$L_2$

L_{2}

$L_{2}$

L_{2}

$L_{2}$

L_{1}

$L_{1}$

p

$p$

n

$n$

L_{2}

$L_2$

En primer lugar, las desventajas que mencionó son los efectos de la selección de funciones incorrecta , es decir, sobreajustado, inacabado o sobreimpulso.

$e^Y$ $Y$ $Y$ $e^Y$

Todos los niveles relevantes dan una idea de lo que realmente impulsa el proceso dado, así que tenga un valor explicativo. El nivel óptimo mínimo (por diseño) proporciona un modelo tan poco equipado que trabaja en datos tan despejados como sea posible.

El FS del mundo real solo quiere lograr uno de esos objetivos (generalmente el último).

Supongo que se refiere a eliminar variables sin utilizar los datos disponibles. No puede usar el conjunto de datos disponible para hacer esto. Esto sería poco confiable y distorsionaría la inferencia estadística.

— Frank Harrell

Como escribí, esto es solo una base teórica del problema (proveniente de redes bayesianas). La forma exacta de darse cuenta de esto es obviamente imposible, y ciertamente estoy de acuerdo en que el modelado estadístico ha sufrido mucho por el uso sin sentido de RFE y cosas similares; sin embargo, el aprendizaje automático tiene algunos algoritmos heurísticos que ciertamente no son desesperados (es decir, hacer selecciones y modelos estables) que demuestren no estar sobreajustados en pruebas justas).

¿Qué es RFE ???????

— kjetil b halvorsen

@kjetilbhalvorsen Eliminación recursiva de funciones

@mbq Thx por tu interesante respuesta! ¿Puede proporcionar alguna referencia (libros, documentos, etc.)? Agradezco tu respuesta!

— Kare

La selección de variables se debe necesariamente a que la mayoría de los modelos no manejan bien una gran cantidad de variables irrelevantes. Estas variables solo introducirán ruido en su modelo, o peor aún, harán que se ajuste demasiado. Es una buena idea excluir estas variables del análisis.

Además, no puede incluir todas las variables que existen en cada análisis, porque hay un número infinito de ellas. En algún momento tienes que dibujar la línea, y es bueno hacerlo de manera rigurosa. De ahí toda la discusión sobre la selección de variables.

La mayoría de los problemas con la selección de variables pueden abordarse mediante validación cruzada o mediante el uso de un modelo con penalización incorporada y selección de características (como la red elástica para modelos lineales).

Si está interesado en algunos resultados empíricos relacionados con múltiples variables que causan un ajuste excesivo, consulte los resultados de la competencia Don't Overfit en Kaggle.

— Zach
fuente

Creo que el primer párrafo contiene un malentendido significativo del problema. La selección de variables no ayuda con esos problemas de ninguna manera, solo los oculta. La selección variable produce problemas tremendos de sobreajuste, aunque, como mencionó más adelante, hay algunas formas de penalizarnos honestamente por el daño causado por la selección variable.

— Frank Harrell

@ Frank Harrell: ¿cómo decides qué variables excluir de un modelo?

— Zach

(1) Usar el conocimiento de la materia antes de mirar el conjunto de datos; (2) Usar análisis de redundancia / reducción de datos cegados a Y; (3) Use un método que penalice adecuadamente el enorme problema de comparación múltiple causado por la selección de funciones (consulte en otra parte de esta página).

— Frank Harrell