¿Cómo se seleccionan las variables en un modelo de regresión?

El enfoque tradicional para la selección de variables es encontrar variables que contribuyan más a predecir una nueva respuesta. Recientemente me enteré de una alternativa a esto. En las variables de modelado que determinan el efecto de un tratamiento, como por ejemplo en un ensayo clínico de un producto farmacéutico, se dice que la variable está interactuando cualitativamentecon tratamiento si, dejando otras cosas fijas, un cambio en esa variable puede crear un cambio en el que el tratamiento es más efectivo. Estas variables no siempre son fuertes predictores del efecto, pero pueden ser importantes para un médico al decidir el tratamiento para pacientes individuales. En su tesis doctoral, Lacey Gunter desarrolló un método para seleccionar estas variables que interactúan cualitativamente que los algoritmos que basan la selección en la predicción podrían pasar por alto. Recientemente he trabajado con ella para extender estos métodos a otros modelos, incluyendo la regresión logística y los modelos de regresión de riesgos proporcionales de Cox.

Tengo dos preguntas:

¿Qué opinas sobre el valor de estos nuevos métodos?
En el caso de los métodos tradicionales, ¿qué enfoque prefiere? Criterios como AIC, BIC, Mallows Cp, pruebas F para ingresar o descartar variables en pasos, hacia adelante y hacia atrás ...

El primer documento sobre esto salió en Gunter, L., Zhu, J y Murphy, SA (2009). Selección variable para interacciones cualitativas . Metodología estadística doi: 10, 1016 / j.stamet.2009.05.003.

El siguiente artículo apareció en Gunter, L., Zhu, J. y Murphy, SA (2011). Selección variable de interacciones cualitativas en medicina personalizada mientras se controla la tasa de error familiar . Revista de estadísticas biofarmacéuticas 21, 1063-1078.

El siguiente apareció en un número especial sobre selección de variables Gunter, L., Chernick, MR y Sun, J. (2011). Un método simple para la selección de variables en regresión con respecto a la selección de tratamiento . Pakistan Journal of Statistics and Operations Research 7: 363-380.

Puede encontrar los documentos en los sitios web de las revistas. Puede que tenga que comprar el artículo. Podría tener los archivos pdf de estos artículos. Lacey y yo acabamos de completar una monografía sobre este tema que se publicará como SpringerBrief a finales de este año.

regression feature-selection

— Michael R. Chernick
fuente

Tal vez no estoy siguiendo: si hay una razón a priori para sospechar la modificación del efecto, entonces, ¿cómo difieren estos nuevos métodos, por ejemplo, de incluir términos de interacción en la lista de variables "candidatas" para la selección del modelo?

— Macro

(1) Una o más líneas parecen haberse perdido en esta pregunta. Supongo que podría continuar "paso a paso, hacia adelante y hacia atrás ..." (2) La identificación del modelo y la selección de variables se han discutido ampliamente aquí. Por ejemplo, la búsqueda en + modelo + variable + selección presenta 145 hilos en este punto. Limitar esa búsqueda probablemente responderá a la segunda pregunta. (3) Para facilitar las respuestas a la primera pregunta, ¿podría proporcionar un enlace o referencias explícitas a esta investigación?

— whuber

Se trata de incluir una variable que interactúa con el tratamiento. Pero es una interacción cualitativa, no solo una interacción simple. Para interactuar las dos líneas no deben ser paralelas. Para interactuar cualitativamente, deben cruzar en el intervalo en el que se define la variable. Entonces, la idea es encontrar una variable que interactúe cualitativamente. Esto es diferente de elegir variables y términos de interacción que mejoran el ajuste o la predicción.

— Michael R. Chernick

Gracias por aprovechar la oportunidad para responder, Michael. Quizás un punto clave para mencionar es que este sitio no es un sitio de discusión, sino más bien un sitio de preguntas y respuestas. Con eso vienen algunas modalidades de comunicación ligeramente diferentes. Las preguntas frecuentes cubren esto con cierto detalle. Ocasionalmente, el enhebrado puede perderse un poco, pero en realidad es sorprendentemente raro, una vez que uno obtiene un poco más de experiencia con el esquema general de las cosas. Salud.

— cardenal

Michael, sí, el sistema SE tarda un poco en acostumbrarse y no es perfecto. Pero tiene sentido y es consistente. Algo que buscamos es la mejora continua : a diferencia de los servidores de listas y los tableros de anuncios, las preguntas (y las respuestas) pueden modificarse; Esto se espera. En última instancia, nos gustaría que un hilo comience con una sola pregunta completa y bien planteada que se mantenga por sí sola sin referencia al hilo de comentarios; entonces debe continuar con una o más respuestas canónicas bien escritas y bien atribuidas. Con este ideal en mente, las sugerencias de @ cardinal pueden tener más sentido para usted.

— whuber

Ver Gelman y Hill, Análisis de datos usando regresión y modelo multinivel / jerárquico, página 69, tienen una sección sobre la selección del modelo. Ella está utilizando un enfoque basado en preguntas que está completamente bien, pero en su trabajo necesita justificar por qué incluyó lo que hizo en el modelo. Al igual que usted dijo: "Estas variables no siempre son fuertes predictores del efecto, pero pueden ser importantes para un médico al decidir el tratamiento para pacientes individuales". entonces, mientras justifique por qué estos predictores deberían incluirse, entonces está bien. Para mí personalmente prefiero estos métodos. Entonces aquí viene mi respuesta a 2.
Paso a paso, hacia adelante y hacia atrás, creo que son cajas negras. Cuando ejecuta un modelo a través de los tres, no llegará a los mismos predictores. Por lo tanto, en términos de cuál usar, no tendría una respuesta clara. Se puede usar AIC o BIC para comparar modelos.

— Lauren Goodwin
fuente