¿Cuándo eliminar un término de un modelo de regresión?


20

¿Alguien podría aconsejar si lo siguiente tiene sentido:

Estoy tratando con un modelo lineal ordinario con 4 predictores. Estoy en dos mentes si abandonar el término menos significativo. Su valor p es un poco más de 0.05. He argumentado a favor de dejarlo caer en estas líneas: multiplicar la estimación de este término por (por ejemplo) el rango intercuartil de los datos de la muestra para esta variable, da algún significado al efecto clínico que tiene mantener este término en el modelo general . Dado que este número es muy bajo, aproximadamente igual al rango de valores intradía típico que la variable puede tomar al medirlo en un entorno clínico, lo veo como no clínicamente significativo y, por lo tanto, podría descartarse para dar un modelo más parsimonioso, incluso aunque se caiga reduce el ajustado R2 un poco.


1
¿Por qué buscas un modelo más parsimonius?
Michael Bishop

3
¿No es la parsimonia algo bueno en sí mismo? A mi modo de ver, un modelo con variables que agregan poco o ningún poder explicativo en un sentido clínico, es peor que un modelo más pequeño sin esas variables, incluso si esas variables son significativas en un sentido estadístico
P Sellaz

Decidí escribir una respuesta: stats.stackexchange.com/questions/17624/… . Pero en resumen, no, no creo que la parsimonia sea algo bueno en sí mismo. A veces es útil por razones específicas.
Michael Bishop

1
Estoy de acuerdo con Michael Es mejor incluir variables sin capacidad explicativa aparente si se les dio la oportunidad de ser "significativas"; ya has gastado esos grados de libertad.
Frank Harrell

Tenga en cuenta que los predictores que no son regresores significativos aún pueden contribuir con cantidades distintas de cero a la varianza explicada en el caso de regresores correlacionados, al influir en otros regresores significativos. Especialmente con solo cuatro predictores, si los regresores están correlacionados, yo argumentaría a favor de mantener el no significativo en el modelo.
Torvon

Respuestas:


18

Nunca he entendido el deseo de parsimonia. La búsqueda de parsimonia destruye todos los aspectos de la inferencia estadística (sesgo de los coeficientes de regresión, errores estándar, intervalos de confianza, valores P). Una buena razón para mantener variables es que esto preserva la precisión de los intervalos de confianza y otras cantidades. Piénselo de esta manera: solo se han desarrollado dos estimadores imparciales de la varianza residual en la regresión múltiple ordinaria: (1) la estimación del modelo (grande) preespecificado, y (2) la estimación de un modelo reducido que sustituye a los grados generalizados de libertad (GDF) para grados de libertad de regresión aparente (reducida). GDF estará mucho más cerca del número de parámetros candidatos que del número de parámetros "significativos" finales.

Aquí hay otra forma de pensarlo. Suponga que está haciendo un ANOVA para comparar 5 tratamientos, obteniendo una prueba F de 4 df. Luego, por alguna razón, observa las diferencias por pares entre los tratamientos que usan pruebas t y decide combinar o eliminar algunos de los tratamientos (esto es lo mismo que hacer una selección por pasos usando P, AIC, BIC, Cp en las 4 variables ficticias). La prueba F resultante con 1, 2 o 3 df tendrá un error de tipo I inflado. La prueba F original con 4 df contenía un ajuste de multiplicidad perfecto.


3
+1 Parsimony es algo que a menudo solo tiene sentido en contextos muy específicos. No hay razón para jugar el juego de sesgo vs. precisión si tienes suficiente precisión para hacer ambas cosas.
Fomite

2
+1 para una gran respuesta. Pero, ¿qué pasa si tiene multicolinealidad y la eliminación de una variable la reduce? (Este no es el caso en la pregunta original, pero a menudo está en otros datos). ¿No es el modelo resultante a menudo superior en todo tipo de formas (reduce la varianza de los estimadores, los signos de coeficientes más propensos a reflejar la teoría subyacente, etc.)? Si aún utiliza los grados de libertad correctos (modelo original).
Peter Ellis

44
Todavía es mejor incluir ambas variables. El único precio que paga es el error estándar aumentado al estimar uno de los efectos de la variable ajustados para el otro. Las pruebas conjuntas de las dos variables colineales son muy poderosas ya que combinan fuerzas en lugar de competir entre sí. Además, si desea eliminar una variable, los datos no pueden indicarle cuál eliminar.
Frank Harrell

17

Estas respuestas sobre la selección de variables suponen que el costo de la observación de variables es 0.

Y eso no es cierto.

Si bien la cuestión de la selección de variables para un modelo dado puede o no involucrar la selección, las implicaciones para el comportamiento futuro sí implican la selección.

Considere el problema de predecir qué liniero universitario tendrá mejores resultados en la NFL. Eres un explorador Debe considerar qué cualidades de los linieros actuales en la NFL son más predictivas de su éxito. Mide 500 cantidades y comienza la tarea de seleccionar las cantidades que se necesitarán en el futuro.

Que deberias hacer ¿Deberías retener los 500? ¿Deben eliminarse algunos (signo astrológico, día de la semana de nacimiento)?

Esta es una pregunta importante, y no es académica. La observación de datos tiene un costo, y el marco de costo-efectividad sugiere que algunas variables NO DEBEN observarse en el futuro, ya que su valor es bajo.


44
+1: un punto importante e interesante. También revela que la pregunta está incompleta, porque no indica el propósito del modelo. (Costos serían menos relevantes para un modelo científico que busca construir una teoría explicativa, pero sería pasado a primer plano en un modelo predictivo para uso repetido.)
whuber

6

Existen al menos otras dos posibles razones para mantener una variable: 1) Afecta los parámetros para OTRAS variables. 2) El hecho de que sea pequeño es clínicamente interesante en sí mismo

Para ver aproximadamente 1, puede ver los valores pronosticados para cada persona de un modelo con y sin la variable en el modelo. Sugiero hacer un diagrama de dispersión de estos dos conjuntos de valores. Si no hay grandes diferencias, entonces ese es un argumento en contra de esta razón

Para 2, piense por qué tenía esta variable en la lista de posibles variables. ¿Se basa en la teoría? ¿Otra investigación encontró un tamaño de efecto grande?


Hay muy poca colinealidad para hablar, por lo que eliminar esta variable hace muy poca diferencia con las demás. Ese es un punto interesante acerca de ser clínicamente interesante si fuera pequeño. Los datos provienen de una encuesta exploratoria donde, al menos en esta etapa, no hay razón para esperar que una variable sea más significativa que otra. Sin embargo, hay una fluctuación intradiaria en esta variable, por lo tanto, si el efecto fue similar en tamaño a esta fluctuación, no me parece clínicamente muy significativo.
P Sellaz

OK, entonces suena como un buen candidato para la eliminación.
Peter Flom - Restablece a Monica

@P Sellaz: si "los datos provienen de una encuesta exploratoria", ¿eso significa que los participantes se seleccionaron a sí mismos? Encuentro que los comentarios de @Frank Harrell son algo a tener en cuenta, pero la preocupación por la estricta precisión de los valores p, los intervalos de confianza, etc. se vuelve discutible si la muestra fue autoseleccionada.
rolando2

Creo que solo se vuelve discutible si no los estás usando.
Frank Harrell

@FrankHarrel - por favor aclare: "ellos" =?
rolando2

6

El consejo más común en estos días es obtener el AIC de los dos modelos y tomar el que tenga el AIC más bajo. Entonces, si su modelo completo tiene un AIC de -20 y el modelo sin el predictor más débil tiene un AIC> -20, entonces conserva el modelo completo. Algunos podrían argumentar que si la diferencia <3 se mantiene la más simple. Prefiero el consejo de que podría usar el BIC para romper los "lazos" cuando los AIC están dentro de 3 entre sí.

Si está utilizando R entonces el comando para obtener la AIC es ... AIC.

Tengo un libro de texto sobre modelado aquí de principios de los 90 que sugiere que elimine todos sus predictores que no son significativos. Sin embargo, esto realmente significa que dejará de funcionar independientemente de la complejidad que el predictor agregue o reste del modelo. También es solo para ANOVA donde la importancia se trata de la variabilidad explicada en lugar de la magnitud de la pendiente a la luz de lo que otras cosas se han explicado. El consejo más moderno de usar AIC toma en consideración estos factores. Hay todo tipo de razones por las que el predictor no significativo debe incluirse incluso si no es significativo. Por ejemplo, puede haber problemas de correlación con otros predictores, ya que puede ser un predictor relativamente simple. Si desea el consejo más simple, vaya con AIC y use BIC para romper lazos y use una diferencia de 3 como su ventana de igualdad.


Más pequeño es mejor en la representación R, ¿sí?
Aaron - Restablece a Monica el

Gracias por su respuesta. Descubrí que la diferencia en AIC entre los dos modelos es solo 2.
P Sellaz

El modelo más pequeño tiene un AIC y BIC un poco más grandes: AIC grande-pequeño = -2 BIC: BIC grande-pequeño 7.8
P Sellaz

Aaron ... oops ... más bajo, arreglado ...
John

1
Solo para aclarar algo, este término adicional es solo otra covariable, y hay muy poca colinealidad.
P Sellaz

4

¿Para qué estás usando este modelo? ¿Es la parsimonia un objetivo importante?

Se prefieren modelos más parsimoniosos en algunas situaciones, pero no diría que la parsimonia es algo bueno en sí mismo. Los modelos parsimoniosos pueden entenderse y comunicarse más fácilmente, y la parsimonia puede ayudar a proteger contra el ajuste excesivo, pero a menudo estos problemas no son preocupaciones importantes o pueden abordarse de otra manera.

Acercarse desde la dirección opuesta, incluyendo un término adicional en una ecuación de regresión, tiene algunos beneficios incluso en situaciones en las que el término extra en sí mismo no es de interés y no mejora mucho el ajuste del modelo ... es posible que no piense que es una variable importante para controlar, pero otros podrían. Por supuesto, hay otras razones sustantivas muy importantes para excluir una variable, por ejemplo, podría ser causada por el resultado.


3

Según su redacción, suena como si estuviera inclinado a soltar el último predictor porque su valor predictivo es bajo; un cambio sustancial en ese predictor no implicaría un cambio sustancial en la variable de respuesta. Si ese es el caso, entonces me gusta este criterio para incluir / descartar el predictor. Está más basado en la realidad práctica de lo que puede ser el AIC o BIC, y más explicable a su audiencia para esta investigación.


Sí, eso es precisamente lo que quise decir.
P Sellaz
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.