¿Cómo debo verificar la suposición de linealidad al logit para las variables independientes continuas en el análisis de regresión logística?


13

Estoy confundido con la suposición de linealidad al logit para las variables predictoras continuas en el análisis de regresión logística. ¿Necesitamos verificar la relación lineal mientras buscamos predictores potenciales usando un análisis de regresión logística univariable?

En mi caso, estoy usando el análisis de regresión logística múltiple para identificar factores asociados con el estado nutricional (resultado dicotómico) entre los participantes. Las variables continuas que incluyen la edad, el puntaje de comorbilidad de Charlson, el puntaje del índice de Barthel, la fuerza de agarre de la mano, el puntaje de GDS, el IMC, etc. Mi primer paso es seleccionar variables significativas mediante regresión logística simple. ¿Necesito verificar el supuesto de linealidad durante los análisis de regresión logística simple para cada variable continua? ¿O debería verificarlo en el modelo final de regresión logística múltiple?

Además, para mi comprensión, necesitamos transformar la variable continua no lineal antes de ingresarla en el modelo. ¿Puedo clasificar la variable continua no lineal en lugar de la transformación?


1
Usted debe no categorizar, mejor tratar las estrías!
kjetil b halvorsen

Respuestas:


11

Como describo en detalle en mi libro Regression Modeling Strategies (2da edición disponible el 04/09/2015, e-book disponible ahora), el proceso de intentar transformar las variables antes del modelado está lleno de problemas, uno de los más importantes es la distorsión de error tipo I e intervalos de confianza. La categorización causa problemas aún más graves, especialmente falta de ajuste y arbitrariedad.

En lugar de pensar en esto como un problema de "verificación de falta de ajuste", es mejor pensar que especifica un modelo que es muy probable que se ajuste. Una forma de hacerlo es asignar parámetros a las partes del modelo que probablemente sean fuertes y para las cuales la linealidad aún no se sabe que sea una suposición razonable. En este proceso, se examina el tamaño efectivo de la muestra (en su caso, el mínimo de la cantidad de eventos y la cantidad de no eventos) y permite la complejidad en la medida en que lo permite el contenido de la información de los datos (utilizando, por ejemplo, la regla de parámetros de eventos 15: 1 de pulgar). Al especificar previamente un modelo paramétrico aditivo flexible, uno solo se equivocará cuando sea importante al omitir interacciones importantes. Las interacciones deben especificarse previamente, en general.

Puede verificar si se necesitaba no linealidad en el modelo con una prueba formal (facilitada con el rmspaquete R ) pero eliminando dichos términos cuando insignificante crea las distorsiones inferenciales que describí anteriormente.

Se pueden encontrar más detalles en las notas del curso vinculadas desde http://biostat.mc.vanderbilt.edu/rms .


Lo siento por no haberlo mencionado antes, pero no estoy familiarizado con R y estaba usando SPSS para los análisis. A partir de la solución proporcionada, ¿significa que si uso el tamaño de muestra efectivo (15: 1), puedo incluir todos los factores importantes (de la revisión) sin verificar su linealidad?
Sze Lin Tan

A partir de los análisis de regresión logística univariable que había hecho en mi caso, el IMC, la circunferencia de la pantorrilla y la circunferencia de la parte media del brazo están haciendo una contribución significativa al modelo de regresión logística simple del estado nutricional (p <0.05). Pero resultó que no cumplía con el supuesto de linealidad cuando verifico el supuesto usando el enfoque Box-Tidwell (para cada modelo logístico simple). Por lo tanto, no estoy seguro de si debo proceder al análisis de regresión logística múltiple con estos predictores o no.
Sze Lin Tan

55
No es válido construir modelos sobre la base de análisis univariables. Está utilizando una variante para reenviar la regresión gradual que se sabe que causa una gran cantidad de problemas.
Frank Harrell

8

La regresión logística NO asume una relación lineal entre las variables dependientes e independientes. Asume una relación lineal entre las probabilidades de registro de la variable dependiente y las variables independientes (esto es principalmente un problema con las variables independientes continuas). Hay una prueba llamada Box-Tidwell que puede usar para esto. El comando stata es boxtid. No conozco el comando SPSS, lo siento.

Esto puede ser de ayuda: http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm


El enlace está roto ahora.
Alexey Shrub

1

Creo que deberíamos trazar variables continuas y verificar la linealidad antes de usarlas en un modelo de regresión. Si la linealidad parece una suposición razonable, creo que esto probablemente se mantendrá en el modelo final de regresión multivariable en la mayoría de los casos, y si no, creo que esto podría ser causado principalmente por efectos de interacción que puede corregir.

Sí, categorizar variables continuas no lineales es una opción. El problema con esto es que las categorías pueden parecer arbitrarias en la mayoría de los casos, y pequeñas diferencias en los puntajes de corte entre categorías pueden conducir a resultados diferentes (especialmente en relación con la significación estadística) y, dependiendo del número de categorías y el tamaño de sus datos , puede perder mucha información valiosa en los datos.

Un enfoque alternativo es utilizar un modelo aditivo generalizado que es un modelo de regresión que puede especificarse como una regresión logística, pero en el que puede incluir variables independientes no lineales como "funciones más suaves". Técnicamente, esto no es muy complicado en R, pero no conozco otros paquetes de software. Estos modelos identificarán relaciones no lineales con las variables dependientes, pero un inconveniente podría ser que no obtendrá números claros y ordenados en su salida para presentar, sino más bien una curva visual que se prueba para determinar la significación estadística. Por lo tanto, depende de lo interesado que esté en cuantificar el efecto de la variable no lineal en la variable de resultado.

Finalmente, puede usar modelos aditivos generalizados como se describió anteriormente para probar los supuestos de linealidad en su modelo de regresión logística, al menos si usa R.

Eche un vistazo a este libro (un campo muy diferente al suyo y al mío, pero eso no importa en absoluto): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 & qid = 1440928328 & sr = 8-1 & keywords = zuur + ecology


No estoy familiarizado con R y estaba usando SPSS para los análisis. Perdón por no mencionarlo antes. ¿Puedo usar el enfoque Box-Tidwell (creando un término de interacción entre la variable continua y su propio registro natural y agregando el término de interacción al modelo) para verificar el supuesto de linealidad?
Sze Lin Tan

1

Como no conozco sus datos, no sé si combinar esas tres variables (la variable básica, su registro natural y un término interactivo) será un problema. Sin embargo, sé que en el pasado cuando consideré combinar tres términos, a menudo pierdo la noción conceptual de lo que estoy midiendo. Necesita tener un buen control de lo que está midiendo o tendrá problemas para explicar sus hallazgos. ¡Espero que ayude!

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.