categorizar una variable la convierte de insignificante a significativa

17

Tengo una variable numérica que resulta no significativa en un modelo de regresión logística multivariante. Sin embargo, cuando lo categorizo en grupos, de repente se vuelve significativo. Esto es muy contra-intuitivo para mí: al categorizar una variable, proporcionamos cierta información.

¿Cómo puede ser esto?

— Omry Atia
fuente

25

Una posible explicación serían las no linealidades en la relación entre su resultado y el predictor.

Aquí hay un pequeño ejemplo. Utilizamos un predictor que es uniforme en $[-1,1]$ . Sin embargo, el resultado no depende linealmente del predictor, sino del cuadrado del predictor: VERDADERO es más probable tanto para $x\approx-1$ como para $x\approx 1$ , pero menos probable para $x\approx 0$ . En este caso, un modelo lineal resultará insignificante, pero cortar el predictor en intervalos lo hace significativo.

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Sin embargo, esto no significa que discretizar el predictor sea el mejor enfoque. (Casi nunca lo es). Mucho mejor modelar la no linealidad utilizando splines o similares.

— S. Kolassa - Restablece a Monica
fuente

¿Hay algunos ejemplos en los que la discretización podría ser sensata? Por ejemplo, si tiene un umbral específico (por ejemplo, 18 años) en el que se produce un cambio binario en los resultados. ¿La edad numérica en el rango de 18+ podría no ser significativa, pero la edad binaria> 18 podría ser significativa?

— ajrwhite

3

@ajrwhite: depende del campo. En cualquier lugar donde los umbrales estén codificados por ley, la discretización podría tener sentido. Por ejemplo, si modela el comportamiento de votación, tiene sentido verificar si alguien es realmente elegible para votar a los 18 años. Del mismo modo, en Alemania, su impuesto sobre el vehículo depende del desplazamiento de su motor y salta a las 1700, 1800, 1900, ... ccm , casi todos los automóviles tienen desplazamientos de 1699, 1799, ... ccm (tipo de auto-discretización). En las ciencias naturales como la biología, la medicina, la psicología, etc., lucho por encontrar un ejemplo donde la discretización tenga sentido.

— S. Kolassa - Restablece a Monica el

7

Una forma posible es si la relación es claramente no lineal. No es posible decir (dada la falta de detalles) si esto realmente explica lo que está sucediendo.

Puedes comprobarlo por ti mismo. Primero, podría hacer un diagrama de variable agregado para la variable como sí mismo, y también podría trazar los efectos ajustados en la versión factorial del modelo. Si la explicación es correcta, ambos deberían ver un patrón claramente no lineal.

— Glen_b -Reinstate a Monica
fuente