Cómo manejar la variable categórica ordinal como variable independiente

Estoy usando un modelo logit. Mi variable dependiente es binaria. Sin embargo, tengo una variable independiente que es categórica y contiene las respuestas: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Entonces, es ordinal ("categórico cuantitativo"). No estoy seguro de cómo manejar esto en el modelo. Estoy usando gretl.

[Nota de @ttnphns: aunque la pregunta dice que el modelo es logit (porque el dependiente es categórico), el problema crucial, las variables independientes ordinales , es básicamente similar, sea el dependiente categórico o cuantitativo. Por lo tanto, la pregunta es igualmente relevante para, digamos, la regresión lineal también, como lo es para la regresión logística u otro modelo logit.]

— rahmat
fuente

Mi variable dependiente toma el valor 0 y 1, tengo 6 variables independientes, 3 de ellas son categóricas, estas variables son como "¿cómo califica los servicios de salud locales en su área? ¿Cómo califica el transporte local en su área y cómo califica? ¿servicios de policía en su área? las respuestas son muy buenas, buenas, promedio, pobres y muy pobres

— rahmat

@Tim Si la variable dependiente es binaria, entonces no hay necesidad de ninguna regresión ordinal. La implicación es manejar un predictor ordinal usando variables indicadoras (ficticias).

— Nick Cox

gracias tim, si no me equivoco lo que dices es que debería crear un dummy para todas las categorías? Por ejemplo, tengo cinco respuestas (muy bueno, bueno, promedio, pobre y muy pobre) para una variable indep, por lo que debería crear 5 dummies.

— rahmat

Respuestas:

El problema con la variable independiente ordinal es que, por definición, los verdaderos intervalos métricos entre sus niveles no son conocen , no se puede suponer una relación de tipo apropiada, aparte del paraguas "monotónico", a priori. Tenemos que hacer algo al respecto, por ejemplo: "seleccionar o combinar variantes" o "preferir lo que maximiza algo".

Si insiste en tratar su likert rating IV como ordinal (en lugar de intervalo o nominal), tengo un par de alternativas para usted.

Usar contrastes polinomiales Es decir, cada predictor utilizado en el modelo ingresa no solo de forma lineal sino también cuadrática y cúbica. Por lo tanto, no solo se puede capturar un efecto monotónico lineal, sino más general (el efecto lineal corresponde al predictor mantenido como escala / intervalo y los otros dos efectos lo prueban como intervalos no iguales). Además, también se pueden ingresar variables ficticias de cada predictor, que probarán el efecto nominal / factorial. Al final de todo eso, usted sabe cuánto actúa su predictor como factor, cuánto como covariable lineal y cuánto como covariable no lineal. Esta opción es fácil de hacer en casi cualquier regresión (lineal, logística, otros modelos lineales generalizados). Consumirá df s, por lo que el tamaño de la muestra debe ser lo suficientemente grande.
Utiliza una escala óptima regresión de . Este enfoque transforma monotónicamente un predictor ordinal en un intervalo uno para maximizar el efecto lineal en el pronóstico. CATREG (regresión categórica) es una implementación de esta idea en SPSS. Un problema de su caso específico es que desea realizar una regresión logística, no lineal, pero CATREG no se basa en el modelo logit. Creo que este obstáculo es relativamente menor, ya que su predicción y solo es de 2 categorías (binario): quiero decir que aún puede hacer CATREG para una escala óptima, luego hacer una regresión logística final con los predictores de escala transformados obtenidos.
Tenga en cuenta también que en el caso simple de una escala u ordinal DV y un ordinal IV, la prueba Jonckheere-Terpstra podría ser un análisis razonable en lugar de regresión.

También podría haber otras sugerencias. Los tres anteriores son lo que me viene a la mente al instante al leer su pregunta.

Permítame recomendarle también que visite estos hilos: Asociación entre nominal y escala u ordinal ; Asociación entre ordinal y escala . Podrían ser útiles a pesar de que no se trata de regresiones específicas.

Pero estos hilos son sobre regresiones, particularmente logísticas: debes mirar adentro: uno , dos , tres , cuatro , cinco .

— ttnphns
fuente

(+1) (1) También puede usar solo los primeros contrastes polinómicos si cree que son suficientes. (2) La definición de predictores a partir de la respuesta en el mismo conjunto de datos debe venir con una advertencia de salud. (3) También puede penalizar la discrepancia entre los coeficientes de los niveles adyacentes: consulte stats.stackexchange.com/q/77796/17230 .

— Scortchi - Restablece a Monica

@Scortchi, gracias por el comentario. Con respecto a (2): sí, en particular, por supuesto, es más confiable hacer una escala óptima en un subconjunto separado de los datos en los que se realizará la regresión final. (3) - gracias, también, me familiarizaré con eso.

— ttnphns

Otra opción es usar un modelo aditivo y representar la variable independiente ordinal a través de una spline.

— kjetil b halvorsen

@kjetilbhalvorsen, sí, es posible, gracias. Sin embargo, esta opción ya está implícita en Pt 2 porque uno de los métodos de escalamiento óptimo para variables ordinales usa spline.

— ttnphns

Solo para agregar a las otras excelentes respuestas: una forma moderna de manejarlo podría ser a través de un modelo aditivo, que representa la variable independiente ordinal a través de una spline. Si está bastante seguro de que el efecto de la variable es monótono, puede restringirlo a una spline monótona. (Para ver un ejemplo de splines monótonos en uso, consulte Buscar una función que se ajuste a la curva sigmoidea ).

En R, si hace que el predictor ordinal sea un "factor ordenado" (con, por ejemplo, el código ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ), en un modelo lineal se representará mediante polinomios ortogonales.

— kjetil b halvorsen
fuente

Sería bueno expandirlo un poco, para incluir algunos detalles más sobre cómo funcionará con los predictores ordinales.

— ttnphns

Necesita variables ficticias pero necesita $k-1$ variables ficticias, donde $k$ es el número de respuestas potenciales En su caso con 5 valores de respuesta (1-5) crearía 4 variables ficticias. Cuando una respuesta es "5", sus cuatro variables ficticias serían todos ceros. ¿Tener sentido?

— Austin T
fuente

He cambiado unilateralmente (y pedantemente, o de otra manera) tu pequeño uso de la notación. Aunque es trivial,

n

$n$ suele ser un recuento de observaciones, y a menudo he visto a los principiantes confundirse por tales asuntos.

— Nick Cox

gracias tim y nick. Así que tengo que ejecutar los cuatro dummies en la regresión. ¿Derecha? si es así, tengo 3 variables categóricas, cada una con 5 respuestas. por lo tanto, mi modelo tendrá 12 variables. ¿Derecha?

— Rahmat

Gracias @NickCox - Soy nuevo en el mundo de CV y aprecio las correcciones respetuosas

— Austin T

Desafortunadamente, no ha explicado por qué se necesitarán variables ficticias. No creo que esta respuesta, en cuanto a cómo es actualmente, parezca una respuesta a la pregunta.

— ttnphns

En apoyo, no creo que sea un caso de argumentar que se necesitan indicadores ; es solo que permiten capturar una variedad de efectos, incluidas las relaciones no monótonas.

— Nick Cox