Cómo lidiar con variables categóricas no binarias en regresión logística (SPSS)

Tengo que hacer una regresión logística binaria con muchas variables independientes. La mayoría de ellos son binarios, pero algunas de las variables categóricas tienen más de dos niveles.

¿Cuál es la mejor manera de lidiar con tales variables?

Por ejemplo, para una variable con tres valores posibles, supongo que se deben crear dos variables ficticias. Entonces, en un procedimiento de regresión gradual, ¿ es mejor probar ambas variables ficticias al mismo tiempo, o probarlas por separado?

Usaré SPSS, pero no lo recuerdo muy bien, entonces: ¿cómo maneja SPSS esta situación?

Además, para una variable categórica ordinal, ¿es bueno usar variables ficticias que recrean la escala ordinal? (Por ejemplo, utilizando tres variables ficticias para una variable ordinal 4-estado, puesto 0-0-0para el nivel , para el nivel , para el nivel y para el nivel , en lugar de , , y para los 4 niveles.) $1$ 1-0-0 $2$ 1-1-0 $3$ 1-1-1 $4$ 0-0-01-0-00-1-00-0-1

— vidrioso
fuente

Esta es solo una respuesta parcial: incluso cuando crea los dummies explícitamente (en lugar de usar las capacidades implícitas del software), manténgalos juntos en todos los análisis. En particular, todos deben ingresar juntos y salir juntos en una regresión gradual, con el valor p calculado adecuadamente para el número total de variables involucradas. (Esta es la recomendación de Hosmer & Lemeshow, de todos modos, y tiene mucho sentido.)

— whuber

Hace un tiempo escribí una publicación sobre recursos de regresión logística multinomial en SPSS .

— Jeromy Anglim

Estás hablando de tus variables independientes. Solo las variables dependientes deben ser binarias para la regresión logística.

— John

Una cosa a tener en cuenta aquí es que no debe usar procedimientos de selección por pasos; No son válidos. Si eso no tiene sentido / quieres entender por qué, puede ayudarte leer mi respuesta aquí: algoritmos para la selección automática de modelos .

— gung - Restablece a Monica

Respuestas:

El sitio web de UCLA tiene un montón de excelentes tutoriales para cada procedimiento desglosado por el tipo de software con el que está familiarizado. Consulte la salida de SPSS anotada: Regresión logística : la variable SES que mencionan es categórica (y no binaria). SPSS creará automáticamente las variables indicadoras para usted. También hay una página dedicada a Predictores categóricos en regresión con SPSS que tiene información específica sobre cómo cambiar las codificaciones predeterminadas y una página específica para Regresión logística .

— M. Tibbits
fuente

La regresión logística es un método bastante flexible. Se puede utilizar fácilmente como variables independientes variables categóricas. La mayoría de los programas que usan regresión logística deberían permitirle usar variables categóricas.

Como ejemplo, supongamos que una de sus variables categóricas es la temperatura definida en tres categorías: frío / templado / caliente. Como sugiere, podría interpretarlo como tres variables ficticias separadas, cada una con un valor de 1 o 0. Pero, el software debería permitirle usar una sola variable categórica en su lugar con un valor de texto frío / leve / caliente. Y, la regresión logit derivaría el coeficiente (o constante) para cada una de las tres condiciones de temperatura. Si uno no es significativo, el software o el usuario podrían eliminarlo fácilmente (después de observar t stat y p value).

El principal beneficio de agrupar categorías de variables categóricas en una sola variable categórica es la eficiencia del modelo. Una sola columna en su modelo puede manejar tantas categorías como sea necesario para una sola variable categórica. Si, por el contrario, utiliza una variable ficticia para cada categoría de una variable categórica, su modelo puede crecer rápidamente hasta tener numerosas columnas superfluas dada la alternativa mencionada.

— Sympa
fuente

@gaetan No entiendo el comentario sobre una sola columna frente a varias columnas. ¿Sugiere que las variables categóricas se codifiquen como 1, 2, 3, etc. en una sola columna en lugar de utilizar variables ficticias? No estoy seguro de que tenga sentido para mí, ya que está imponiendo una restricción implícita de que la diferencia en el efecto en dv entre los niveles 1 y 2 es la misma que la diferencia en el efecto en dv entre los niveles 2 y 3. Quizás, yo me falta algo

@Gaetan No estoy seguro de seguirte. ¿Cómo exactamente XLStat transforma los valores de 'texto' de frío, suave o caliente en valores numéricos con el propósito de estimar? Si hay un método que le permita estimar los efectos de las variables categóricas sin usar variables ficticias, seguramente eso debería ser independiente del software que utilice, ya que debería existir alguna lógica subyacente conceptual / basada en el modelo.

k

$k$

k - 1

$k-1$

@Gatean Ok, en este caso, se puede hacer lo mismo en SPSS (puede elegir entre numérico / ordinal / nominal para cada variable); luego, la matriz de diseño se construye en consecuencia.

— chl

@Gaetan @chl Para resumir mi comprensión: las características de SPSS y XLStat por las cuales puede especificar la escala de medición (nominal, ordinal, etc.) disminuye el tamaño del archivo de datos. Sin embargo, en ambos casos, el software utiliza el esquema de codificación correcto (por ejemplo, expande una variable nominal con categorías J en variables ficticias J-1) como parte del proceso de estimación en segundo plano. ¿Sería una evaluación justa de la situación?

Hasta donde tengo entendido, es bueno usar una variable ficticia para datos categóricos / nominales, mientras que para datos ordinales podemos usar una codificación de 1,2,3 para diferentes niveles. Para la variable ficticia, codificaremos 1 si es cierto para una preservación particular y 0 en caso contrario. También las variables ficticias serán 1 menos que el no. De niveles, por ejemplo en binario tenemos 1. Una observación de todo '0' en la variable ficticia automáticamente hará 1 para el ficticio no codificado.

— Jayr
fuente