¿Puedo usar la regresión múltiple cuando tengo predictores mixtos categóricos y continuos?


12

Parece que puede usar la codificación para una variable categórica, pero tengo dos variables predictoras categóricas y una variable continua. ¿Puedo usar la regresión múltiple para esto en SPSS y, de ser así, cómo? ¡Gracias!


Estoy seguro de que puedes , pero me temo que no tengo idea de cómo .
parada el

Sugeriría escribir algo como regresión en la documentación de ayuda que viene con SPSS. Debería ser pan y mantequilla para cualquier paquete de estadísticas
Probableislogic

No sé a qué te refieres con la codificación de una variable categórica. ¿Puedes dar un ejemplo en sintaxis? ¿Su variable dependiente es continua o categórica?
Andy W

Respuestas:


8
  1. Si esta es una pregunta de sintaxis de SPSS, la respuesta es simplemente colocar la variable categórica, codificada apropiadamente, en la lista de variables para "variables independientes" junto con la continua.
  2. En las estadísticas: ¿Es su variable categórica binaria? Si es así, debe usar un código ficticio u otro código de contraste válido. Si no es binario, ¿es su variable categórica ordinal o nominal? Si es nominal, entonces nuevamente, debe usar una estrategia de código contrastante, en efecto, modelar el impacto de cada nivel de la variable en el resultado o variable "dependiente". Si la variable categórica es ordinal, lo más probablelo más sensato es ingresarlo tal cual en el modelo, tal como lo haría con una variable predictiva continua (es decir, "independiente"). Asumiría, en ese caso, que los incrementos entre niveles de la variable predictiva categórica ("independiente"); esto rara vez será un error, pero cuando lo sea, debe usar nuevamente un código de contraste y modelar el impacto de cada nivel. Esta pregunta surge en este foro con bastante frecuencia: aquí hay un buen análisis
  3. Cómo manejar los datos faltantes es, en mi opinión, un asunto completamente separado. Tengo entendido que la eliminación por pares no se ve como un enfoque válido para la regresión multivariada. Listwise es bastante común, pero también puede sesgar los resultados y ciertamente es una pena. La imputación múltiple es algo bello.

Tengo una pregunta para DMK38. Arriba, escribe que está bien agregar una variable categórica a un modelo tal como está cuando es ordinal. Estoy feliz de leer esto ;-) ¿Tiene una buena fuente que lo mencione también para que pueda agregarlo a mi documento? ¡Muchas gracias por su respuesta! Lilian
Lilian Jans-Beken

1
@ LilianJans-Beken: consulte Variable dependiente continua con variable independiente ordinal y regresión logística y variables independientes ordinales . Es posible que no desee optar por los métodos más complicados, pero tenga en cuenta que incluso si está contento de considerar el predictor como a escala de intervalo, no es necesario restringirlo para que tenga una relación lineal con la respuesta. Y no se sienta obligado a asumir intervalos iguales entre niveles contiguos si algo más parece más sensato.
Scortchi - Restablece a Monica


2

Definitivamente puedes, siguiendo el mismo método que usarías para el primer predictor categórico. Cree variables ficticias tal como lo haría para la primera variable de este tipo. Pero a menudo es más fácil usar el comando Unianova de SPSS. Puede buscar esto en cualquier Guía de sintaxis impresa o en formato pdf, o puede acceder a través de Analizar ... Modelo lineal general ... Univariante.

Sin embargo, a pesar de ser un poco más complicado, el comando Regresión tiene una serie de ventajas sobre Unianova. La principal es que puede elegir 'par perdido' (no tiene que perder un caso simplemente porque le falta un valor para uno o dos predictores). También puede obtener muchos diagnósticos valiosos, como gráficos parciales y estadísticas de influencia.


1
@ rolando - buena respuesta. Dicho esto, la falta de enfoques por pares tiende a confundir la comparación de efectos, ya que se basan en diferentes números de observaciones. Puede ser algo a tener en cuenta.
richiemorrisroe

Creo que su falta un poco confusa por pares solo importa si está ejecutando modelos completamente separados (como el uso de un procedimiento de selección de modelo por pasos). Si está ingresando todas las variables en el modelo, aún deja caer los valores faltantes en la lista.
Andy W

@ richiemorrisroe: estoy de acuerdo, vale la pena tenerlo en cuenta. @ Andy W - Acabo de confirmar en SPSS que, usando solo la entrada forzada, fallar en pares y fallar en listas da resultados diferentes en todos los aspectos, incluyendo df diferentes.
rolando2

Todavía creo que estás confundido, ¿cómo puede SPSS devolver diferentes conjuntos de resultados al declarar los pares faltantes a menos que invente valores para los datos faltantes? Aquí hay un ejemplo usando datos simulados que publiqué en un archivo de texto, dl.dropbox.com/u/3385251/SPSS_missing_Listwise_vs_Pairwise.txt . Actualmente he rechazado su respuesta, ya que toda esta conversación sobre cómo el comando de regresión maneja los datos faltantes es confusa, no tiene nada que ver con la pregunta original del OP y es probable que sea engañosa.
Andy W

1

Una manera simple de convertir las variables categóricas en un conjunto de variables ficticias para usar en modelos en SPSS es usar la sintaxis do repeat. Este es el más simple de usar si sus variables categóricas están en orden numérico.

*making vector of dummy variables.
vector dummy(3,F1.0).
*looping through dummy variables using do repeat, in this example category would be the categorical variable to recode. 
do repeat dummy = dummy1 to dummy3 /#i = 1 to 3.
compute dummy = 0.
if category = #i dummy = 1.
end repeat.
execute. 

De lo contrario, simplemente puede ejecutar un conjunto de sentencias if para hacer sus variables ficticias. Mi versión actual (16) no tiene la capacidad nativa de especificar un conjunto de variables ficticias automáticamente en el comando de regresión (como puede hacerlo en Stata usando el comando xi ) pero no me sorprendería si está disponible en alguna versión más nueva. También tome nota del punto # 2 de dmk38, este esquema de codificación está asumiendo categorías nominales. Si su variable es ordinal, se puede usar más discreción.

También estoy de acuerdo con dmk38 y la conversación acerca de que la regresión es mejor debido a su capacidad para especificar datos faltantes de una manera particular es un tema completamente separado.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.