¿Cuál es el punto de regresión univariante antes de la regresión multivariada?


13

Actualmente estoy trabajando en un problema en el que tenemos un pequeño conjunto de datos y estamos interesados ​​en el efecto de causalidad de un tratamiento en el resultado.

Mi asesor me ha indicado que realice una regresión univariada en cada predictor con el resultado como respuesta, luego la asignación del tratamiento como respuesta. Es decir, se me pide que ajuste una regresión con una variable a la vez y que haga una tabla de los resultados. Le pregunté "¿por qué deberíamos hacer esto?", Y la respuesta fue algo en el sentido de "estamos interesados ​​en qué predictores están asociados con la asignación del tratamiento y el resultado, ya que esto probablemente indicaría un factor de confusión". Mi asesor es un estadístico capacitado, no un científico en un campo diferente, por lo que me inclino a confiar en ellos.

Esto tiene sentido, pero no está claro cómo usar el resultado del análisis univariante. ¿No tomaría decisiones de selección de modelo a partir de este resultado en un sesgo significativo de las estimaciones e intervalos de confianza estrechos? ¿Por qué alguien debería hacer esto? Estoy confundido y mi asesor está siendo bastante opaco sobre el tema cuando lo mencioné. ¿Alguien tiene recursos en esta técnica?

(Nota: mi asesor ha dicho que NO estamos usando valores p como límite, sino que queremos considerar "todo").


66
Si por "regresión univariante" su instructor incluiría dibujar un diagrama de dispersión, entonces es un buen consejo. Y dado que ninguna regresión que le interese debe realizarse sin trazar, obtendrá información útil. Hágalo todo de una vez, si puede, con una matriz de diagrama de dispersión, y muestre algunos suavizados robustos con ellos. Las ventajas serán obvias cuando vea las diversas formas en que sus variables pueden apartarse de exhibir relaciones lineales.
whuber

1
¿Qué sucede si los datos de respuesta son binarios y estamos usando un glm con un enlace logit? Su explicación ciertamente aclara el caso lineal, y ahora que lo pienso, el uso de diagramas de dispersión sería natural
Marcel

55
Me preocupaba que pudieras preguntar eso :-). En realidad, un buen suavizado aún puede proporcionar una gran visión. Ayuda a fluctuar la respuesta para que pueda distinguir su distribución. Aquí hay un ejemplo de tal trama: stats.stackexchange.com/a/14501/919 . Ilustramos otra solución en stats.stackexchange.com/a/138660/919 .
whuber

3
Esta regresión univariada antes de la técnica de regresión multivariable se llama "selección de variable con propósito" en el libro de Hosmer y Lemeshow "Regresión logística aplicada"
Gran38

77
Cuidado: una variable puede no mostrar relación en una regresión no variable, pero puede ser importante en la relación multivariada.
Glen_b: reinstala a Mónica el

Respuestas:


3

El contexto causal de su análisis es un calificador clave en su pregunta. En el pronóstico, ejecutar regresiones univariantes antes de regresiones múltiples en el espíritu del "método de selección intencional" sugerido por Hosmer y Lemenshow tiene un objetivo. En su caso, donde está construyendo un modelo causal, ejecutar regresiones univariadas antes de ejecutar regresión múltiple tiene un objetivo completamente diferente. Déjame expandirme sobre esto último.

Usted y su instructor deben tener en mente un determinado gráfico causal. Los gráficos causales tienen implicaciones comprobables. Su misión es comenzar con el conjunto de datos que tiene y razonar de regreso al modelo causal que podría haberlo generado. Las regresiones univariadas que sugirió que ejecute probablemente constituyan el primer paso en el proceso de probar las implicaciones del gráfico causal que tiene en mente. Suponga que cree que sus datos fueron generados por el modelo causal representado en el gráfico a continuación. Suponga que está interesado en el efecto causal de D en E. El siguiente gráfico sugiere una serie de implicaciones comprobables, tales como:

  • E son D son probablemente dependientes
  • E y A son probablemente dependientes
  • E y C son probablemente dependientes
  • E y B son probablemente dependientes
  • E y N son probablemente independientes

ingrese la descripción de la imagen aquí

Mencioné que este es solo el primer paso en el proceso de búsqueda causal porque la verdadera diversión comienza una vez que comienzas a ejecutar regresiones múltiples, condicionando diferentes variables y probando si el resultado de la regresión es consistente con la implicación del gráfico. Por ejemplo, el gráfico anterior sugiere que E y A deben ser independientes una vez que se condiciona en D. En otras palabras, si retrocede E en D y A y descubre que el coeficiente en A no es igual a cero, concluirá que E depende de A, después de condicionar en D, y por lo tanto, que el gráfico causal debe estar equivocado. Incluso le dará pistas sobre cómo alterar su gráfico causal, porque el resultado de esta regresión sugiere que debe haber un camino entre A y E que no esté separado por D.


1

Antes de intentar responder, me gustaría señalar ese tipo de datos y su distribución puede afectar la forma en que los evalúa / regresa / clasifica.

También es posible que desee buscar aquí el método que su asesor puede querer que use.

Un poco de trasfondo. Si bien el uso de una herramienta de selección de modelos es una posibilidad, aún debe poder decir por qué se utilizó o se omitió un predictor. Esas herramientas pueden ser una caja negra. Debe comprender completamente sus datos y poder indicar por qué se seleccionó un predictor particular. (Especialmente, estoy asumiendo un proyecto de tesis / maestría).

Por ejemplo, mire el precio de las casas y la edad. El precio de las casas generalmente disminuye con la edad. Por lo tanto, cuando vea una casa antigua con un alto precio en sus datos, parecería un valor atípico que se eliminará, pero ese no es el caso.

En cuanto a (NB: mi asesor ha dicho que NO estamos utilizando los valores p como punto de corte, sino que queremos considerar "todo"). Los valores p no son el todo y terminan todo, pero pueden ser útiles. . Los algoritmos / programas de recuperación son limitados y no pueden ver la imagen completa.

En cuanto a por qué podría ser una regresión univariada en cada predictor / asignación de tratamiento.

Esto podría ser para ayudar a seleccionar los predictores para incluir en el modelo multivariado básico. A partir de ese modelo básico, vería si esos predictores son significativos y si deberían permanecer o si deberían eliminarse con el objetivo de obtener un modelo parsimonioso.

O podría ser para que usted comprenda mejor los datos.


1
Mi esposa y yo compramos una casa antigua pero no podíamos comprar una casa histórica, por lo que su ejemplo tiene un contraejemplo fácil.
Nick Cox

Cierto. Tenía la intención de hablar sobre el precio de las casas en realidad. Cómo los precios de las casas generalmente disminuyen con la edad. Por lo tanto, cuando vea una casa antigua con un alto precio, parecería un valor atípico para eliminar. Editaré ese punto. Gracias.
Apocryphon

0

Creo que su supervisor le está pidiendo que realice un primer análisis de los datos con el objetivo de identificar si alguna de las variables puede explicar una fracción significativa de la varianza en los datos.

Una vez que haya concluido si alguna de las variables puede explicar algo de la variabilidad, podrá evaluar cómo funcionan juntas, si son colineales, o están correlacionadas entre sí, etc. En una fase puramente exploratoria para tener un análisis multivariado podría hacer más difícil una primera evaluación, porque al construir cada variable eliminaría el efecto de las otras. Podría ser más difícil evaluar si alguna de las variables podría explicar alguna de las variaciones.


0

Ese puede ser un enfoque para comprender los datos, pero la experiencia muestra que las predicciones variarán cuando use todos los predictores combinados y cada uno de ellos. Eso es algo que entendemos por la previsibilidad de los datos y lo que se debe hacer para futuros pasos.
He visto muchas veces cuando con todas las variables el valor p dice que algunas variables no son significativas, pero solo con esas variables no significativas, fueron lo suficientemente significativas. Eso se debe a un efecto mixto: no es que su supervisor esté equivocado, sino que para comprender los datos tenemos que hacer esto.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.