Cómo describir o visualizar un modelo de regresión lineal múltiple


21

Estoy tratando de ajustar un modelo de regresión lineal múltiple a mis datos con un par de parámetros de entrada, digamos 3.

(yo)F(X)=UNAX1+siX2+doX3+reo(ii)F(X)=(UNA si do)T(X1 X2 X3)+re

¿Cómo explico y visualizo este modelo? Podría pensar en las siguientes opciones:

  1. Mencione la ecuación de regresión como se describe en (coeficientes, constante) junto con la desviación estándar y luego un gráfico de error residual para mostrar la precisión de este modelo. (yo)

  2. Gráficos por parejas de variables independientes y dependientes, como este:

    ingrese la descripción de la imagen aquí

  3. Una vez que se conocen los coeficientes, ¿pueden los puntos de datos utilizados para obtener la ecuación condensarse a sus valores reales. Es decir, los datos de entrenamiento tienen nuevos valores, en la forma lugar de , , , donde cada variable independiente se multiplica por su coeficiente respectivo. Entonces esta versión simplificada se puede mostrar visualmente como una simple regresión como esta:(yo)XX1X2X3...

    ingrese la descripción de la imagen aquí

Estoy confundido sobre esto a pesar de pasar por el material apropiado sobre este tema. ¿Puede alguien explicarme cómo "explicar" un modelo de regresión lineal múltiple y cómo mostrarlo visualmente?


2
¿Cuál es el propósito de su documento y quiénes son las audiencias? Comenzaría por obtener artículos similares y buscaré algunos ejemplos sobre cómo se hacen en su propio campo. Estoy más familiarizado con la literatura biomédica y la mayoría de las veces, solo usamos una tabla. Las ilustraciones se ven con mayor frecuencia cuando los autores intentan explicar una interacción.
Penguin_Knight

@Penguin_Knight, esto está en el dominio de la informática, sin embargo, creo que es un dominio genérico en lugar de restringido a un dominio en particular. Por favor corrígeme si estoy equivocado.
kris

Hmm ... aunque pregunta. Yo diría que la única parte genérica, para mí, es no mostrar más de lo que debería, y asegúrese de que los componentes a enfatizar realmente se enfaticen. Incluso en mi campo, he visto las tres opciones. 1) tabular los resultados es el más común, seguido de 3), pero principalmente la forma de trazar el resultado predicho, y luego 2). Pero para 2), usaría lo que @gregory_britten sugirió: usar X ajustada en lugar de cada X individual.
Penguin_Knight

use plot de distribución ... mire la distribución de los valores ajustados que resultan del modelo y compárela con la distribución de los valores reales.
Owais Qureshi

Sé que esto es de hace años, pero si vuelves a visitar aquí, ¿podrías publicar los datos? Entonces las personas tendrían algo con qué trabajar para mostrar diferentes posibilidades.
gung - Restablece a Monica

Respuestas:


21

XΔY/ /Δsre(X). De esta manera, la distancia de los coeficientes desde cero clasifica su "importancia" relativa y su IC proporciona la precisión. Creo que resume bastante bien las relaciones y ofrece mucha más información que los coeficientes y los valores p en sus escalas numéricas naturales y a menudo dispares. Un ejemplo está abajo:

ingrese la descripción de la imagen aquí

YXyoYX1+X2+X3XyoYavPlots()carlm

ingrese la descripción de la imagen aquí


Gracias @gregory_britten por esta información. El problema que tengo a mano tiene 8 variables independientes. ¿Crees que los 'gráficos de variables agregadas' serían razonables para un gran número de variables de entrada?
kris

En línea con la idea de la primera trama, si trabaja en R, sugiero mirar el paquete RMS que facilita todo esto. Lo bueno es que uno puede pedir cambios de paso significativos en la covarianza, evitando así la necesidad de estandarizar.
Thomas Speidel

@suzanne Sí, definitivamente. El diagrama de variables agregado le brinda perspectivas bidimensionales para cualquier número de variables. Puede ser particularmente revelador en dimensiones superiores. Es frecuente encontrar patrones reveladores en los residuos que no eran del todo evidente en la Y. observada
gregory_britten

No entiendo muy bien la notación X1 | X2 y X3 en este contexto. Sé cómo se usa con respecto a las probabilidades, pero no puedo entender lo que dice aquí
Casebash

1
@Casebash Es la regresión parcial en X1, dado que X2 y X3 están en el modelo
gregory_britten

1

Dado que todos tienen que ver con explicar los factores que contribuyen a la cirrosis, ¿ha intentado hacer una tabla de burbujas / círculos y usar el color para indicar los diferentes regresores y el radio del círculo para indicar un impacto relativo sobre la cirrosis?

Me refiero aquí a un tipo de gráfico de Google que se ve así:ingrese la descripción de la imagen aquí

Y en una nota no relacionada, a menos que esté leyendo mal tus argumentos, creo que tienes algunos regresores redundantes allí. El vino ya es un licor, por lo que si esos dos son regresores separados, no tiene sentido conservarlos a ambos, si su objetivo es explicar la incidencia de la cirrosis.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.