Explique la diferencia entre regresión múltiple y regresión multivariada, con un uso mínimo de símbolos / matemáticas.


Respuestas:


54

Muy rápidamente, diría: 'múltiple' se aplica al número de predictores que ingresan al modelo (o equivalentemente a la matriz de diseño) con un único resultado (respuesta Y), mientras que 'multivariado' se refiere a una matriz de vectores de respuesta. No puedo recordar al autor que comienza su sección introductoria sobre modelado multivariante con esa consideración, pero creo que es Brian Everitt en su libro de texto An R and S-Plus Companion to Multivariate Analysis . Para una discusión exhaustiva sobre esto, sugeriría mirar su último libro, Modelado Multivariable y Análisis Multivariado para las Ciencias del Comportamiento .

Para 'variable', diría que esta es una forma común de referirse a cualquier variable aleatoria que sigue una distribución conocida o hipotética, por ejemplo, hablamos de las variantes gaussianas como una serie de observaciones extraídas de una distribución normal (con parámetros y ). En términos probabilísticos, dijimos que estas son algunas realizaciones aleatorias de X, con expectativa matemática , y se espera que aproximadamente el 95% de ellas se encuentren en el rango .Xiμσ2μ[μ2σ;μ+2σ]


1
Incluso coursera.org/learn/machine-learning/home/week/2 usa el término regresión multivariante en lugar de regresión múltiple ...
Franck Dernoncourt

Creo que la misma confusión surge con las personas que usan el término GLM para Modelo lineal general (p. Ej., En estudios de neuroimagen) versus Modelo lineal generalizado. He visto muchos casos de "regresión logística multivariada" en los que solo hay un resultado, y no creo que esto importe tanto, siempre que el autor defina claramente el término.
chl

39

Aquí hay dos ejemplos estrechamente relacionados que ilustran las ideas. Los ejemplos están algo centrados en los Estados Unidos, pero las ideas pueden extrapolarse a otros países.

Ejemplo 1

Supongamos que una universidad desea refinar sus criterios de admisión para que admitan "mejores" estudiantes. Además, suponga que el promedio de calificaciones (GPA) de un estudiante es lo que la universidad desea utilizar como medida de rendimiento para los estudiantes. Tienen varios criterios en mente, tales como GPA de escuela secundaria (HSGPA), puntajes de SAT (SAT), Género, etc. y les gustaría saber cuál de estos criterios es importante en lo que respecta al GPA.

Solución: Regresión múltiple

En el contexto anterior, hay una variable dependiente (GPA) y tiene múltiples variables independientes (HSGPA, SAT, género, etc.). Desea averiguar cuál de las variables independientes son buenos predictores para su variable dependiente. Usaría regresión múltiple para hacer esta evaluación.

Ejemplo 2

En lugar de la situación anterior, suponga que la oficina de admisiones desea realizar un seguimiento del rendimiento de los estudiantes a lo largo del tiempo y desea determinar cuál de sus criterios impulsa el rendimiento de los estudiantes a lo largo del tiempo. En otras palabras, tienen puntajes de GPA por los cuatro años que un estudiante permanece en la escuela (digamos, GPA1, GPA2, GPA3, GPA4) y quieren saber cuál de las variables independientes predice mejor los puntajes de GPA año tras año. año base. La oficina de admisiones espera encontrar que las mismas variables independientes predicen el desempeño durante los cuatro años, de modo que su elección de criterios de admisión garantice que el desempeño de los estudiantes sea consistentemente alto en los cuatro años.

Solución: regresión multivariante

En el ejemplo 2, tenemos múltiples variables dependientes (es decir, GPA1, GPA2, GPA3, GPA4) y múltiples variables independientes. En tal situación, usaría la regresión multivariada.


2
Siempre hay uno que responde correctamente la pregunta con ejemplos :)
Tjorriemorrie

100% la mejor respuesta que realmente puedes entender
Alvis

21

La regresión simple pertenece a una variable dependiente ( ) y una variable independiente ( ):yxy=f(x)

La regresión múltiple (también conocida como regresión multivariable) pertenece a una variable dependiente y múltiples variables independientes:y=f(x1,x2,...,xn)

La regresión multivariada pertenece a múltiples variables dependientes y múltiples variables independientes: . Puede encontrar problemas en los que las variables dependientes e independientes están organizadas como matrices de variables (por ejemplo, y ), por lo que La expresión puede escribirse como , donde las letras mayúsculas indican matrices.y 11 , y 12 , . . . x 11 , x 12 , . . . Y = f ( X )y1,y2,...,ym=f(x1,x2,...,xn)y11,y12,...x11,x12,...Y=f(X)

Otras lecturas:


Entiendo la definición. Pero, ¿cuál es el efecto de tratar una regresión multivariada como un sistema de regresiones univariadas?
LKS

@LKS: es posible que desee hacer eso en una pregunta completamente separada.
stackoverflowuser2010


¿La respuesta en el Quora se refiere a esta página? : P
Habeeb Perwad

4

Creo que la idea clave (y el diferenciador) aquí, aparte del número de variables a cada lado de la ecuación, es que para el caso de la regresión multivariada, el objetivo es utilizar el hecho de que existe una correlación (generalmente) entre las variables de respuesta (o resultados). Por ejemplo, en un ensayo médico, los predictores pueden ser el peso, la edad y la raza, y las variables de resultado son la presión arterial y el colesterol. Podríamos, en teoría, crear dos modelos de "regresión múltiple", uno que regrese la presión arterial sobre el peso, la edad y la raza, y un segundo modelo que regrese el colesterol sobre esos mismos factores. Sin embargo, alternativamente, podríamos crear un único modelo de regresión multivariante que prediga ambospresión arterial y colesterol simultáneamente basados ​​en las tres variables predictoras. La idea es que el modelo de regresión multivariante puede ser mejor (más predictivo) en la medida en que pueda aprender más de la correlación entre la presión arterial y el colesterol en los pacientes.


Gran punto Me preguntaba si la regresión multivariada se puede hacer con R. Usando Manova, puedo hacer ANOVA multivariante, pero no puedo obtener coeficientes como la regresión univariada.
KarthikS

1

En la regresión multivariada hay más de una variable dependiente con diferentes variaciones (o distribuciones). Las variables predictoras pueden ser más de una o múltiples. Por lo tanto, puede ser una regresión múltiple con una matriz de variables dependientes, es decir, varianzas múltiples. Pero cuando decimos regresión múltiple, nos referimos a una sola variable dependiente con una sola distribución o varianza. Las variables predictoras son más de una. Para resumir, múltiple se refiere a más de una variable predictiva, pero multivariante se refiere a más de una variable dependiente.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.