¿Son realmente diferentes las regresiones múltiples y multivariadas? ¿Qué es una variante de todos modos?
¿Son realmente diferentes las regresiones múltiples y multivariadas? ¿Qué es una variante de todos modos?
Respuestas:
Muy rápidamente, diría: 'múltiple' se aplica al número de predictores que ingresan al modelo (o equivalentemente a la matriz de diseño) con un único resultado (respuesta Y), mientras que 'multivariado' se refiere a una matriz de vectores de respuesta. No puedo recordar al autor que comienza su sección introductoria sobre modelado multivariante con esa consideración, pero creo que es Brian Everitt en su libro de texto An R and S-Plus Companion to Multivariate Analysis . Para una discusión exhaustiva sobre esto, sugeriría mirar su último libro, Modelado Multivariable y Análisis Multivariado para las Ciencias del Comportamiento .
Para 'variable', diría que esta es una forma común de referirse a cualquier variable aleatoria que sigue una distribución conocida o hipotética, por ejemplo, hablamos de las variantes gaussianas como una serie de observaciones extraídas de una distribución normal (con parámetros y ). En términos probabilísticos, dijimos que estas son algunas realizaciones aleatorias de X, con expectativa matemática , y se espera que aproximadamente el 95% de ellas se encuentren en el rango .
Aquí hay dos ejemplos estrechamente relacionados que ilustran las ideas. Los ejemplos están algo centrados en los Estados Unidos, pero las ideas pueden extrapolarse a otros países.
Ejemplo 1
Supongamos que una universidad desea refinar sus criterios de admisión para que admitan "mejores" estudiantes. Además, suponga que el promedio de calificaciones (GPA) de un estudiante es lo que la universidad desea utilizar como medida de rendimiento para los estudiantes. Tienen varios criterios en mente, tales como GPA de escuela secundaria (HSGPA), puntajes de SAT (SAT), Género, etc. y les gustaría saber cuál de estos criterios es importante en lo que respecta al GPA.
Solución: Regresión múltiple
En el contexto anterior, hay una variable dependiente (GPA) y tiene múltiples variables independientes (HSGPA, SAT, género, etc.). Desea averiguar cuál de las variables independientes son buenos predictores para su variable dependiente. Usaría regresión múltiple para hacer esta evaluación.
Ejemplo 2
En lugar de la situación anterior, suponga que la oficina de admisiones desea realizar un seguimiento del rendimiento de los estudiantes a lo largo del tiempo y desea determinar cuál de sus criterios impulsa el rendimiento de los estudiantes a lo largo del tiempo. En otras palabras, tienen puntajes de GPA por los cuatro años que un estudiante permanece en la escuela (digamos, GPA1, GPA2, GPA3, GPA4) y quieren saber cuál de las variables independientes predice mejor los puntajes de GPA año tras año. año base. La oficina de admisiones espera encontrar que las mismas variables independientes predicen el desempeño durante los cuatro años, de modo que su elección de criterios de admisión garantice que el desempeño de los estudiantes sea consistentemente alto en los cuatro años.
Solución: regresión multivariante
En el ejemplo 2, tenemos múltiples variables dependientes (es decir, GPA1, GPA2, GPA3, GPA4) y múltiples variables independientes. En tal situación, usaría la regresión multivariada.
La regresión simple pertenece a una variable dependiente ( ) y una variable independiente ( ):
La regresión múltiple (también conocida como regresión multivariable) pertenece a una variable dependiente y múltiples variables independientes:
La regresión multivariada pertenece a múltiples variables dependientes y múltiples variables independientes: . Puede encontrar problemas en los que las variables dependientes e independientes están organizadas como matrices de variables (por ejemplo, y ), por lo que La expresión puede escribirse como , donde las letras mayúsculas indican matrices.y 11 , y 12 , . . . x 11 , x 12 , . . . Y = f ( X )
Otras lecturas:
Creo que la idea clave (y el diferenciador) aquí, aparte del número de variables a cada lado de la ecuación, es que para el caso de la regresión multivariada, el objetivo es utilizar el hecho de que existe una correlación (generalmente) entre las variables de respuesta (o resultados). Por ejemplo, en un ensayo médico, los predictores pueden ser el peso, la edad y la raza, y las variables de resultado son la presión arterial y el colesterol. Podríamos, en teoría, crear dos modelos de "regresión múltiple", uno que regrese la presión arterial sobre el peso, la edad y la raza, y un segundo modelo que regrese el colesterol sobre esos mismos factores. Sin embargo, alternativamente, podríamos crear un único modelo de regresión multivariante que prediga ambospresión arterial y colesterol simultáneamente basados en las tres variables predictoras. La idea es que el modelo de regresión multivariante puede ser mejor (más predictivo) en la medida en que pueda aprender más de la correlación entre la presión arterial y el colesterol en los pacientes.
En la regresión multivariada hay más de una variable dependiente con diferentes variaciones (o distribuciones). Las variables predictoras pueden ser más de una o múltiples. Por lo tanto, puede ser una regresión múltiple con una matriz de variables dependientes, es decir, varianzas múltiples. Pero cuando decimos regresión múltiple, nos referimos a una sola variable dependiente con una sola distribución o varianza. Las variables predictoras son más de una. Para resumir, múltiple se refiere a más de una variable predictiva, pero multivariante se refiere a más de una variable dependiente.