¿Dónde está la varianza compartida entre todos los IV en una ecuación de regresión múltiple lineal?

En una ecuación de regresión múltiple lineal, si los pesos beta reflejan la contribución de cada variable independiente individual más allá de la contribución de todos los otros IV, ¿dónde en la ecuación de regresión es la varianza compartida por todos los IV que predice el DV?

Por ejemplo, si el diagrama de Venn que se muestra a continuación (y tomado de la página 'sobre' del CV aquí: https://stats.stackexchange.com/about ) se volvió a etiquetar como 3 IV y 1 DV, ¿dónde entraría el área con el asterisco? en la ecuación de regresión múltiple?

ingrese la descripción de la imagen aquí

multiple-regression sums-of-squares

— Joel W.
fuente

No veo la necesidad de un voto negativo aquí. Creo que esta pregunta llega a lo que está sucediendo en la regresión múltiple a un nivel fundamental, y ofrece la oportunidad de explicar algo sobre MR que de otra manera nunca se discutiría.

— gung - Restablece a Monica

Respuestas:

Para entender qué podría significar ese diagrama, tenemos que definir algunas cosas. Digamos que el diagrama de Venn muestra la varianza superpuesta (o compartida) entre 4 variables diferentes, y que queremos predecir el nivel de recurriendo a nuestro conocimiento de , y . Es decir, queremos poder reducir la incertidumbre (es decir, la varianza) en desde la varianza nula hasta la varianza residual. ¿Qué tan bien se puede hacer eso? Esa es la pregunta que un diagrama de Venn está respondiendo por usted. $Wiki$ $Digg$ $Forum$ $Blog$ $Wiki$

Cada círculo representa un conjunto de puntos y, por lo tanto, una cantidad de variación. En su mayor parte, estamos interesados en la variación en $Wiki$ , pero la figura también muestra las variaciones en los predictores. Hay algunas cosas que notar sobre nuestra figura. Primero, cada variable tiene la misma cantidad de variación: todas tienen el mismo tamaño (aunque no todos usarán los diagramas de Venn tan literalmente). Además, hay la misma cantidad de superposición, etc., etc. Una cosa más importante a notar es que hay una buena superposición entre las variables predictoras. Esto significa que están correlacionados. Esta situación es muy común cuando se trata de datos secundarios (es decir, de archivo), investigación observacional o escenarios de predicción del mundo real. Por otro lado, si este fuera un experimento diseñado, probablemente implicaría un mal diseño o ejecución. Para continuar con este ejemplo un poco más, podemos ver que nuestra capacidad de predicción será moderada; la mayor parte de la variabilidad en $Wiki$ permanece como variabilidad residual después de que se hayan utilizado todas las variables (mirando el diagrama, supongo que ). Otra cosa a destacar es que, una vez y se han introducido en el modelo, cuentas para ninguno de la variabilidad en la . $R^2\approx.35$ $Digg$ $Blog$ $Forum$ $Wiki$

Ahora, después de ajustar un modelo con múltiples predictores, las personas a menudo quieren probar esos predictores para ver si están relacionados con la variable de respuesta (aunque no está claro que esto sea tan importante como parece creer la gente). Nuestro problema es que para probar estos predictores, debemos dividir la Suma de cuadrados , y dado que nuestros predictores están correlacionados, hay SS que podrían atribuirse a más de un predictor. De hecho, en la región con asterisco, el SS podría atribuirse a cualquiera de los tres predictores. Esto significa que no hay una partición única del SS y, por lo tanto, no hay una prueba única. La forma en que se maneja este problema depende del tipo de SS que usa el investigador yotros juicios hechos por el investigador . Dado que muchas aplicaciones de software devuelven SS tipo III por defecto, muchas personas descartan la información contenida en las regiones superpuestas sin darse cuenta de que han hecho una llamada de juicio . Explico estos problemas, los diferentes tipos de SS, y entro aquí con algunos detalles .

La pregunta, como se indicó, pregunta específicamente dónde se muestra todo esto en la ecuación de beta / regresión. La respuesta es que no. Parte de mi información está contenida en mi respuesta aquí (aunque tendrá que leer un poco entre líneas).

— gung - Restablece a Monica
fuente

Hola Gung, gracias por tu publicación. Es muy interesante y me abrió los ojos en algunas áreas. Sin embargo, tengo problemas para leer entre líneas de la publicación a la que se vinculó. Entonces, mi pregunta sigue siendo: en una ecuación de regresión múltiple lineal, si los pesos beta reflejan la contribución de cada variable independiente individual por encima de la contribución de todos los otros IV, donde en la ecuación de regresión está la varianza compartida por todos los IV que predice el DV?

— Joel W.

Sí, va a ser bastante difícil de ver. El punto es que hay una diferencia fundamental entre la cuestión de 1 cómo particionar el SS para la prueba, y 2 estimar las versiones beta. 1 se refiere a atribuir SS a qué predictor; 2 recoge valores óptimos para las betas. La superposición aparece en el primero, no en el segundo. Si retrocedió en y guardó los residuos, luego predijo esos residuos del y los residuos guardados-2, etc. (esto es inapropiado, por cierto), verá que las beta fluctúan enormemente. Pero Mult Reg estima todas las versiones beta simultáneamente , por lo que no aparece.

W i k i

$Wiki$

D i g g

$Digg$

F o r u m

$Forum$

— gung - Restablece a Monica

Si "La superposición aparece en el primero, no en el segundo", ¿cómo puede la ecuación de regresión reflejar la varianza compartida? Si las Betas indican la contribución de cada IV cuando los efectos de todos los otros IV se eliminan estadísticamente, ¿qué parte de la fórmula de regresión refleja el poder predictivo de la varianza compartida eliminada? O, ¿cómo puede la ecuación de regresión mostrar qué sucedería con la Y pronosticada si incrementa uno de los IV en 1 si la superposición no se refleja en las Betas? Una tercera pregunta: en un análisis MR de los datos subyacentes al diagrama de Venn, ¿el Foro beta = 0?

— Joel W.

La superposición está en la prueba , no en las versiones beta : no estoy seguro de qué otra forma poner eso. Cada beta denota el efecto sobre la variable de respuesta de un cambio de 1 unidad en la covariable, con todo lo demás mantenido constante ; una beta dada seguramente no sería la misma si las otras covariables fueran eliminadas del modelo. Si el diagrama de Venn refleja con precisión el proceso de generación de datos verdaderos, entonces el valor verdadero para , pero las estimaciones empíricas básicamente nunca son exactamente 0 en la práctica.

β_{F} = 0

$\beta_{F}=0$

— gung - Restablece a Monica

@MarkWhite, la respuesta del estudiante es mayormente correcta. La afirmación de que cuando X1 y X2 están perfectamente correlacionados sus betas son la mitad no es correcta; cuando r = 1 el modelo no es identificable (cf, aquí ). A medida que r se acerca a 1, las betas estimadas dependerán de las relaciones en los datos de la muestra y pueden variar ampliamente de una muestra a otra.

— gung - Restablece a Monica

Peter Kennedy tiene una buena descripción de los diagramas de Ballentine / Venn para la regresión en su libro y artículo de JSE , incluidos los casos en los que pueden llevarlo por mal camino.

La esencia es que la variación del área estrellada se desecha solo para estimar y probar los coeficientes de la pendiente. Esa variación se agrega nuevamente con el propósito de predecir y calcular . $R^2$

— Dimitriy V. Masterov
fuente

R^{2}

$R^2$

De hecho y listo.

— Dimitriy V. Masterov

¿Se utiliza el área con estrellas para calcular y pronosticada? Si es así, ¿en qué parte de la fórmula de predicción el área destacada contribuye a la y pronosticada? Dicho de otra manera, ¿qué término o términos en la fórmula de predicción reflejan el área destacada?

— Joel W.

Me doy cuenta de que este es un hilo (muy) anticuado, pero como uno de mis colegas me hizo esta misma pregunta esta semana y no encontré nada en la Web que pudiera señalarle, pensé que agregaría mis dos centavos "para la posteridad". aquí. No estoy convencido de que las respuestas proporcionadas hasta la fecha respondan a la pregunta del OP.

Voy a simplificar el problema para involucrar solo dos variables independientes; Es muy sencillo extenderlo a más de dos. Considere el siguiente escenario: dos variables independientes (X1 y X2), una variable dependiente (Y), 1000 observaciones, las dos variables independientes están altamente correlacionadas entre sí (r = .99), y cada variable independiente está correlacionada con la dependiente variable (r = .60). Sin pérdida de generalidad, estandarice todas las variables a una media de cero y una desviación estándar de uno, por lo que el término de intercepción será cero en cada una de las regresiones.

Ejecutar una regresión lineal simple de Y en X1 producirá un r cuadrado de .36 y un valor de b1 de 0.6. Del mismo modo, ejecutar una regresión lineal simple de Y en X2 producirá un r cuadrado de .36 y un valor de b1 de 0.6.

Ejecutar una regresión múltiple de Y en X1 y X2 producirá un r cuadrado de apenas un poquito más alto que .36, y tanto b1 como b2 toman el valor de 0.3. Por lo tanto, la variación compartida en Y se captura en AMBOS b1 y b2 (igualmente).

Creo que el OP puede haber hecho una suposición falsa (pero totalmente comprensible): a saber, que a medida que X1 y X2 se acercan más y más a estar perfectamente correlacionados, sus valores b en la ecuación de regresión múltiple se acercan cada vez más a CERO. Ese no es el caso. De hecho, cuando X1 y X2 se acercan cada vez más a una correlación perfecta, sus valores b en la regresión múltiple se acercan cada vez más a la MITAD del valor b en la regresión lineal simple de cualquiera de ellos. Sin embargo, a medida que X1 y X2 se acercan cada vez más a una correlación perfecta, el ERROR ESTÁNDAR de b1 y b2 se acerca cada vez más al infinito, por lo que los valores t convergen en cero. Entonces, los valores t convergerán en cero (es decir, no hay una relación lineal ÚNICA entre X1 e Y o X2 e Y),

Entonces, la respuesta a la pregunta del OP es que, a medida que la correlación entre X1 y X2 se aproxima a la unidad, CADA coeficiente de pendiente parcial se aproxima contribuyendo igualmente a la predicción del valor Y, aunque ninguna variable independiente ofrece una explicación ÚNICA de la dependencia variable.

Si desea verificar esto empíricamente, genere un conjunto de datos fabricado (... Usé una macro SAS llamada Corr2Data.sas ...) que tiene las características descritas anteriormente. Consulte los valores b, los errores estándar y los valores t: encontrará que son exactamente como se describen aquí.

HTH // Phil

— Estudiante
fuente

Esta es una explicación fantástica, gracias. Traté de simular diferentes situaciones en R, y llegué a la conclusión de que no puede deshacerse de la variabilidad compartida si n es demasiado grande, o si la correlación entre la salida (Y) y el componente compartido (X1 y X2 ) es muy alto. Pero, ¿por qué los valores t reflejarían algo que no son las contribuciones únicas de X1 y X2, para empezar? Si los valores t de regresión reflejan las contribuciones únicas de los predictores, no deberíamos ver que la variabilidad compartida afecta a los valores t, pero lo hacemos. ¿Porqué es eso?

— Galit