Uno solo puede adivinar lo que un autor en particular podría decir con "variación compartida". Podríamos esperar circunscribir las posibilidades considerando qué propiedades debería tener este concepto (intuitivamente). Sabemos que "las variaciones agregan": la varianza de una sumaX+ ε es la suma de las variaciones de X y ε cuando X y εtener cero covarianza Es natural definir la "varianza compartida" deX con la suma como la fracción de la varianza de la suma representada por la varianza de X. Esto es suficiente para implicar las variaciones compartidas de cualquiera de las dos variables aleatorias.X y Y debe ser el cuadrado de su coeficiente de correlación.
Este resultado da sentido a la interpretación de un coeficiente de correlación al cuadrado como una "varianza compartida": en un sentido adecuado, realmente es una fracción de una varianza total que puede asignarse a una variable en la suma.
Los detalles siguen.
Principios y sus implicaciones
Por supuesto si Y= X, su "varianza compartida" (llamémosla "SV" de ahora en adelante) debería ser del 100%. Pero que siY y Xson versiones escaladas o desplazadas una de otra? Por ejemplo, ¿y siY representa la temperatura de una ciudad en grados F y Xrepresenta la temperatura en grados C? Me gustaría sugerir que en tales casosX y Y aún debe tener un 100% de SV, para que este concepto siga siendo significativo independientemente de cómo X y Y podría medirse:
SV( α + βX, γ+ δY) = SV( X, Y)(1)
para cualquier número α , γ y números distintos de cero β, δ.
Otro principio podría ser que cuando ε es una variable aleatoria independiente de X, entonces la varianza de X+ε puede descomponerse únicamente en dos partes no negativas,
Var( X+ ε ) = Var( X) + Var( ε ) ,
sugiriendo que intentemos definir SV en este caso especial como
SV( X, X+ ε ) =Var(X)Var(X) +Var( ϵ ).(2)
Dado que todos estos criterios son solo de segundo orden, solo involucran el primer y segundo momento de las variables en forma de expectativas y variaciones, relajemos el requisito de que X y εser independiente y solo exigir que no estén correlacionados . Esto hará que el análisis sea mucho más general de lo que podría ser.
Los resultados
Estos principios, si los acepta, conducen a un concepto único, familiar e interpretable. El truco será reducir el caso general al caso especial de una suma, donde podemos aplicar la definición( 2 ).
Dado (X,Y), simplemente intentamos descomponer Y en una versión escalada y cambiada de X más una variable que no está correlacionada con X: es decir, busquemos constantes (si es posible) α y β y una variable aleatoria ϵ para cual
Y= α + βX+ ε(3)
con Cov(X, ε ) = 0. Para que la descomposición tenga alguna posibilidad de ser única, debemos exigir
E [ε]=0
para que una vez β es encontrado, α Esta determinado por
α = E [ Y] - βE [X] .
Esto se parece mucho a la regresión lineal y de hecho lo es. El primer principio dice que podemos reescalarX y Y tener una varianza unitaria (suponiendo que cada una tenga una varianza distinta de cero) y que cuando se hace, los resultados de regresión estándar afirman el valor de β en ( 3 ) es la correlación de X y Y:
β= ρ ( X, Y) .(4)
Además, tomando las variaciones de ( 1 ) da
1 = Var( Y) =β2Var( X) + Var( ε ) =β2+ Var( ε ) ,
Insinuando
Var( ε ) = 1 -β2= 1 -ρ2.(5)
Por consiguiente
SV( X, Y)= SV( X, α + βX+ ε )= SV( βX, βX+ ε )=Var( βX)Var( βX) + Var( ϵ )=β2β2+ ( 1 -β2)=β2=ρ2(Modelo 3)(Propiedad 1)(Definición 2)(Resultado 5)(Relación 4) .
Tenga en cuenta que debido al coeficiente de regresión en Y (cuando está estandarizado a la varianza de la unidad) es ρ ( Y, X) = ρ ( X, Y), la "varianza compartida" en sí es simétrica, lo que justifica una terminología que sugiere el orden de X y Y No importa:
SV( X, Y) = ρ ( X, Y)2= ρ ( Y, X)2= SV( Y, X) .