Tanto la correlación como la covarianza miden la asociación lineal entre dos variables dadas y no tiene la obligación de detectar ninguna otra forma de asociación.
Por lo tanto, esas dos variables podrían estar asociadas de varias otras formas no lineales y la covarianza (y, por lo tanto, la correlación) no podría distinguir del caso independiente.
Como muy didáctica, artificial y ejemplo no realista, se puede considerar XX de tal manera que P ( X = x ) = 1 / 3P(X=x)=1/3 para x = - 1 , 0 , 1x=−1,0,1 y también considerar Y = X 2Y=X2 . Tenga en cuenta que no solo están asociados, sino que uno es una función del otro. No obstante, su covarianza es 0, ya que su asociación es ortogonal a la asociación que la covarianza puede detectar.
EDITAR
De hecho, como lo indica @whuber, la respuesta original anterior fue en realidad un comentario sobre cómo la afirmación no es universalmente cierta si ambas variables no son necesariamente dicotómicas. ¡Culpa mía!
Así que vamos a matemática. (El equivalente local de "Suit up!" De Barney Stinson)
Caso particular
Si XX e YY fueran dicotómicos, entonces puede suponer, sin pérdida de generalidad, que ambos asumen solo los valores 00 y 11 con probabilidades arbitrarias pp , qq y rr dadas por
P ( X = 1 ) = p ∈ [ 0 , 1 ] P ( Y = 1 ) = q ∈ [ 0 , 1 ] P ( X = 1 , Y= 1 ) = r ∈ [ 0 , 1 ] ,
que caracterizan completamente la distribución conjunta deXyY. Tomando la sugerencia de @ DilipSarwate, observe que esos tres valores son suficientes para determinar la distribución conjunta de(X,Y), ya que
P ( X = 0 , Y = 1 )
P(X=1)=p∈[0,1]P(Y=1)=q∈[0,1]P(X=1,Y=1)=r∈[0,1],
XY(X,Y)= P ( Y = 1 ) - P ( X = 1 , Y = 1 ) = q - r P ( X = 1 , Y = 0 )= P ( X = 1 ) - P ( X = 1 , Y = 1 ) = p - r P ( X = 0 , Y = 0 )= 1 - P ( X = 0 , Y = 1 ) - P ( X = 1 , Y = 0 ) - P ( X = 1 , Y = 1 )= 1 - ( q - r ) - ( p - r ) - r = 1 - p - q - r .
(En una nota al margen, por supuesto,
restá obligado a respetar tanto
p-r∈[0,1],
q-r∈[0,1]como
1-p-q-r∈[P(X=0,Y=1)P(X=1,Y=0)P(X=0,Y=0)=P(Y=1)−P(X=1,Y=1)=q−r=P(X=1)−P(X=1,Y=1)=p−r=1−P(X=0,Y=1)−P(X=1,Y=0)−P(X=1,Y=1)=1−(q−r)−(p−r)−r=1−p−q−r.
rp−r∈[0,1]q−r∈[0,1]0 , 1 ] más allá de
r ∈ [ 0 , 1 ] , es decir
r ∈ [ 0 , min ( p , q , 1 - p - q ) ] .)
1−p−q−r∈[0,1]r∈[0,1]r∈[0,min(p,q,1−p−q)]
Notice that r=P(X=1,Y=1)r=P(X=1,Y=1) might be equal to the product p⋅q=P(X=1)P(Y=1)p⋅q=P(X=1)P(Y=1), which would render XX and YY independent, since
P(X=0,Y=0)=1−p−q−pq=(1−p)(1−q)=P(X=0)P(Y=0)P(X=1,Y=0)=p−pq=p(1−q)=P(X=1)P(Y=0)P(X=0,Y=1)=q−pq=(1−p)q=P(X=0)P(Y=1).
P(X=0,Y=0)P(X=1,Y=0)P(X=0,Y=1)=1−p−q−pq=(1−p)(1−q)=P(X=0)P(Y=0)=p−pq=p(1−q)=P(X=1)P(Y=0)=q−pq=(1−p)q=P(X=0)P(Y=1).
Yes, rr might be equal to pqpq, BUT it can be different, as long as it respects the boundaries above.
Well, from the above joint distribution, we would have
E(X)=0⋅P(X=0)+1⋅P(X=1)=P(X=1)=pE(Y)=0⋅P(Y=0)+1⋅P(Y=1)=P(Y=1)=qE(XY)=0⋅P(XY=0)+1⋅P(XY=1)=P(XY=1)=P(X=1,Y=1)=rCov(X,Y)=E(XY)−E(X)E(Y)=r−pq
E(X)E(Y)E(XY)Cov(X,Y)=0⋅P(X=0)+1⋅P(X=1)=P(X=1)=p=0⋅P(Y=0)+1⋅P(Y=1)=P(Y=1)=q=0⋅P(XY=0)+1⋅P(XY=1)=P(XY=1)=P(X=1,Y=1)=r=E(XY)−E(X)E(Y)=r−pq
Now, notice then that XX and YY are independent if and only if Cov(X,Y)=0Cov(X,Y)=0. Indeed, if XX and YY are independent, then P(X=1,Y=1)=P(X=1)P(Y=1)P(X=1,Y=1)=P(X=1)P(Y=1), which is to say r=pqr=pq. Therefore, Cov(X,Y)=r−pq=0Cov(X,Y)=r−pq=0; and, on the other hand, if Cov(X,Y)=0Cov(X,Y)=0, then r−pq=0r−pq=0, which is to say r=pqr=pq. Therefore, XX and YY are independent.
General Case
About the without loss of generality clause above, if XX and YY were distributed otherwise, let's say, for a<ba<b and c<dc<d,
P(X=b)=pP(Y=d)=qP(X=b,Y=d)=r
P(X=b)=pP(Y=d)=qP(X=b,Y=d)=r
then
X′X′ and
Y′Y′ given by
X′=X−ab−aandY′=Y−cd−cX′=X−ab−aandY′=Y−cd−c
would be distributed just as characterized above, since
X=a⇔X′=0,X=b⇔X′=1,Y=c⇔Y′=0andY=d⇔Y′=1.X=a⇔X′=0,X=b⇔X′=1,Y=c⇔Y′=0andY=d⇔Y′=1.
So
XX and
YY are independent
if and only if X′X′ and
Y′Y′ are independent.
Also, we would have
E(X′)=E(X−ab−a)=E(X)−ab−aE(Y′)=E(Y−cd−c)=E(Y)−cd−cE(X′Y′)=E(X−ab−aY−cd−c)=E[(X−a)(Y−c)](b−a)(d−c)=E(XY−Xc−aY+ac)(b−a)(d−c)=E(XY)−cE(X)−aE(Y)+ac(b−a)(d−c)Cov(X′,Y′)=E(X′Y′)−E(X′)E(Y′)=E(XY)−cE(X)−aE(Y)+ac(b−a)(d−c)−E(X)−ab−aE(Y)−cd−c=[E(XY)−cE(X)−aE(Y)+ac]−[E(X)−a][E(Y)−c](b−a)(d−c)=[E(XY)−cE(X)−aE(Y)+ac]−[E(X)E(Y)−cE(X)−aE(Y)+ac](b−a)(d−c)=E(XY)−E(X)E(Y)(b−a)(d−c)=1(b−a)(d−c)Cov(X,Y).
E(X′)E(Y′)E(X′Y′)Cov(X′,Y′)=E(X−ab−a)=E(X)−ab−a=E(Y−cd−c)=E(Y)−cd−c=E(X−ab−aY−cd−c)=E[(X−a)(Y−c)](b−a)(d−c)=E(XY−Xc−aY+ac)(b−a)(d−c)=E(XY)−cE(X)−aE(Y)+ac(b−a)(d−c)=E(X′Y′)−E(X′)E(Y′)=E(XY)−cE(X)−aE(Y)+ac(b−a)(d−c)−E(X)−ab−aE(Y)−cd−c=[E(XY)−cE(X)−aE(Y)+ac]−[E(X)−a][E(Y)−c](b−a)(d−c)=[E(XY)−cE(X)−aE(Y)+ac]−[E(X)E(Y)−cE(X)−aE(Y)+ac](b−a)(d−c)=E(XY)−E(X)E(Y)(b−a)(d−c)=1(b−a)(d−c)Cov(X,Y).
So
Cov(X,Y)=0Cov(X,Y)=0 if and only Cov(X′,Y′)=0Cov(X′,Y′)=0.
=D