Ejemplos de la vida real de diferencia entre independencia y correlación


9

Es bien sabido que la independencia de las variables aleatorias implica una correlación cero, pero la correlación cero no implica necesariamente independencia.

Encontré muchos ejemplos matemáticos que demuestran dependencia a pesar de la correlación cero. ¿Hay ejemplos de la vida real para respaldar este hecho?


2
Tenga cuidado, solo la correlación cero y las variables conjuntas normales implican independencia.
Francis

2
@Siddesh "Pero como el volumen no es una función lineal de la longitud, no están correlacionados". Bueno, no está perfectamente correlacionado. Pero estarían positivamente correlacionados.
Silverfish

1
@Siddhesh: eso solo funcionará si ...E[length4]E[length]E[length3]=0
Francis

1
Siéntete libre de volver a poner el comentario sobre la distribución normal si no estás de acuerdo con mi edición. Pero pensé que sería mejor eliminarlo ya que (1) es un tema secundario que distrae la atención de su pregunta principal, (2) (creo) ya se le ha preguntado en CV antes, por lo que sería un duplicado del material existente aquí, ( 3) No quería que causara confusión entre los futuros lectores. Intenté editar la pregunta de tal manera que aumentara sus posibilidades de ser reabierta: creo que esta pregunta es bastante distinta de las "estadísticas matemáticas" sobre el mismo tema.
Silverfish

2
Todavía creo que esta pregunta es realmente buena, y podría atraer algunas respuestas más interesantes si se pudiera volver a abrir (lo que podría implicar alguna edición para distinguirla claramente del hilo del que actualmente se considera un duplicado). He planteado un hilo en Meta sobre lo que se necesitaría para volver a abrir esta pregunta. Todos los comentarios son bienvenidos.
Silverfish

Respuestas:


6

Las devoluciones de acciones son un ejemplo decente de la vida real de lo que está pidiendo. Existe una correlación muy cercana a cero entre el rendimiento del S&P 500 de hoy y el de ayer. Sin embargo, existe una clara dependencia: los rendimientos al cuadrado están autocorrelacionados positivamente; Los períodos de alta volatilidad se agrupan en el tiempo.

Código R:

library(ggplot2)
library(grid)
library(quantmod)

symbols   <- new.env()
date_from <- as.Date("1960-01-01")
date_to   <- as.Date("2016-02-01")
getSymbols("^GSPC", env=symbols, src="yahoo", from=date_from, to=date_to)  # S&P500

df <- data.frame(close=as.numeric(symbols$GSPC$GSPC.Close),
                 date=index(symbols$GSPC))
df$log_return     <- c(NA, diff(log(df$close)))
df$log_return_lag <- c(NA, head(df$log_return, nrow(df) - 1))

cor(df$log_return,   df$log_return_lag,   use="pairwise.complete.obs")  # 0.02
cor(df$log_return^2, df$log_return_lag^2, use="pairwise.complete.obs")  # 0.14

acf(df$log_return,     na.action=na.pass)  # Basically zero autocorrelation
acf((df$log_return^2), na.action=na.pass)  # Squared returns positively autocorrelated

p <- (ggplot(df, aes(x=date, y=log_return)) +
      geom_point(alpha=0.5) +
      theme_bw() + theme(panel.border=element_blank()))
p
ggsave("log_returns_s&p.png", p, width=10, height=8)

La serie de tiempos de registro vuelve en el S&P 500:

registro de tiempos de retorno

Si los retornos fueran independientes a través del tiempo (y estacionarios), sería muy poco probable ver esos patrones de volatilidad agrupada, y no vería la autocorrelación en los retornos de registros cuadrados.


3

Otro ejemplo es la relación entre el estrés y las calificaciones en un examen. La relación es una forma de U inversa y la correlación es muy baja a pesar de que la causalidad parece bastante clara.


2
Ese es un buen ejemplo. ¿Tiene datos o esto solo basado en la introspección / experiencia docente?
Adrian

1
Vi un estudio de esto, pero lo vi hace muchos años, así que no tengo la cita o los datos reales.
Peter Flom - Restablece a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.