Un par de variables puede mostrar una correlación parcial alta (la correlación que explica el impacto de otras variables) pero una correlación marginal baja o incluso cero (correlación por pares).
Lo que significa que la correlación en pares entre una respuesta, y y algún predictor, x puede ser de poco valor para identificar variables adecuadas con un valor "predictivo" (lineal) entre una colección de otras variables.
Considere los siguientes datos:
y x
1 6 6
2 12 12
3 18 18
4 24 24
5 1 42
6 7 48
7 13 54
8 19 60
La correlación entre y y x es . Si trazo la línea de mínimos cuadrados, es perfectamente horizontal y el R 2 es, naturalmente, va a ser0R2 .0
Pero cuando agrega una nueva variable g, que indica de cuál de los dos grupos provienen las observaciones, x se vuelve extremadamente informativa:
y x g
1 6 6 0
2 12 12 0
3 18 18 0
4 24 24 0
5 1 42 1
6 7 48 1
7 13 54 1
8 19 60 1
El de un modelo de regresión lineal con variables tanto de la x y G en que será 1.R2
Es posible que este tipo de cosas suceda con cada una de las variables del modelo: que todas tengan una pequeña correlación por pares con la respuesta, aunque el modelo con todas ellas es muy bueno para predecir la respuesta.
Lectura adicional:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox