Estoy interesado en el significado geométrico de la correlación múltiple y el coeficiente de determinación en la regresión , o en notación vectorial ,
Aquí la matriz de diseño tiene filas y columnas, de las cuales la primera es , un vector de 1s que corresponde a la intersección .
La geometría es más interesante en el espacio sujeto dimensional que en el espacio variable dimensional. Defina la matriz del sombrero:
Esta es una proyección ortogonal en el espacio de la columna de , es decir, el plano a través del origen atravesado por los vectores que representan cada variable , el primero de los cuales es . Entonces proyecta el vector de las respuestas observadas sobre su "sombra" en el piso, el vector de valores ajustados y = H y , y si miramos a lo largo del camino de la proyección vemos el vector de residuos e = y - yforma el tercer lado de un triángulo. Esto debería proporcionarnos dos rutas para una interpretación geométrica de :
- El cuadrado del coeficiente de correlación múltiple, , que se define como la correlación entre y Y . Esto aparecerá geométricamente como el coseno de un ángulo.
Estaría encantado de ver una breve cuenta que explica:
- Los detalles más finos para (1) y (2),
- Por qué (1) y (2) son equivalentes,
- Brevemente, cómo la visión geométrica nos permite visualizar las propiedades básicas de , por ejemplo, por qué va a 1 cuando la variación de ruido va a 0. (Después de todo, si no podemos intuir a partir de nuestra visualización, entonces no es más que un bonita foto)
Aprecio que esto sea más sencillo si las variables se centran primero, lo que elimina la intercepción de la pregunta. Sin embargo, en la mayoría de las cuentas de libros de texto que introducen regresión múltiple, la matriz de diseño es la que expuse. Por supuesto, está bien si una exposición profundiza en el espacio abarcado por las variables centradas, pero para conocer el álgebra lineal del libro de texto, sería muy útil relacionar esto con lo que está sucediendo geométricamente en la situación no centrada. Una respuesta realmente perspicaz podría explicar qué se descompone exactamente geométricamente cuando se cae el término de intercepción, es decir, cuando el vector1 nse elimina del conjunto de expansión. No creo que este último punto pueda abordarse considerando solo las variables centradas.