Esta publicación se refiere a un modelo de regresión lineal bivariado, . Siempre he tomado la división de la suma total de cuadrados (SSTO) en la suma de cuadrados por error (SSE) y la suma de cuadrados para el modelo (SSR) por fe, pero una vez que comencé a pensar realmente en eso, no entiendo por qué funciona ...
La parte que no entiendo:
: un valor observado de y
yi : la media de todos los s observados
: el valor ajustado / pronosticado de y para una observación dada x
: Residual / error (si se ajusta al cuadrado y se suma para todas las observaciones, esto es SSE)
: cuánto difiere el valor ajustado del modelo de la media (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSR)
: cuánto difiere un valor observado de la media (si se suaviza y suma para todas las observaciones, esto es SSTO).
Puedo entender por qué, para una sola observación, sin cuadrar nada, . Y puedo entender por qué, si quieres sumar cosas sobre todas las observaciones, tienes que cuadrarlas o sumarán 0.
La parte que no entiendo es por qué (por ejemplo, SSTO = SSR + SSE). Parece ser que si tiene una situación en la que , entonces , no . ¿Por qué no es ese el caso aquí?A=B+CA2=B2+2BC+C2A2=B2+C2