La mayoría de los modelos de regresión múltiple incluyen un término constante (es decir, la intersección), ya que esto garantiza que el modelo será imparcial, es decir, la media de los residuos será exactamente cero. (Los coeficientes en un modelo de regresión se estiman por mínimos cuadrados, es decir, minimizando el error cuadrático medio. Ahora, el error cuadrático medio es igual a la varianza de los errores más el cuadrado de su media: esta es una identidad matemática. Cambio el valor de la constante en el modelo cambia la media de los errores pero no afecta la varianza, por lo tanto, si la suma de los errores al cuadrado debe minimizarse, la constante debe elegirse de modo que la media de los errores sea cero. )
En un modelo de regresión simple, la constante representa la intersección en Y de la línea de regresión, en forma no estandarizada. En un modelo de regresión múltiple, la constante representa el valor que se pronosticaría para la variable dependiente si todas las variables independientes fueran simultáneamente iguales a cero, una situación que puede no ser física o económicamente significativa. Si no está particularmente interesado en lo que sucedería si todas las variables independientes fueran simultáneamente cero, entonces normalmente deja la constante en el modelo independientemente de su importancia estadística. Además de garantizar que los errores en la muestra sean imparciales, la presencia de la constante permite que la línea de regresión "busque su propio nivel" y proporcione el mejor ajuste a los datos que solo pueden ser localmente lineales.
Sin embargo, en casos excepcionales es posible que desee excluir la constante del modelo. Esta es una opción de ajuste del modelo en el procedimiento de regresión en cualquier paquete de software, y a veces se conoce como regresión a través del origen o RTO para abreviar. Por lo general, esto se hará solo si:
- es posible imaginar que todas las variables independientes asuman el valor cero simultáneamente, y usted siente que, en este caso, debería seguir lógicamente que la variable dependiente también será igual a cero; si no
- la constante es redundante con el conjunto de variables independientes que desea usar.
Un ejemplo del caso (1) sería un modelo en el que todas las variables, dependientes e independientes, representaran las primeras diferencias de otras series de tiempo. Si retrocede la primera diferencia de Y sobre la primera diferencia de X, está prediciendo directamente los cambios en Y como una función lineal de los cambios en X, sin referencia a los niveles actuales de las variables. En este caso, podría ser razonable (aunque no es obligatorio) suponer que Y no debería cambiar, en promedio, siempre que X no cambie, es decir, que Y no debería tener una tendencia al alza o a la baja en ausencia de cualquier cambio en el nivel de X.
Un ejemplo del caso (2) sería una situación en la que desea utilizar un conjunto completo de variables indicadoras estacionales; por ejemplo, está utilizando datos trimestrales y desea incluir las variables Q1, Q2, Q3 y Q4 que representan aditivo efectos estacionales. Por lo tanto, Q1 podría verse como 1 0 0 0 1 0 0 0 ..., Q2 se vería como 0 1 0 0 0 1 0 0 ... y así sucesivamente. No podría usar los cuatro y una constante en el mismo modelo, ya que Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. . . . , que es lo mismo que un término constante. Es decir, las cinco variables Q1, Q2, Q3, Q4 y CONSTANT no son linealmente independientes: cualquiera de ellas puede expresarse como una combinación lineal de las otras cuatro. Un prerrequisito técnico para ajustar un modelo de regresión lineal es que las variables independientes deben ser linealmente independientes; de lo contrario, los coeficientes de mínimos cuadrados no pueden determinarse de manera única,
Una advertencia: el cuadrado R y el estadístico F no tienen el mismo significado en un modelo RTO que en un modelo de regresión ordinario, y no están calculados de la misma manera por todo el software. Vea este artículo para algunas advertencias. No debe intentar comparar R cuadrado entre los modelos que incluyen y no incluyen un término constante, aunque está bien comparar el error estándar de la regresión.
Tenga en cuenta que el término "independiente" se usa (al menos) de tres maneras diferentes en la jerga de regresión: cualquier variable individual puede llamarse una variable independiente si se usa como predictor, en lugar de como predictor. Un grupo de variables es linealmente independiente si ninguna de ellas puede expresarse exactamente como una combinación lineal de las otras. Se dice que un par de variables son estadísticamente independientes si no solo son linealmente independientes sino que tampoco son totalmente informativas entre sí. En un modelo de regresión, desea que su variable dependiente sea estadísticamente dependiente de las variables independientes, que deben ser linealmente (pero no necesariamente estadísticamente) independientes entre sí.