@Irishstat cubrió más o menos lo que estaba a punto de decir, pero respondería con mi propia experiencia personal en el modelado de estos datos con regresión de series temporales y regresión OLS.
Si se trata de datos diarios, haría lo siguiente:
Cree una variable ficticia para una estacionalidad diferente:
- Para capturar la estacionalidad del día de la semana, cree 6 variables ficticias.
- Para capturar la estacionalidad del día del mes, cree 30 variables ficticias
- Para capturar el mes del año, cree 11 variables ficticias.
Crear variable ficticia para variables de tendencia:
Si la serie temporal presenta una tendencia lineal, entonces agregue una variable de tendencia temporal.
Si la serie temporal presenta una tendencia no lineal, agregue una variable de tendencia temporal no lineal como cuadrática / cúbica / log
Agregar variables independientes Variables
Estos son datos de series de tiempo, por lo que se debe tener cuidado con los efectos de plomo y retraso de las varibales independientes. Por ejemplo, en su ejemplo, usted menciona una bandera promocional de precio, puede que no tenga un efecto inmediato en su respuesta, es decir, puede haber un retraso y un efecto decadente / permanente . Entonces, por ejemplo, si ejecuta una promoción hoy, puede tener un aumento en las ventas hoy pero el efecto de la promoción decae después de unos días. No hay una manera fácil de modelar esto usando regresión múltiple, usted querría usar el modelado de la función de transferencia que es parsimonoius y puede manejar cualquier tipo de efectos de adelanto y retraso. Vea este ejemplo que publiqué anteriormente, donde hay una intervención (en su punto de precio de caso) y hay un aumento abrupto, seguido de un efecto decadente. Habiendo dicho eso si tienesconocimiento a priori sobre el efecto de adelanto y retraso, cree variables adicionales en las variables ficticias de su caso antes y después del punto de precio y (sí / no) el cambio de promoción.
También necesitará agregar variables indicadoras de días festivos en movimiento, por ejemplo, como Irishstat señaló que desea agregar Pascua / Acción de Gracias (en EE. UU.) Que son días festivos en movimiento. Las vacaciones que son fechas fijas se atenderán automáticamente si está utilizando un esquema de codificación ficticio para capturar la estacionalidad.
Además, necesitaría identificar valores atípicos como aditivo / pulso (evento único) o cambio de nivel (cambio permanente) y agregarlos como regresores. Identificar valores atípicos en regresión múltiple para datos de series temporales es casi imposible; necesitaría métodos de detección de valores atípicos de series temporales como el procedimiento de Tsay o el procedimiento de Chen y Liu que se ha incorporado en software como AUTOBOX, SPSS, SAS o el tsoutlier
paquete en R.
Problemas potenciales:
Los siguientes son los problemas con los que se encontraría si modela datos de series de tiempo utilizando la regresión múltiple de OLS.
- Los errores pueden estar autocorrelacionados. Vea este bonito sitio web y este sitio web que explica este problema. Una forma de evitar esto es usar el método de mínimos cuadrados generalizados (GLS) o ARIMAX frente a la regresión múltiple de OLS, donde puede corregir la correlación automática.
- 6 + 30 + 11 = 47
- Al usar variables ficticias, está asumiendo que su estacionalidad es determinista, es decir, que no cambia con el tiempo. Como solo tiene 3 años de datos, no me preocuparía, pero aún así vale la pena trazar la serie y ver si la estacionalidad no cambia.
Y hay muchas más desventajas de usar la regresión múltiple. Si la predicción es más importante para usted, entonces tendré al menos 6 meses de datos y probaré la capacidad predictiva de su regresión múltiple. Si su objetivo principal es explicar la correlación entre variables independientes, entonces sería cauteloso usando regresión múltiple, y en su lugar usaría un enfoque de series de tiempo como ARIMAX / GLS.
Si está interesado, puede consultar el excelente texto de Pankratz , para la función de transferencia y el modelado de regresión dinámica. Para el pronóstico general de series de tiempo, consulte Makridakis et al . Además, Diebold sería un buen texto de referencia para la regresión y el pronóstico basado en series de tiempo.