La referencia a "dejar que los datos guíen el modelo" puede atribuirse a George EP Box y Gwilym M. Jenkins . En el Capítulo 2 de su libro de texto clásico, Análisis de series de tiempo: pronósticos y control (1976), se dice que:
La obtención de estimaciones muestrales de la función de autocorrelación y del espectro son enfoques no estructurales, análogos a la representación de una función de distribución empírica mediante un histograma. Ambas son formas de permitir que los datos de las series estacionarias `` hablen por sí mismos '' y brinden un primer paso en el análisis de series temporales, del mismo modo que un histograma puede proporcionar un primer paso en el análisis distribucional de datos, señalando el camino hacia algún modelo paramétrico en el que se basará el análisis posterior.
Este procedimiento de modelado de dejar que los datos hablen , como defiende Box & Jenkins, obviamente se menciona en toda la literatura sobre modelado ARIMA. Por ejemplo, en el contexto de la identificación de modelos ARIMA tentativos, Pankratz (1983) dice:
Tenga en cuenta que no nos acercamos a los datos disponibles con una idea rígida y preconcebida sobre qué modelo usaremos. En cambio, dejamos que los datos disponibles `` nos hablen '' en forma de una función de autocorrelación estimada y una función de autocorrelación parcial.
Por lo tanto, se puede decir que la idea de "dejar que los datos guíen el modelo" es una característica frecuente en el análisis de series de tiempo.
Nociones similares pueden, sin embargo, encontrarse en otros (sub) campos de estudio. Por ejemplo, @Dmitrij Celov ha hecho referencia correcta al artículo innovador de Christopher Sims, Macroeconomía y realidad (1980), que fue una reacción contra el uso de modelos de ecuaciones simultáneas a gran escala en macroeconomía.
El enfoque tradicional en macroeconomía era utilizar la teoría económica como guía para construir modelos macroeconómicos. A menudo, los modelos se componen de cientos de ecuaciones, y se les impondrían restricciones, como la determinación previa de los signos de algunos coeficientes. Sims (1980) criticó el uso de este conocimiento a priori para construir modelos macroeconómicos:
El hecho de que los grandes modelos macroeconómicos sean dinámicos es una rica fuente de restricciones espurias a priori.
Como ya mencionó @Dmitrij Celov, el enfoque alternativo defendido por Sims (1980) era especificar ecuaciones autorregresivas de vectores, que se basan (esencialmente) en los valores rezagados propios de las variables y en los valores rezagados de otras variables.
Aunque soy fanático de la noción de `` dejar que los datos hablen por sí mismos '' , no estoy muy seguro de si esta metodología se puede extender por completo a todas las áreas de estudio. Por ejemplo, considere hacer un estudio en economía laboral para tratar de explicar la diferencia entre las tasas salariales entre hombres y mujeres dentro de un país determinado. La selección del conjunto de regresores en dicho modelo probablemente se guiará por la teoría del capital humano . En otros contextos, el conjunto de regresores se puede seleccionar en función de lo que nos interesa y lo que nos dice el sentido común. Verbeek (2008) dice:
Es una buena práctica seleccionar el conjunto de variables potencialmente relevantes sobre la base de argumentos económicos en lugar de estadísticos. Aunque a veces se sugiere lo contrario, los argumentos estadísticos nunca son argumentos de certeza.
Realmente, solo puedo rascar la superficie aquí porque es un tema tan extenso, pero la mejor referencia que he encontrado en el modelado es Granger (1991). Si tu experiencia no es económica, no dejes que el título del libro te desanime. La mayor parte de la discusión tiene lugar en el contexto del modelado de series económicas, pero estoy seguro de que aquellos de otros campos sacarán mucho provecho de esto y lo encontrarán útil.
El libro contiene excelentes debates sobre diferentes metodologías de modelado, tales como:
- El enfoque general a específico (o metodología LSE) como lo recomienda David Hendry.
- El enfoque específico a general.
- La metodología de Edward Leamer (generalmente asociada con los términos "análisis de sensibilidad (o límites extremos)" y "Bayesiano" ).
- Casualmente, el enfoque de Christophers Sims también está cubierto.
Vale la pena señalar que Granger (1991) es en realidad una colección de documentos, por lo que, en lugar de intentar obtener una copia del libro, puede, por supuesto, buscar la tabla de contenido e intentar encontrar los artículos por su cuenta. (Ver enlace a continuación).
¡Espero que esto haya resultado útil!
Referencias