Consejos generales sobre modelado


9

La formulación de un modelo matemático para un problema es uno de los aspectos más subjetivos de la estadística, pero también uno de los más importantes. ¿Cuáles son las mejores referencias que abordan este tema crucial pero a menudo ignorado? ¿Y qué estadístico famoso dijo algo como "Deja que los datos guíen el modelo"?

Respuestas:


8

En mi opinión, las "Estrategias de modelado de regresión" de Frank Harrell son una buena referencia. De hecho, es probablemente mi libro de estadísticas favorito.

Hasta ahora solo he estudiado menos de la mitad del libro, pero he sacado muchas cosas buenas de él, por ejemplo, representando predictores como splines para evitar suponer linealidad, imputación múltiple para datos faltantes y validación del modelo de arranque. Quizás lo que más me gusta del libro es el tema general de que un objetivo importante es obtener resultados que se repliquen en nuevos datos, no resultados que solo se mantengan en los datos actuales.

Los beneficios adicionales son el paquete Rms de Frank Harrell, que facilita hacer muchas de las cosas descritas en el libro, y su disposición a responder preguntas aquí y en R-help.


3
(+1) Un buen libro de texto complementario son los Modelos de predicción clínica , de EW Steyerberg (especialmente para aquellos interesados ​​en los resultados clínicos).
chl

@chl Gracias por la sugerencia. No había oído hablar de ese libro y me interesará echarle un vistazo.
mark999

2
@ user152509 Hasta donde yo sé, distribuir una copia electrónica sería ilegal. Si no puede comprar el libro u obtenerlo de una biblioteca, puede ver parte del libro en Google Books, y hay algunos recursos relacionados en la página web del Departamento de Bioestadística de Vanderbilt.
mark999

6

La última declaración parece estar en el espíritu de la crítica de Sims ((1980) Macroeconomics and Reality , Econometrica, enero, pp. 1-48.) Donde él

... aboga por el uso de modelos VAR como un método sin teoría para estimar las relaciones económicas, por lo tanto, es una alternativa a las "restricciones de identificación increíbles" en los modelos estructurales [de wiki]

Pero probablemente S.Johansen (uno de los pioneros del análisis de cointegración) podría seguir el mismo espíritu. Por lo que me enseñaron, la secuencia de construcción de modelos es como:

  1. Aclarar el objetivo principal del modelo: pronóstico, relaciones estructurales (simulaciones), relaciones causales, factores latentes, etc.
  2. El modelo abstracto es el mundo real que podría ser "demasiado real" para cubrirlo completamente en su aplicación, pero da una sensación (o comprensión) sobre lo que está sucediendo
  3. El modelo verbal aporta algo de teoría o traduce su comprensión en declaraciones e hipótesis para ser probadas, en este paso se recopilan hechos empíricos (a veces llamados estilizados).
  4. Modelo matemático solo ahora puede formular su teoría en forma de ecuaciones (diferencia, diferencial), tales modelos a menudo deben ser deterministas (aunque uno puede fusionar este paso con el último y considerar ecuaciones diferenciales estocásticas, por ejemplo) así lo necesita. ..
  5. Modelo econométrico (estadístico) que agrega partes estocásticas, la teoría y los métodos de estadística aplicada y teoría de probabilidad, micro y macroeconometría.

Espero que esto haya sido útil.


1
¿Alguna referencia para "Sim" o "Johansen"? ¡Gracias!
charles.y.zheng

2

La referencia a "dejar que los datos guíen el modelo" puede atribuirse a George EP Box y Gwilym M. Jenkins . En el Capítulo 2 de su libro de texto clásico, Análisis de series de tiempo: pronósticos y control (1976), se dice que:

La obtención de estimaciones muestrales de la función de autocorrelación y del espectro son enfoques no estructurales, análogos a la representación de una función de distribución empírica mediante un histograma. Ambas son formas de permitir que los datos de las series estacionarias `` hablen por sí mismos '' y brinden un primer paso en el análisis de series temporales, del mismo modo que un histograma puede proporcionar un primer paso en el análisis distribucional de datos, señalando el camino hacia algún modelo paramétrico en el que se basará el análisis posterior.

Este procedimiento de modelado de dejar que los datos hablen , como defiende Box & Jenkins, obviamente se menciona en toda la literatura sobre modelado ARIMA. Por ejemplo, en el contexto de la identificación de modelos ARIMA tentativos, Pankratz (1983) dice:

Tenga en cuenta que no nos acercamos a los datos disponibles con una idea rígida y preconcebida sobre qué modelo usaremos. En cambio, dejamos que los datos disponibles `` nos hablen '' en forma de una función de autocorrelación estimada y una función de autocorrelación parcial.

Por lo tanto, se puede decir que la idea de "dejar que los datos guíen el modelo" es una característica frecuente en el análisis de series de tiempo.

Nociones similares pueden, sin embargo, encontrarse en otros (sub) campos de estudio. Por ejemplo, @Dmitrij Celov ha hecho referencia correcta al artículo innovador de Christopher Sims, Macroeconomía y realidad (1980), que fue una reacción contra el uso de modelos de ecuaciones simultáneas a gran escala en macroeconomía.

El enfoque tradicional en macroeconomía era utilizar la teoría económica como guía para construir modelos macroeconómicos. A menudo, los modelos se componen de cientos de ecuaciones, y se les impondrían restricciones, como la determinación previa de los signos de algunos coeficientes. Sims (1980) criticó el uso de este conocimiento a priori para construir modelos macroeconómicos:

El hecho de que los grandes modelos macroeconómicos sean dinámicos es una rica fuente de restricciones espurias a priori.

Como ya mencionó @Dmitrij Celov, el enfoque alternativo defendido por Sims (1980) era especificar ecuaciones autorregresivas de vectores, que se basan (esencialmente) en los valores rezagados propios de las variables y en los valores rezagados de otras variables.

Aunque soy fanático de la noción de `` dejar que los datos hablen por sí mismos '' , no estoy muy seguro de si esta metodología se puede extender por completo a todas las áreas de estudio. Por ejemplo, considere hacer un estudio en economía laboral para tratar de explicar la diferencia entre las tasas salariales entre hombres y mujeres dentro de un país determinado. La selección del conjunto de regresores en dicho modelo probablemente se guiará por la teoría del capital humano . En otros contextos, el conjunto de regresores se puede seleccionar en función de lo que nos interesa y lo que nos dice el sentido común. Verbeek (2008) dice:

Es una buena práctica seleccionar el conjunto de variables potencialmente relevantes sobre la base de argumentos económicos en lugar de estadísticos. Aunque a veces se sugiere lo contrario, los argumentos estadísticos nunca son argumentos de certeza.

Realmente, solo puedo rascar la superficie aquí porque es un tema tan extenso, pero la mejor referencia que he encontrado en el modelado es Granger (1991). Si tu experiencia no es económica, no dejes que el título del libro te desanime. La mayor parte de la discusión tiene lugar en el contexto del modelado de series económicas, pero estoy seguro de que aquellos de otros campos sacarán mucho provecho de esto y lo encontrarán útil.

El libro contiene excelentes debates sobre diferentes metodologías de modelado, tales como:

  • El enfoque general a específico (o metodología LSE) como lo recomienda David Hendry.
  • El enfoque específico a general.
  • La metodología de Edward Leamer (generalmente asociada con los términos "análisis de sensibilidad (o límites extremos)" y "Bayesiano" ).
  • Casualmente, el enfoque de Christophers Sims también está cubierto.

Vale la pena señalar que Granger (1991) es en realidad una colección de documentos, por lo que, en lugar de intentar obtener una copia del libro, puede, por supuesto, buscar la tabla de contenido e intentar encontrar los artículos por su cuenta. (Ver enlace a continuación).

¡Espero que esto haya resultado útil!

Referencias

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.