Actualmente estoy trabajando para tratar de implementar un método utilizado en un artículo popular titulado "Acabo de ejecutar dos millones de regresiones". La idea básica detrás de esto es que hay ciertos casos en los que no es obvio qué controles deben incluirse en el modelo. Una cosa que puede hacer en tal caso es dibujar controles al azar, ejecutar millones de regresiones diferentes y luego ver cómo reaccionó su variable de interés. Si generalmente tiene el mismo signo en todas las especificaciones, entonces podemos considerarlo más robusto que una variable cuyo signo siempre cambia.
La mayor parte del trabajo es muy claro. Sin embargo, el documento pondera todas esas regresiones diferentes de la siguiente manera: La probabilidad integrada de la especificación dada se divide por la suma de todas las probabilidades integradas para todas las especificaciones.
El problema que estoy teniendo es que no estoy seguro de cómo se relaciona la probabilidad integrada con las regresiones OLS que me gustaría ejecutar (en Stata). Buscar en Google temas como "probabilidad integrada de stata" ha sido un callejón sin salida ya que sigo encontrándome con cosas como la regresión logística de efectos mixtos. Confieso que estos modelos son demasiado complejos para que yo los entienda.
Mi trabajo actual es que existen diferentes esquemas de ponderación utilizados en la literatura que sí entiendo. Por ejemplo, es posible ponderar cada regresión en función del índice de razón de probabilidad. Incluso hay un paquete R que usa el lri como pesas. Naturalmente, sin embargo, me gustaría implementar también el original.
¿Algún consejo?
Enlace de papel: http://down.cenet.org.cn/upfile/34/2009112141315178.pdf