Acabo de ejecutar dos millones de regresiones

Actualmente estoy trabajando para tratar de implementar un método utilizado en un artículo popular titulado "Acabo de ejecutar dos millones de regresiones". La idea básica detrás de esto es que hay ciertos casos en los que no es obvio qué controles deben incluirse en el modelo. Una cosa que puede hacer en tal caso es dibujar controles al azar, ejecutar millones de regresiones diferentes y luego ver cómo reaccionó su variable de interés. Si generalmente tiene el mismo signo en todas las especificaciones, entonces podemos considerarlo más robusto que una variable cuyo signo siempre cambia.

La mayor parte del trabajo es muy claro. Sin embargo, el documento pondera todas esas regresiones diferentes de la siguiente manera: La probabilidad integrada de la especificación dada se divide por la suma de todas las probabilidades integradas para todas las especificaciones.

El problema que estoy teniendo es que no estoy seguro de cómo se relaciona la probabilidad integrada con las regresiones OLS que me gustaría ejecutar (en Stata). Buscar en Google temas como "probabilidad integrada de stata" ha sido un callejón sin salida ya que sigo encontrándome con cosas como la regresión logística de efectos mixtos. Confieso que estos modelos son demasiado complejos para que yo los entienda.

Mi trabajo actual es que existen diferentes esquemas de ponderación utilizados en la literatura que sí entiendo. Por ejemplo, es posible ponderar cada regresión en función del índice de razón de probabilidad. Incluso hay un paquete R que usa el lri como pesas. Naturalmente, sin embargo, me gustaría implementar también el original.

¿Algún consejo?

Enlace de papel: http://down.cenet.org.cn/upfile/34/2009112141315178.pdf

likelihood-ratio

— NikolaiB
fuente

Este hilo puede abordar algunas de sus preocupaciones ... stats.stackexchange.com/questions/215154/…

— Mike Hunter

Una vez escribí una función en MATLAB replicando el resultado de Sala-i-Martin (que, por cierto, no son realmente lo último en selección de modelos), vea dropbox.com/s/mqa7qvhn7w5pkag/… . La probabilidad integrada (no estoy seguro de a qué se refiere exactamente) probablemente sea la probabilidad de registro exponencial.

— Christoph Hanck

¡Gracias! Me refiero a la ecuación 4 en la página 179. Establece "Donde los pesos son proporcionales a las probabilidades (integradas)"

— NikolaiB

Para OLS, aún puede calcular la función de probabilidad (la probabilidad de registro exponencial, como Christoph Hanck menciona en el comentario). Es solo el viejo . Stata almacena esto como después de ejecutar una regresión usando $L_i = \prod_i (2\pi \sigma^2)^{-.5} \exp(-.5 (y_i - x_i\beta)^2)$ e(ll)regress

Luego construye pesos como . $w_i = \frac{L_i}{\sum_j L_j}$

Finalmente, construye promedios ponderados de sus coeficientes de regresión usando como pesos. $w_i$

— Superpronker
fuente

Acabo de ejecutar dos millones de regresiones - Probabilidad integrada