Selección de variables bayesianas: ¿realmente funciona?

Pensé que podría jugar con alguna selección variable bayesiana, siguiendo una buena publicación de blog y los documentos vinculados en ella. Escribí un programa en rjags (donde soy un novato) y obtuve datos de precios para Exxon Mobil, junto con algunas cosas que es poco probable que expliquen sus retornos (por ejemplo, precios de paladio) y otras cosas que deberían estar altamente correlacionadas (como el SP500 )

Al correr lm(), vemos que hay una fuerte evidencia de un modelo sobre-parametrizado, pero que definitivamente se debe excluir el paladio:

Call:
lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + 
    EnergyStks, data = chkr)

Residuals:
       Min         1Q     Median         3Q        Max 
-1.663e-03 -4.419e-04  3.099e-05  3.991e-04  1.677e-03 

Coefficients:
           Estimate Std. Error t value Pr(>|t|)    
SP          0.51913    0.19772   2.626 0.010588 *  
Palladium   0.01620    0.03744   0.433 0.666469    
Russell    -0.34577    0.09946  -3.476 0.000871 ***
OilETF     -0.17327    0.08285  -2.091 0.040082 *  
EnergyStks  0.79219    0.11418   6.938 1.53e-09 ***

Después de convertir a devoluciones, intenté ejecutar un modelo simple como este

  model {
    for (i in 1:n) {
      mean[i]<-inprod(X[i,],beta)
      y[i]~dnorm(mean[i],tau)
    }
    for (j in 1:p) {
      indicator[j]~dbern(probindicator)
      betaifincluded[j]~dnorm(0,taubeta)
      beta[j] <- indicator[j]*betaifincluded[j]
    }
    tau~dgamma(1,0.01)
    taubeta~dgamma(1,0.01)
    probindicator~dbeta(2,8)
  }

pero descubrí que, independientemente de los parámetros de las distribuciones gamma elegidas, obtuve respuestas bastante absurdas, como una probabilidad de inclusión invariable del 20% para cada variable.

También obtuve pequeños coeficientes de regresión, que estoy dispuesto a tolerar, ya que se supone que es un modelo de selección, pero aún así parecía extraño.

                              Mean        SD  Naive SE Time-series SE
SP         beta[1]       -4.484e-03   0.10999  0.003478       0.007273
Palladium  beta[2]        1.422e-02   0.16646  0.005264       0.011106
Russell    beta[3]       -2.406e-03   0.08440  0.002669       0.003236
OilETF     beta[4]       -4.539e-03   0.14706  0.004651       0.005430
EnergyStks beta[5]       -1.106e-03   0.07907  0.002500       0.002647
SP         indicator[1]   1.980e-01   0.39869  0.012608       0.014786
Palladium  indicator[2]   1.960e-01   0.39717  0.012560       0.014550
Russell    indicator[3]   1.830e-01   0.38686  0.012234       0.013398
OilETF     indicator[4]   1.930e-01   0.39485  0.012486       0.013229
EnergyStks indicator[5]   2.070e-01   0.40536  0.012819       0.014505
           probindicator  1.952e-01   0.11981  0.003789       0.005625
           tau            3.845e+03 632.18562 19.991465      19.991465
           taubeta        1.119e+02 107.34143  3.394434       7.926577

¿La selección de variables bayesianas es realmente tan mala / sensible? ¿O estoy cometiendo un error evidente?

— Brian B
fuente

Perdona mi ignorancia; ¿Pero cuál fue la evidencia de sobreajuste a la que te refieres?

— curious_cat

Debe explicar qué variables son cuáles en la segunda salida. Utilicé la selección de variables bayesianas en una variedad de problemas y en varias situaciones (incluida la regresión) generalmente funciona razonablemente bien. Pero sus resultados, especialmente las estimaciones, me parecen extraños.

— Glen_b -Reinstalar Monica

@curious_cat La evidencia de sobreajuste está, por ejemplo, en el coeficiente negativo entre Exxon (una compañía petrolera) y el precio del petróleo. Surge porque he hecho que este modelo sea víctima de multicolinealidad deliberadamente . (Quizás "sobreajustar" es la palabra incorrecta para describirlo, supongo que sobreparamizado es más preciso).

— Brian B

@BrianB ¿Ese coeficiente se vuelve positivo si elimina todas las variables explicativas excepto el petróleo? Sólo curioso.

— curious_cat

@curious_cat Sí, ciertamente (aproximadamente 0.7). Este es un caso clásico de multicolinealidad (otra palabra fea).

— Brian B

En el código BUGS, mean[i]<-inprod(X[i,],beta)debería ser mean[i]<-inprod(X[i,],beta[]).

Sus antecedentes en tau y taubeta son demasiado informativos.

Necesita un previo no informativo sobre betaifincluido, utilice, por ejemplo, a gamma(0.1,0.1)en taubeta. Esto puede explicar por qué obtienes pequeños coeficientes de regresión.

— Crispin
fuente

Gracias por notar eso. Lamentablemente no mejoró la situación.

— Brian B

Funciona, pero le dio a todos los indicadores de inclusión variable la misma distribución subyacente.

  model {
    for (i in 1:n) {
      mean[i]<-inprod(X[i,],beta)
      y[i]~dnorm(mean[i],tau)
    }
    for (j in 1:p) {
      indicator[j]~dbern(probindicator[j])
      probindicator[j]~dbeta(2,8)
      betaifincluded[j]~dnorm(0,taubeta)
      beta[j] <- indicator[j]*betaifincluded[j]
    }
    tau~dgamma(1,0.01)
    taubeta~dgamma(1,0.01)

  }

podría funcionar mejor con un número limitado de variables.

— Erik
fuente

Probar esta receta no funcionó mejor, al menos a 10000 muestras.

— Brian B

Si usó retornos de registro, cometió un error de sesgo leve pero si usó el valor futuro dividido por el valor presente, entonces su probabilidad es incorrecta. En realidad, su probabilidad es incorrecta en cualquier caso. Es lo suficientemente incorrecto como para importar.

Considere que una estadística es cualquier función de los datos. Los retornos no son datos, son transformaciones de datos. Son un valor futuro dividido por un valor presente. Los precios son datos. Los precios deben tener una función de distribución, pero la función de distribución para devoluciones debe depender únicamente de la naturaleza de los precios.

Para los valores en una subasta doble, no existe una "maldición del ganador". El comportamiento racional es ofrecer sus expectativas. Con muchos compradores y muchos vendedores, el libro de límite debe converger a la distribución normal, ya que es una distribución de expectativas. Entonces $p_t$ $p_{t+1}$

\frac{{pag}_{t + 1}}{{pag}_{t}} - 1)

$\frac{p_{t+1}}{p_t}-1.$

\frac{1}{π} \frac{σ}{σ^{2} + (y - β_{1} X_{1} - β_{2} X_{2} \dots - β_{norte} X_{norte} - α)^{2}} .

$\frac{1}{\pi}\frac{\sigma}{\sigma^2+(y-\beta_1x_1-\beta_2x_2\dots-\beta_nx_n-\alpha)^2}.$

OLS obliga a un mejor ajuste a los datos observados, incluso si es la solución incorrecta. Los métodos bayesianos intentan encontrar la función generadora de datos a través de la probabilidad. La probabilidad era incorrecta, por lo que no pudo encontrarla.

Tengo un documento sobre esto si necesita información adicional.

EDITAR Creo que has entendido mal. Si convierte la probabilidad en una función de densidad y toma la expectativa, encontrará que no tiene ninguna. Por prueba de Augustin Cauchy en 1852 o tal vez en 1851, cualquier forma de solución de mínimos cuadrados es perfectamente imprecisa. Siempre fallará. No es que deba usar la regresión estándar porque el Bayesiano es sensible a la probabilidad, es que Bayes es la única solución disponible que es admisible, con algunas excepciones especiales para algunos casos especiales inusuales.

Al hacer las pruebas empíricas sobre esto, y antes de haber leído lo suficiente de las matemáticas, ingenuamente pensé que la solución bayesiana y la frecuente deberían coincidir. Hay, aproximadamente, un teorema que dice que a medida que la muestra se vuelve lo suficientemente grande, los dos convergerán. Utilicé todas las operaciones de fin de día en el universo CRSP desde 1925 hasta 2013 para probarlo. Sin embargo, eso no es lo que dice el teorema. Estaba malinterpretando las reglas.

También probé el problema en los registros, y todavía no coincidía. Entonces me di cuenta de algo, todas las distribuciones son formas, y así construí una solución geométrica para determinar qué solución era la correcta. Lo traté como un problema de geometría pura para determinar qué respuesta algebraica coincidía con los datos.

El bayesiano coincidió. Esto me llevó por un camino muy matemático porque no podía entender por qué el estimador imparcial estaba tan equivocado. Solo para el registro, utilizando retornos desagregados durante el período 1925-2013 y eliminando compañías fantasma, fondos cerrados y demás, la discrepancia entre el centro de ubicación es del 2% y la medida del riesgo se subestima en un 4% para los retornos anuales. . Esta discrepancia se mantiene bajo la transformación logarítmica, pero por una razón diferente. Puede ser diferente para índices individuales o subconjuntos de datos.

La razón de la discrepancia es doble. La primera es que las distribuciones involucradas carecen de una estadística suficiente. Para ciertos tipos de problemas, esto no importa. Sin embargo, para fines proyectivos, como la predicción o la asignación, importan bastante. La segunda razón es que el estimador imparcial es siempre una versión de la media, pero la distribución no tiene media.

La densidad anterior no es un miembro de la familia exponencial como lo es la distribución normal o gamma. Según el teorema de Pitman-Koopman-Darmois, no existe estadística suficiente para los parámetros. Esto implica que cualquier intento de crear un estimador puntual debe tirar la información. Esto no es un problema para las soluciones bayesianas porque la parte posterior es una densidad completa y si necesita una estimación puntual, podría encontrar la densidad predictiva y minimizar una función de costo sobre ella para reducirla a un solo punto. La probabilidad bayesiana es siempre mínimamente suficiente.

El estimador imparcial de varianza mínima para la función anterior es mantener el 24,6% central de los datos, encontrar su media recortada y descartar el resto de los datos. Eso significa que más del 75% de los datos se descartan y la información se pierde. Solo una nota, podría ser 24.8%, ya que estoy trabajando de memoria. Puede encontrar el artículo de Rothenberg en:

Rothenberg, TJ y FM Fisher, y CB Tilanus, una nota sobre la estimación de una muestra de Cauchy, Journal of the American Statistical Association, 1964, vol 59 (306), págs. 460-463

El segundo problema me sorprendió. Hasta que trabajé en la geometría, no me di cuenta de cuál era la causa. Las devoluciones están vinculadas en la parte inferior a -100%. Esto desplaza la mediana en un 2% y el rango intercuartil se desplaza en un 4%, aunque la media masa todavía está en los mismos puntos. La media masa es la medida adecuada de la escala, pero la mitad del ancho no lo es. Si no hubiera truncamiento, entonces el medio ancho y la media masa estarían en los mismos puntos. Del mismo modo, la mediana y la moda permanecerían en el mismo punto. La mediana es el rendimiento del actor medio o al menos el comercio medio. Como tal, siempre es la ubicación de la MVUE y la media del registro.

La comprensión correcta del teorema es que todos los estimadores bayesianos son estimadores admisibles. Los estimadores frecuentes son estimadores admisibles si se obtiene una de dos condiciones. La primera es que en cada muestra, la solución frequentista y bayesiana son idénticas. La segunda es que si la solución limitante del método bayesiano coincide con la solución frequentista, entonces la solución frequentista es admisible.

Todos los estimadores admisibles convergen a la misma solución una vez que el tamaño de la muestra es lo suficientemente grande. El estimador frecuente supone que su modelo es el modelo verdadero y que los datos son aleatorios. El Bayesiano asume que los datos son verdaderos, pero el modelo es aleatorio. Si tenía una cantidad infinita de datos, entonces el modelo subjetivo debe converger a la realidad. Si tenía una cantidad infinita de datos, pero el modelo incorrecto, entonces el modelo Frecuentista convergerá a la realidad con probabilidad cero.

En este caso, la solución bayesiana, bajo antecedentes razonables, siempre dominará estocásticamente a cualquier estimador frecuente debido al truncamiento y la pérdida de información para crear el estimador.

En los registros, la función de probabilidad es la distribución secante hiperbólica. Tiene una varianza finita, pero no tiene covarianza. La matriz de covarianza encontrada usando OLS es un artefacto de los datos y no apunta a un parámetro que exista en los datos subyacentes. Al igual que con la forma cruda, nada en el registro forma covaries, pero nada es independiente tampoco. En cambio, existe una relación mucho más compleja que viola la definición de covarianza, pero en la que pueden vivir.

Markowitz y Usman casi lo encontraron en su trabajo sobre distribuciones, pero la distribución secante hiperbólica no está en una familia Pearson y malinterpretaron los datos al no notar que cuando cambias una distribución de datos sin procesar a datos de registro también cambias sus propiedades estadísticas . Básicamente lo descubrieron, pero se lo perdieron porque no tenían ninguna razón para buscarlo y no se dieron cuenta de las consecuencias involuntarias del uso de registros.

No tengo a Markowitz y Usman citándome dónde estoy, pero hicieron uno de los pocos trabajos muy buenos para estimar la distribución que hay.

En cualquier caso, no uso JAGS. No tengo idea de cómo hacerlo. Codifico todo mi trabajo MCMC a mano.

Tengo un documento que es mucho más completo y preciso sobre este tema en:

Harris, DE (2017) La distribución de devoluciones. Revista de finanzas matemáticas, 7, 769-804.

Le proporcionará un método para construir distribuciones para cualquier clase de activo o pasivo, también ratios contables.

Tenía muchas palabras, pero pude ver que entendías mal la relación entre Bayes y los métodos de Pearson-Neyman. Los habías revertido. Bayes siempre funciona, pero está atrapado con una densidad previa que perturbará su solución. Con un previo adecuado se le garantiza un estimador sesgado y para este tipo de función de probabilidad, creo que debe usar un previo adecuado para garantizar la integrabilidad a la unidad. Los métodos frecuentes son rápidos y generalmente funcionan. Son imparciales, pero pueden no ser válidos.

— Dave Harris
fuente

La diferencia entre los logaritmos y los retornos de precios a nivel diario es de aproximadamente 1 parte en 500 (he tomado un retorno de 50 puntos básicos como línea de base). También vale la pena señalar que los rendimientos diarios, medidos de cualquier manera, están bastante lejos de la distribución normal (independientemente de las teorías económicas en contrario). En cualquier caso, si el algoritmo es sensible a estos problemas, entonces es inútil para fines prácticos. Me gustaría saber cómo funciona la probabilidad de citar mapas al código JAGS. ¿Puede dar más detalles?

— Brian B

@BrianB Edité la respuesta. Estás cometiendo un error al pensar que hice. Me llevó una eternidad descubrir por qué estaba equivocado.

— Dave Harris el