¿Por qué deberíamos usar errores t en lugar de errores normales?

En esta publicación de blog de Andrew Gelman, hay el siguiente pasaje:

Los modelos bayesianos de hace 50 años parecen irremediablemente simples (excepto, por supuesto, por problemas simples), y espero que los modelos bayesianos de hoy parezcan irremediablemente simples, dentro de 50 años. (Solo por un ejemplo simple: probablemente deberíamos usar t de forma rutinaria en lugar de errores normales en cualquier lugar, pero aún no lo hacemos, por familiaridad, hábito y conveniencia matemática. Estas pueden ser buenas razones, en ciencia como en política, el conservadurismo tiene muchos buenos argumentos a su favor, pero creo que, en última instancia, a medida que nos sintamos cómodos con modelos más complicados, nos moveremos en esa dirección).

¿Por qué deberíamos "usar t rutinariamente en lugar de errores normales en casi todas partes"?

— Patata
fuente

Respuestas:

¡Porque asumir errores normales es efectivamente lo mismo que asumir que no ocurren errores grandes! La distribución normal tiene colas tan ligeras, que los errores fuera de desviaciones estándar tienen muy poca probabilidad, los errores fuera de desviaciones estándar son efectivamente imposibles. En la práctica, esa suposición rara vez es cierta. Al analizar conjuntos de datos pequeños y ordenados de experimentos bien diseñados, esto podría no importar mucho si hacemos un buen análisis de los residuos. Con datos de menor calidad, podría importar mucho más. $\pm 3$ $\pm 6$

Cuando se utilizan métodos basados en la probabilidad (o bayesianos), el efecto de esta normalidad (como se dijo anteriormente, ¡efectivamente, este es el supuesto "sin errores grandes") es hacer que la inferencia sea muy poco robusta. ¡Los resultados del análisis están muy influenciados por los grandes errores! Esto debe ser así, ya que suponer que "no hay errores grandes" obliga a nuestros métodos a interpretar los errores grandes como errores pequeños, y eso solo puede suceder moviendo el parámetro del valor medio para reducir todos los errores. Una forma de evitar eso es utilizar los llamados "métodos robustos", consulte http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

Pero Andrew Gelman no irá por esto, ya que los métodos robustos generalmente se presentan de una manera altamente no bayesiana. El uso de errores distribuidos en t en modelos de probabilidad / bayesianos es una forma diferente de obtener métodos robustos, ya que la distribución tiene colas más pesadas de lo normal, por lo que permite una mayor proporción de errores grandes. El parámetro de número de grados de libertad debe fijarse de antemano, no estimarse a partir de los datos, ya que dicha estimación destruirá las propiedades de robustez del método (*) (también es un problema muy difícil, la función de probabilidad para , el grados de libertad numéricos, pueden ser ilimitados, lo que lleva a estimadores muy ineficientes (incluso inconsistentes)). $t$ $\nu$

Si, por ejemplo, cree (tiene miedo) que hasta 1 de cada diez observaciones podrían ser "errores grandes" (por encima de 3 sd), entonces podría usar una distribución con 2 grados de libertad, aumentando ese número si Se cree que la proporción de errores grandes es menor. $t$

Debo señalar que lo que he dicho anteriormente es para modelos con errores independientes distribuidos en . También ha habido propuestas de distribución multivariada (que no es independiente) como distribución de errores. Esa propuesta es muy criticada en el documento "La nueva vestimenta del emperador: una crítica del modelo de regresión multivariante " por TS Breusch, JC Robertson y AH Welsh, en Statistica Neerlandica (1997) vol. 51, nr. 3, págs. 269-286, donde muestran que la distribución de error multivariante es empíricamente indistinguible de la normal. Pero esa crítica no afecta el modelo independiente . $t$ $t$ $t$ $t$ $t$

(*) Una referencia que indica que esto es Venables & Ripley's MASS --- Modern Applied Statistics con S (en la página 110 en la 4ta edición).

— kjetil b halvorsen
fuente

Excelente respuesta (+1). Tenga en cuenta que incluso cuando es fijo, las ecuaciones de estimación están mal definidas si por lo que supongo que Gelman significa distribución con parámetro fijado en . Como se ilustra en la respuesta a esta pregunta relacionada , esto pone límites bastante fuertes a la solidez que se puede esperar de este enfoque.

ν

$\nu$

ν \leq 2

$\nu\leq2$

t

$t$

ν

$\nu$

ν > 2

$\nu>2$

— usuario603

Gran respuesta y comentario. Pero: 1. Gelman está defendiendo un procedimiento estándar que será mejor que asumir errores normales. Por lo tanto, debemos comparar los simples (errores normales) con la distribución T para los errores. 2. En la pregunta relacionada vinculada por el usuario603, debemos tener en cuenta que si tenemos información previa, deberíamos usarla. Bayes sobresale con información previa. Y en el ejemplo, tenemos información previa que no se utiliza. 3. Con los controles predictivos posteriores, somos d know that the model proposed isnlo suficientemente buenos.

— Manoel Galdino

@Neil G: Sí, ¡pero el cauchy es ! Por supuesto, abordar exactamente qué distribución de cola gruesa usar requiere mucho más análisis.

t_{1}

$t_1$

— kjetil b halvorsen

No, la distribución t es la única opción porque la distribución t es la predicción posterior del modelo gaussiano. Gelman no solo estaba eligiendo la distribución t al azar.

— Neil G

Ver: Murphy, Kevin P. "Análisis bayesiano conjugado de la distribución gaussiana". def 1.2σ2 (2007): 16. Deriva la distribución t como la predicción posterior del modelo gaussiano. No se trata simplemente de que el modelador elija una distribución arbitraria de cola pesada.

— Neil G

No se trata solo de "colas más pesadas": hay muchas distribuciones con forma de campana y colas pesadas.

La distribución T es la predicción posterior del modelo gaussiano. Si hace una suposición gaussiana, pero tiene evidencia finita, entonces el modelo resultante necesariamente está haciendo predicciones distribuidas en t no escaladas centralmente. En el límite, a medida que la cantidad de evidencia que tienes va al infinito, terminas con predicciones gaussianas ya que el límite de la distribución t es gaussiano.

¿Por qué pasó esto? Porque con una cantidad finita de evidencia, hay incertidumbre en los parámetros de su modelo. En el caso del modelo gaussiano, la incertidumbre en la media simplemente aumentaría la varianza (es decir, la predicción posterior de un gaussiano con varianza conocida sigue siendo gaussiana). Pero la incertidumbre sobre la variación es lo que causa las colas pesadas. Si el modelo está entrenado con evidencia ilimitada, ya no hay ninguna incertidumbre en la varianza (o la media) y puede usar su modelo para hacer predicciones gaussianas.

Este argumento se aplica a un modelo gaussiano. También se aplica a un parámetro que se infiere cuyas probabilidades son gaussianas. Dados los datos finitos, la incertidumbre sobre el parámetro está distribuida en t. Dondequiera que haya supuestos normales (con media y varianza desconocidas) y datos finitos, hay predicciones posteriores distribuidas en t.

Hay distribuciones predictivas posteriores similares para todos los modelos bayesianos. Gelman sugiere que deberíamos usarlos. Sus preocupaciones serían mitigadas por evidencia suficiente.

— Neil G
fuente

¿Puedes respaldar esto con algunas referencias?

— kjetil b halvorsen

@kjetilbhalvorsen: Murphy, Kevin P. "Análisis bayesiano conjugado de la distribución gaussiana". def 1.2σ2 (2007): 16.

— Neil G

Perspectiva interesante, nunca había escuchado esto antes. Entonces, ¿los errores distribuidos en t también conducen a predicciones distribuidas en t? Esto para mí es un argumento a favor de seguir usando errores gaussianos. A menos que espere valores atípicos condicionales , el modelo de error condicional no necesita permitirlos. Esto equivale a suponer que toda la periferia proviene de los valores periféricos de los predictores. No creo que esa suposición sea tan mala en muchos casos. Y por razones puramente estéticas, no veo por qué las distribuciones condicionales y marginales tienen que coincidir

— shadowtalker

@ssdecontrol "¿Los errores distribuidos en t también conducen a predicciones distribuidas en t?" No lo sé, pero no lo creo. Para mí, esta perspectiva es muy útil para una comprensión intuitiva de por qué funciona la prueba t.

— Neil G