¿Cuál es la razón detrás de la familia exponencial de distribuciones?

10

Desde el curso de probabilidad elemental, las distribuciones de probabilidad como Gaussian, Poisson o exponencial tienen una buena motivación. Después de observar la fórmula de las distribuciones familiares exponenciales durante mucho tiempo, todavía no tengo ninguna intuición.

f_{X} (x ∣ θ) = h (x) \exp (η (θ) \cdot T (x) - A (θ))

$f_{X}(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}{\boldsymbol {\eta }}({\boldsymbol {\theta }})\cdot \mathbf {T} (x)-A({\boldsymbol {\theta }}){\Big )}$

¿Alguien puede ayudarme a entender por qué lo necesitamos en primer lugar? ¿Cuáles son algunas de las ventajas de modelar una variable de respuesta como familia exponencial versus normal?

EDITAR: Por la familia exponencial, me refería a la clase general de distribuciones descrita aquí .

exponential-family

— ciudadano del norte
fuente

1

TL; DR? Parte de la razón es la conveniencia matemática; Muchos problemas pueden resolverse analíticamente si asume que los pdf son de esta familia.

— Vladislavs Dovgalecs

10

¿Cuáles son algunas de las ventajas de modelar una variable de respuesta como familia exponencial versus normal?

La familia exponencial es mucho más amplia que la normal. Por ejemplo, ¿cuál es la ventaja de usar un Poisson o un binomio en lugar de un normal? Una normalidad no sirve de mucho si tiene recuentos con una media baja. ¿Qué pasa si sus datos son continuos pero muy sesgados, tal vez veces o cantidades monetarias? La familia exponencial incluye el normal, el binomio, el Poisson y el Gamma como casos especiales (entre muchos otros)
Incorpora una amplia variedad de relaciones varianza-media .
Se deriva de tratar de responder una pregunta en la línea de "qué distribuciones son funciones de una estadística suficiente ", y así los modelos se pueden estimar a través de ML utilizando estadísticas suficientes muy simples; Esto incluye los modelos habituales disponibles en programas que se ajustan a modelos lineales generalizados. De hecho, la estadística suficiente ( ) es explícita en la función de densidad de familia exponencial. $T(x)$
Facilita el desacoplamiento de la relación entre la respuesta y el predictor de la distribución condicional de la respuesta (a través de las funciones de enlace). Por ejemplo, podría ajustar una relación de línea recta a un modelo que especifique que la respuesta condicional tiene una distribución gamma o una relación exponencial con una respuesta condicionalmente gaussiana en un marco GLM.

Para los bayesianos, la familia exponencial es bastante interesante porque todos los miembros de la familia exponencial tienen antecedentes conjugados.

— Glen_b -Reinstate a Monica
fuente

1

Estoy un poco perdido en tu tercer punto. Hasta donde recuerdo, todas las distribuciones de probabilidad de mi clase de probabilidad de pregrado son funciones de sus estadísticas suficientes. Puede que no sea el caso para distribuciones extrañas como cauchy (cuya estadística suficiente no estoy tan segura) u otras distribuciones de leyes de poder. Pero, ¿por qué es esto un gran problema?

— ciudadano del norte

1

Es posible que no me estuviera expresando claramente. Ver Koopman, BO, (1936), "Sobre las distribuciones que admiten una estadística suficiente" , Transactions of the American Mathematical Society, 39: 3, 399-409. Aquí es donde surge el concepto de la familia exponencial; El sentido específico en que la familia exponencial es especial en relación con la suficiencia se explica en la primera página y las primeras líneas de la segunda página.

— Glen_b -Reinstate Monica

5

Para mí, la principal motivación detrás de las distribuciones familiares exponenciales es que son las familias de distribución máxima de entropía, dado un conjunto de estadísticas suficientes y un apoyo. En otras palabras, son distribución mínima supuesta.

Por ejemplo, si solo mide la media y la varianza de la cantidad con valor real, la opción de modelado menos supuesta es una distribución normal.

Desde el punto de vista del cálculo, hay otras ventajas:

Están cerrados bajo "combinación de evidencia". Es decir, la combinación de dos probabilidades independientes de la misma familia exponencial siempre está en la misma familia exponencial y sus parámetros naturales son simplemente la suma de los parámetros naturales de sus componentes. Esto es conveniente para las estadísticas bayesianas.
El gradiente de la entropía cruzada entre dos distribuciones familiares exponenciales es la diferencia de sus parámetros de expectativa. Esto significa que una función de pérdida que es una entropía cruzada es la llamada función de pérdida coincidente , que es conveniente para la optimización.

— Neil G
fuente

2

La lista de Glen es buena. Voy a agregar 1 aplicación más para complementar su respuesta: derivar los conjugados anteriores para la inferencia bayesiana.

Una parte central de la inferencia bayesiana es derivar distribuciones posteriores . Tener una previa que se conjuga con la probabilidad significa que la posterior y la pertenecerán a la misma clase de distribuciones de probabilidad. $p(\theta|y) \propto p(y|\theta) p(\theta)$ $p(\theta)$ $p(y|\theta)$ $p(y|\theta)$ $p(\theta)$

La propiedad útil a la que me refiero es que, para una probabilidad de observaciones extraídas de una familia exponencial de un parámetro de la forma $n$

$p(y_1,\ldots,y_n|\theta) = \prod p(y_i|\theta) \propto g(\theta)^n \exp \big[ h(\theta) \sum t(y_i) \big]$ ,

simplemente podemos escribir un conjugado antes como

$p(\theta) \propto g(\theta)^\nu \big[ h(\theta) \delta \big]$

y luego el posterior funciona como

$p(\theta|y_1,\ldots,y_n) \propto g(\theta)^{n+\nu} \exp \big[ h(\theta) \big( \sum t(y_i) + \delta \big) \big]$

¿Por qué es útil esta conjugación? Porque simplifica nuestra interpretación y cálculo mientras realizamos la inferencia bayesiana. También significa que podemos encontrar fácilmente expresiones analíticas para la parte posterior sin tener que hacer demasiado álgebra.

— AG
fuente

0

Desea que su modelo de datos refleje el proceso de generación. El 'proceso' que genera variables gaussianas tiene características muy diferentes a las que rigen la exponencial, y no siempre es intuitivo el por qué. A veces es necesario apreciar otras características de distribución. Como un ejemplo, considere que la función de peligro para Gaussian está aumentando mientras que la exponencial es plana. Como un ejemplo práctico trivial, supongamos que voy a golpearte a intervalos, y el 'intervalo entre golpes' será elegido por la función generadora gaussiana o exponencial. Bajo un gaussiano, descubriría que los golpes son predecibles y se sienten altamente probables después de largos intervalos. Bajo exponencial, se sentirían muy impredecibles. La razón de esto se debe a la función generadora, que depende del fenómeno subyacente.

— HEITZ
fuente

66

La pregunta era ambigua sobre si el OP estaba preguntando sobre la distribución exponencial o la familia exponencial. Aquí, estás interpretando la Q como la primera, mientras que @Glen_b la estaba interpretando como la última. El OP ahora ha aclarado su Q sobre la familia exponencial. A la luz de eso, ¿consideraría que editar esto se trata de eso, o posiblemente eliminarlo?

— gung - Restablece a Monica