¿Cómo comparan las distribuciones bayesianas?

Por lo tanto, creo que tengo una comprensión decente de los conceptos básicos de la probabilidad frecuentista y el análisis estadístico (y qué tan mal se puede usar). En un mundo frecuentista, tiene sentido hacer una pregunta como "¿es esta distribución diferente de esa distribución", porque se supone que las distribuciones son reales, objetivas e inmutables (para una situación dada, al menos), y así podemos calcular descubra la probabilidad de que una muestra se extraiga de una distribución con forma de otra muestra.

En la visión del mundo bayesiano, solo nos importa lo que esperamos ver, dadas nuestras experiencias pasadas (todavía soy un poco vago en esta parte, pero entiendo el concepto de actualización bayesiana). Si es así, ¿cómo puede un Bayesiano decir "este conjunto de datos es diferente de ese conjunto de datos"?

A los fines de esta pregunta, no me importa la significación estadística, o similar, solo cómo cuantificar la diferencia. Estoy igualmente interesado en distribuciones paramétricas y no paramétricas.

distributions bayesian

— nada101
fuente

¿Podría aclarar lo que quiere decir con "este conjunto de datos es diferente de ese conjunto de datos?" Como en, ¿te refieres a la comparación de dos o más grupos, como los ingresos de los hombres frente a los ingresos de las mujeres? ¿O tal vez cómo compara un Bayesiano dos muestras de ingresos sin conocimiento de género?

— ramhiser

@ JohnA.Ramey: ¿Cuál es la diferencia? Una vez que son todos números, ¿no son "masculinos" y "femeninos" simplemente etiquetas para muestras?

— naught101

Respuestas:

Piense en su declaración como un Frequentista y hágalo más específico primero. Un frecuente no podría decir que "el conjunto de datos A es diferente del conjunto de datos B", sin ninguna otra aclaración.

Primero, tendrías que decir lo que quieres decir con "diferente". Quizás te refieres a "tener valores medios diferentes". Por otra parte, puede querer decir "tener diferentes variaciones". O tal vez algo más?

Luego, tendría que indicar qué tipo de prueba usaría, que depende de lo que usted cree que son suposiciones válidas sobre los datos. ¿Asume que los conjuntos de datos están normalmente distribuidos por algún medio? ¿O crees que ambos están distribuidos en Beta? ¿O algo mas?

¿Ahora puede ver que la segunda decisión es muy parecida a las anteriores en las estadísticas bayesianas? No es solo "mi experiencia pasada", sino más bien lo que creo, y lo que creo que mis compañeros creerán, son suposiciones razonables sobre mis datos. (Y los bayesianos pueden usar anteriores uniformes, lo que empuja las cosas hacia cálculos frecuentes).

EDITAR: en respuesta a su comentario: el siguiente paso está contenido en la primera decisión que mencioné. Si desea decidir si las medias de dos grupos son diferentes, debería mirar la distribución de la diferencia de las medias de los dos grupos para ver si esta distribución contiene o no cero, en algún nivel de confianza. Exactamente qué tan cerca de cero cuenta como cero y exactamente qué porción de la distribución (posterior) que usa está determinada por usted y el nivel de confianza que desea.

Una discusión de estas ideas se puede encontrar en un artículo de Kruschke , que también escribió un libro muy fácil de leer Haciendo Análisis de datos bayesiana , que cubre un ejemplo en las páginas 307-309, "son diferentes grupos iguales?". (Segunda edición: p. 468-472.) También tiene una publicación en el blog sobre el tema , con algunas preguntas y respuestas.

EDICIÓN ADICIONAL: Su descripción del proceso bayesiano tampoco es del todo correcta. Los bayesianos solo se preocupan por lo que nos dicen los datos, a la luz de lo que sabíamos independientemente de los datos. (Como señala Kruschke, lo anterior no necesariamente ocurre antes de los datos. Eso es lo que implica la frase, pero en realidad es solo nuestro conocimiento, excluyendo algunos de los datos). Lo que sabíamos independientemente de un conjunto particular de datos puede ser vago o específico. y puede basarse en un consenso, un modelo del proceso de generación de datos subyacente, o puede ser simplemente el resultado de otro experimento (no necesariamente anterior).

— Wayne
fuente

Sí, los frecuentistas asumen una distribución, y eso es subjetivo. Pero luego pueden medir los parámetros de cada muestra, con error, y decir "ok, estos son los parámetros de la población real de cada muestra, y ahora cuál es la probabilidad de que la diferencia se deba al error de muestreo". Mi pregunta es sobre el paso después de su respuesta: ¿cómo infiere Bayesian las diferencias entre las muestras (supongamos que las muestras son del mismo tipo de distribución, paramétricas o no).

— naught101

@ naught101: Por favor vea mi edición.

— Wayne

@Wayne, el papel que vinculó es excelente. Gracias por compartir

— Cam.Davidson.Pilon

@ naught101: He actualizado el enlace del blog. Evidentemente, ha mantenido versiones anteriores del artículo y cada una enlaza con una nueva, y la que primero vinculé es tres versiones desactualizadas.

— Wayne

Este es un método bastante bueno, y realmente deja en claro cómo podría funcionar la inferencia bayesiana (al tratar los parámetros de distribución como la fuente de incertidumbre). Lástima que sea computacionalmente intensivo. Además, el uso de IC del 95% se parece demasiado a establecer un nivel de significancia, pero no puedo ver si hay una forma real de obtener un equivalente reportable de un valor p (quizás la suma de las probabilidades de valores más extremo que 0 de la media, para la diferencia de medias?).

— naught101

Este documento puede ser de interés: http://arxiv.org/pdf/0906.4032v1.pdf

Da un buen resumen de algunos enfoques frecuentistas y bayesianos al problema de las dos muestras, y discute los casos paramétricos y no paramétricos.

$\mathbf{x}$ $\mathbf{y}$ $x_i$ $y_j$ $0$ $1$ $x_i\sim Bern(p)$ $y_i\sim Bern(q)$

$\mathcal{H}_0: \: \: p=q$

$\mathcal{H}_1: \: \: p,q$

Las probabilidades de los datos en cada caso son:

$\mathcal{H}_0$ $L_0(p) = f(\mathbf{x},\mathbf{y};p) = \prod_i p^i (1-p)^{1-i} \prod_j p^j(1-p)^{1-j}$

$\mathcal{H}_1$ $L_1(p,q) = f(\mathbf{x},\mathbf{y};p,q) = \prod_i p^i (1-p)^{1-i} \prod_j q^j(1-q)^{1-j}$

$\mathcal{H}_0 \:\: q=p$

$W = -2\log\left\{ \frac{L_0(p_{max})}{L_1(p_{max},q_{max})}\right\},$

$p_{max},q_{max}$ $p$ $q$ $p_{max}$ $p_{max}$ $W$ $\chi^2_1$ $\mathcal{H}_0$

$p\sim \pi_0$ $\mathcal{H}_0$ $p,q\sim \pi_1$ $\mathcal{H}_1$

$BF = \frac{ f(\mathbf{x},\mathbf{y}|\mathcal{H}_0) }{f(\mathbf{x},\mathbf{y}|\mathcal{H}_1)} = \frac{ \int_0^1 L_0(p)\pi_0(p)dp}{\int_0^1 \int_0^1 L_1(p,q)\pi_1(p,q)dpdq}$

$\mathcal{H}_0$ $\mathcal{H}_1$ $\mathcal{H}_0$ $\mathcal{H}_1$ $p(\mathcal{H}_0)=p(\mathcal{H}_1) = 1/2$

$\frac{p(\mathcal{H}_0|\mathbf{x},\mathbf{y})}{p(\mathcal{H}_1|\mathbf{x},\mathbf{y})} = BF \times \frac{p(\mathcal{H}_0)}{p(\mathcal{H}_1)} = BF \times \frac{1/2}{1/2} = BF.$

$>1$ $\mathcal{H}_0$ $\mathcal{H}_1$ $\mathcal{H}_0$

$\mathcal{H}_1$

Espero que ayude junto con las otras respuestas ya publicadas.

— Sam Livingstone
fuente

Según los datos, ¿hasta qué punto creemos que 2 grupos no provienen de la misma población (H_1: no provienen de la misma población frente a H_0: provienen de la misma población). Esto se puede hacer con una prueba t bayesiana.

La complejidad se usa para determinar cuánto se superpone lo anterior con una hipótesis. El ajuste se usa para determinar cuánto se superpone la parte posterior con una hipótesis. Combinado, puede comparar las hipótesis y expresar su creencia posterior de si provienen o no de la misma población.

— PascalVKooten
fuente