Relación entre distribuciones binomiales y beta


27

Soy más programador que estadístico, así que espero que esta pregunta no sea demasiado ingenua.

Sucede en las ejecuciones de programas de muestreo en momentos aleatorios. Si tomo N = 10 muestras de tiempo aleatorio del estado del programa, podría ver la función Foo ejecutándose en, por ejemplo, I = 3 de esas muestras. Estoy interesado en lo que me dice sobre la fracción de tiempo real F que Foo está en ejecución.

Entiendo que estoy distribuido binomialmente con media F * N. También sé que, dado I y N, F sigue una distribución beta. De hecho, he verificado por programa la relación entre esas dos distribuciones, que es

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

El problema es que no tengo una sensación intuitiva de la relación. No puedo "imaginar" por qué funciona.

EDITAR: Todas las respuestas fueron desafiantes, especialmente las de @ whuber, que todavía necesito asimilar, pero fue muy útil traer las estadísticas del pedido. Sin embargo, me di cuenta de que debería haber hecho una pregunta más básica: dados I y N, ¿cuál es la distribución para F? Todos han señalado que es Beta, lo que yo sabía. Finalmente descubrí de Wikipedia ( Conjugate anterior ) que parece ser Beta(I+1, N-I+1). Después de explorarlo con un programa, parece ser la respuesta correcta. Entonces, me gustaría saber si estoy equivocado. Y, todavía estoy confundido acerca de la relación entre los dos cdf mostrados anteriormente, por qué suman 1 y si incluso tienen algo que ver con lo que realmente quería saber.


Si "lo que realmente quería saber" es "la fracción de tiempo real que Foo está en ejecución", entonces está preguntando acerca de un intervalo de confianza binomial o un intervalo creíble binomial (bayesiano).
whuber

@whuber: Bueno, he usado el método de pausa aleatoria para ajustar el rendimiento durante más de 3 décadas, y algunas otras personas también lo han descubierto. Le he dicho a la gente que si alguna condición es cierta en 2 o más muestras de tiempo aleatorio, eliminarla ahorraría una buena fracción de tiempo. Qué buena fracción es lo que he tratado de ser explícito, suponiendo que no conozcamos un Bayesiano anterior. Aquí está la llama general: stackoverflow.com/questions/375913/… y stackoverflow.com/questions/1777556/alternatives-to-gprof/…
Mike Dunlavey

1
Buena idea. La suposición estadística es que la interrupción es independiente del estado de ejecución, lo cual es una hipótesis razonable. Un intervalo de confianza binomial es una buena herramienta para representar la incertidumbre. (También puede ser revelador: en su situación de 3/10, un IC simétrico de 95% a doble cara para la probabilidad real es [6.7%, 65.2%]. En una situación de 2/10 el intervalo es [2.5 .!%, 55,6%] Estos son amplias gamas Incluso con 2/3, el límite inferior es todavía inferior al 10% la lección aquí es que algo bastante raro puede pasar dos veces)..
whuber

@whuber: Gracias. Tienes razón. Algo más útil es el valor esperado. En cuanto a los anteriores, señalo que si solo ves algo una vez, no te dice mucho a menos que sepas que el programa está en un bucle infinito (o extremadamente largo).
Mike Dunlavey, el

Creo que todas las respuestas y comentarios ciertamente han sido esclarecedores y correctos, pero nadie realmente tocó la interesante igualdad que @MikeDunlavey puso en su publicación original. Esta igualdad se puede encontrar en Beta wikipedia en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function pero no se da una descripción de por qué ese es el caso, simplemente se indica como una propiedad.
bdeonovic el

Respuestas:


27

Considere las estadísticas de orden de n + 1 sorteos independientes de una distribución uniforme. Debido a que las estadísticas de pedido tienen distribuciones Beta , la integral Beta da la posibilidad de que x [ k ] no exceda px[0]x[1]x[n]n+1x[k]p

Pr[x[k]p]=1B(k+1,nk+1)0pxk(1x)nkdx.

(¿Por qué es esto? Aquí hay una demostración no rigurosa pero memorable. La posibilidad de que encuentre entre p y p + d p es la posibilidad de que de n + 1 valores uniformes, k se encuentren entre 0 y p , al menos uno de ellos se encuentra entre p y p + d p , y el resto se encuentra entre p + d p y 1. En primer orden en el infinitesimal d px[k]pp+dpn+1k0ppp+dpp+dp1dpsolo necesitamos considerar el caso en el que exactamente un valor (es decir, ) se encuentra entre p y p + d p y, por lo tanto , los valores de n - k exceden p + d p . Como todos los valores son independientes y uniformes, esta probabilidad es proporcional a p k ( d p ) ( 1 - p - d p ) n - k . Para primer orden en d p esto es igual a px[k]pp+dpnkp+dppk(dp)(1pdp)nkdp , precisamente el integrando de la distribución Beta. El término 1pk(1p)nkdp se puede calcular directamente a partir de este argumento como el coeficiente multinomial ( n + 11B(k+1,nk+1)o derivado indirectamente como la constante de normalización de la integral.)(n+1k,1,nk)

Por definición, el evento es que el valor de k + 1 st no excede p . De manera equivalente, al menos k + 1 de los valores no exceden p : esta simple (y espero obvia) afirmación proporciona la intuición que busca. La probabilidad del enunciado equivalente viene dada por la distribución binomial,x[k]pk+1stp k+1p

Pr[at least k+1 of the xip]=j=k+1n+1(n+1j)pj(1p)n+1j.

En resumen , la integral Beta divide el cálculo de un evento en una serie de cálculos: encontrar al menos los valores de en el rango [ 0 , p ] , cuya probabilidad normalmente calcularíamos con un cdf Binomial, se divide en casos exclusivos donde exactamente k valores están en el rango [ 0 , x ] y 1 valor está en el rango [ x , x + d x ] para todos los posibles x , 0 x < pk+1[0,p] k[0,x][x,x+dx]x0x<p, y es una longitud infinitesimal. La suma de todas esas "ventanas" [ x , x + d x ] , es decir, la integración, debe dar la misma probabilidad que el CDM binomial.dx[x,x+dx]

alt text


Agradezco el esfuerzo. Voy a tener que estudiar esto realmente porque no es mi "lengua materna". Además, veo muchos signos de dólar y cosas de formato. ¿Hay algo que no sepa que haga que parezca matemática real?
Mike Dunlavey

¿Que pasó? De repente aparecieron las matemáticas, y escribir aquí se hizo muy lento.
Mike Dunlavey


Revisé la pregunta, si quieres echar un vistazo. Gracias.
Mike Dunlavey

1
Es un poco tarde, pero finalmente tuve tiempo de sentarme y recrear tu argumento. La clave era el "coeficiente multinomial". Había intentado descifrarlo usando coeficientes binomiales viejos y simples y me estaba volviendo loco. Gracias de nuevo por una buena respuesta.
Mike Dunlavey

12

Mire el pdf de Binomial en función de : f ( x ) = ( nxy el pdf de Beta en función dep:g(p)=Γ(a+b)

f(x)=(nx)px(1p)nx
p Probablemente pueda ver que con una elección apropiada (entera) paraaybson lo mismo. Por lo que puedo decir, eso es todo lo que hay en esta relación: la forma en quepentra en el binomial pdf simplemente se llama distribución Beta.
g(p)=Γ(a+b)Γ(a)Γ(b)pa1(1p)b1
abp

Sé que se ven casi iguales, pero si sustituyo y por nx, y si tomo la Beta pdf y sustituyo x por a-1 e y por b-1 obtengo un factor adicional de (x + y + 1), o n + 1. es decir (x + y + 1)! / x! / y! * p ^ x * q ^ y. Eso parece ser suficiente para despistarme.
Mike Dunlavey

1
Tal vez alguien intervenga con una respuesta completa, pero en una explicación "intuitiva" siempre podemos alejar las constantes (como ) que no dependen de las variables de interés ( x y p ), pero que son necesarias para haga que el pdf agregue / integre a 1. Siéntase libre de reemplazar los signos de "igualdad" con signos de "proporcional a". n+1xp
Aniko

Buen punto. Creo que me estoy acercando a un entendimiento. Todavía estoy tratando de decir lo que x te dice sobre la distribución p, y por qué esos dos cdfs suman 1.
Mike Dunlavey

1
Tengo una visión diferente de las explicaciones "intuitivas". En algunos casos no nos importan demasiado las constantes, pero en este caso el quid de la cuestión es ver por qué aparece un n + 1 y no un n. Si no comprende eso, entonces su "intuición" es incorrecta.
whuber

Revisé la pregunta, si quieres echar un vistazo. Gracias.
Mike Dunlavey el

5

Como se anotó, la distribución Beta describe la distribución de la probabilidad de prueba de parámetros , mientras que la distribución binomial describe la distribución de los resultados del parámetro I . Reescribiendo su pregunta, lo que preguntó fue por qué P ( F i + 1FIP(Fni+1)+P(I+1fn)=1P(Fni+1)=P(fn<I+1)

P(Fi+1n)+P(Ifn1)=1
P(Fni+1)+P(I+1fn)=1
P(Fni+1)=P(fn<I+1)
Es decir, la probabilidad de que la observación más uno sea mayor que la expectativa de la observación es la misma que la probabilidad de que la observación más uno sea mayor que la expectativa de la observación.

Admito que esto puede no ayudar a intuir la formulación original del problema, pero tal vez ayude al menos ver cómo las dos distribuciones usan el mismo modelo subyacente de ensayos repetidos de Bernoulli para describir el comportamiento de diferentes parámetros.


Le agradezco su opinión al respecto. Todas las respuestas me están ayudando a pensar en la pregunta y posiblemente a comprender mejor lo que estoy preguntando.
Mike Dunlavey

Revisé la pregunta, si quieres echar un vistazo. Gracias.
Mike Dunlavey

1
FBeta(I+1,NI+1)

@sesqu, could your answer be somehow related to my question here: stats.stackexchange.com/questions/147978/…? I would appreciate your thoughts on it.
Vicent

1

In Bayesian land, the Beta distribution is the conjugate prior for the p parameter of the Binomial distribution.


2
Yes, but why is this the case?
vonjd

1

Can't comment on other answers, so i have to create my own answer.

Posterior = C * Likelihood * Prior (C is a constant that makes Posterior integrated to 1)

Dado un modelo que utiliza la distribución Binomial para la probabilidad, y la distribución Beta para Prior. El producto de los dos que genera el Posterior también es una distribución Beta. Dado que el Prior y el Posterior son ambos Beta, y por lo tanto son distribuciones conjugadas . el Prior (un Beta) se llama conjugado previo para la probabilidad (un Binomial). Por ejemplo, si multiplica una Beta con una Normal, la Posterior ya no es una Beta. En resumen, Beta y Binomial son dos distribuciones que se usan con frecuencia en la inferencia bayesiana. Beta es Conjugate Prior de Binomial, pero las dos distribuciones no son un subconjunto o superconjunto del otro.

The key idea of Bayesian inference is we are treating the parameter p as a random variable that ranges from [0,1] which is contrary to frequentist inference approach where we are treating parameter p as fixed. If you look closely to the properties of Beta distribution, you will see its Mean and Mode are solely determined by α and β irrelevant to the parameter p . This, coupled with its flexibility, is why Beta is usually used as a Prior.


1

Summary: It is often said that Beta distribution is a distribution on distributions! But what is means?

It essentially means that you may fix n,k and think of P[Bin(n,p)k] as a function of p. What the calculation below says is that the value of P[Bin(n,p)k] increases from 0 to 1 when you tune p from 0 to 1. The increasing rate at each p is exactly β(k,nk+1) at that p.

enter image description here


Let Bin(n,p) denote a Binomial random variable with n samples and the probability of success p. Using basic algebra we have

ddpP[Bin(n,p)=i]=n(P[Bin(n1,p)=i1]P[Bin(n1,p)=i]).

It has also some nice combinatorial proof, think of it as an exercise!

So, we have:

ddpP[Bin(n,p)k]=ddpi=knP[Bin(n,p)=i]=n(i=knP[Bin(n1,p)=i1]P[Bin(n1,p)=i])
which is a telescoping series and can be simplified as

ddpP[Bin(n,p)k]=nP[Bin(n1,p)=k1]=n!(k1)!(nk)!pk1(1p)nk=β(k,nk+1).


Remark To see an interactive version of the plot look at this. You may download the notebook or just use the Binder link.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.