Suma de coeficientes de distribución multinomial

$\newcommand{\P}{\mathbb{P}}$ Estoy tirando un dado justo. Cada vez que obtengo un 1, 2 o 3, escribo un '1'; cada vez que obtengo un 4 escribo un '2'; cada vez que obtengo un 5 o un 6, escribo un '3.'

Sea $N$ el número total de lanzamientos que necesito para que el producto de todos los números que escribí sea $\geq 100000$ . Quiero calcular (o aproximar) $\P(N\geq 25)$ , y se puede dar una aproximación en función de la distribución Normal.

Primero, sé que $\P(N\geq 11) = 1$ porque $\log_3 100.000 \approx 10.48$ . Ahora, vamos $a$ , $b$ , y $c$ es el número de veces que anotó un 1, 2, y 3, respectivamente. Entonces:

P (a, b, c ∣ n) = {\begin{cases} (\binom{n}{a, b, c}) {(\frac{1}{2})}^{a} {(\frac{1}{6})}^{b} {(\frac{1}{3})}^{c} & if a + b + c = n \\ 0 & otherwise \end{cases}

$\P(a,b,c\mid n) = \begin{cases}\displaystyle\binom {n}{a, b, c} \left(\frac 1 2\right) ^ a \left(\frac 1 6\right)^b\left(\frac 1 3\right)^c &\text{ if } a + b + c = n \\ 0 &\text{ otherwise}\end{cases}$

Lo que quiero calcular es:

P (a + b + c \geq 25 ∣ 2^{b} 3^{c} \geq 100000)

$\P(a + b + c \geq 25 \mid 2^b3^c\geq 100000)$

¿Cómo calculo esto?

--EDITAR:

Por lo tanto, se sugirió que podría reemplazar la condición con:

P (a + b + c \geq 25 ∣ α a + β b + γ c \geq δ)

$\P(a + b + c \geq 25 \mid \alpha a + \beta b + \gamma c \geq \delta)$

donde , , y . $\alpha = 0$ $\beta = \log 2$ $\gamma = \log 3$ $\delta = \log 100000$

¡Esto parece más solucionable! Lamentablemente, todavía no tengo idea de cómo resolverlo.

— Pedro Carvalho
fuente

+1 Este problema puede parecer un poco más familiar y prestarse más obviamente a soluciones aproximadas, si escribiera la condición en la forma donde y .

α a + β b + γ c \geq δ

$\alpha a + \beta b + \gamma c \ge \delta$

α = 0, β = \log (2), γ = \log (3),

$\alpha=0, \beta=\log(2), \gamma=\log(3),$

δ = \log (100000)

$\delta=\log(100000)$

— whuber

¡Agregué esta nueva forma de escribir la condición, pero desafortunadamente todavía no tengo la menor idea de cómo resolver esto!

— Pedro Carvalho

Otra pista es que si hay ocurrencias de '2', entonces se detendrá. Entonces podría aproximar esto con un binomio negativo con los parámetros y (también con y ). La respuesta exacta también es manejable ya que no hay muchas combinaciones. Además, la condición no es precisa: debe incluir que '2' o '3' se registraron en el ° rollo

17

$17$

17

$17$

0.5

$0.5$

11

$11$

1 / 3

$1/3$

N

$N$

— probabilidad es

Respuestas:

La presente pregunta es un caso específico en el que se trata de una cantidad que es una función lineal de una variable aleatoria multinomial. Es posible resolver su problema exactamente, enumerando las combinaciones multinomiales que satisfacen la desigualdad requerida y sumando la distribución en ese rango. En el caso donde es grande, esto puede volverse computacionalmente inviable. En este caso, es posible obtener una distribución aproximada utilizando la aproximación normal al multinomio. A continuación se muestra una versión generalizada de esta aproximación, y luego se aplica a su ejemplo específico. $N$

Problema general de aproximación: supongamos que tenemos una secuencia de variables aleatorias intercambiables con rango . Para cualquier podemos formar el vector de recuento , que cuenta el número de ocurrencias de cada resultado en los primeros valores de la secuencia. Como la secuencia subyacente es intercambiable, el vector de recuento se distribuye como: $1, 2, ..., m$ $n \in \mathbb{N}$ $\boldsymbol{X} \equiv \boldsymbol{X} (n) \equiv (X_1, X_2, ..., X_m)$ $n$

\begin{array}{ll} X ~ Mu (n, θ) & θ = lim_{n \to \infty} X (n) / n . \end{array}

$\begin{array} \boldsymbol{X} \text{ ~ Mu}(n, \boldsymbol{\theta}) & & \boldsymbol{\theta} = \lim_{n \rightarrow \infty} \boldsymbol{X}(n)/n. \end{array}$

Ahora, supongamos que tenemos algún vector de pesos no negativos y usamos estos pesos para definir la función lineal: $\boldsymbol{w} = (w_1, w_2, ..., w_m)$

A (n) \equiv \sum_{i = 1}^{m} w_{i} X_{i} .

$A(n) \equiv \sum_{i=1}^m w_i X_i.$

Como los pesos no son negativos, esta nueva cantidad no disminuye en . Luego definimos el número , que es el menor número de observaciones requerido para obtener un valor mínimo especificado para nuestra función lineal. Queremos aproximar la distribución de en el caso de que este valor sea (estocásticamente) grande. $n$ $N(a) \equiv \min \{ n \in \mathbb{N} | A(n) \geqslant a \}$ $N(a)$

Resolviendo el problema general de aproximación: Primero, notamos que dado que no es decreciente en (lo cual se cumple porque hemos asumido que todos los pesos no son negativos), tenemos: $A(n)$ $n$

P (N (a) ⩾ n) = P (N (a) > n - 1) = P (A (n - 1) < a) .

$\mathbb{P} (N(a) \geqslant n) = \mathbb{P} (N(a) > n - 1) = \mathbb{P} (A(n-1) < a).$

Por lo tanto, la distribución de está directamente relacionada con la distribución de . Suponiendo que la primera cantidad es grande, podemos aproximar la distribución de la segunda reemplazando el vector aleatorio discreto con una aproximación continua de la distribución normal multivariada. Esto lleva a una aproximación normal para la cantidad lineal , y podemos calcular los momentos de esta cantidad directamente. Para hacer esto, usamos el hecho de que , y para . Con algo de álgebra básica, esto nos da: $N$ $A$ $\boldsymbol{X}$ $A(n)$ $\mathbb{E}(X_i) = n \theta_i$ $\mathbb{V}(X_i) = n \theta_i (1 - \theta_i)$ $\mathbb{C}(X_i, X_j) = -n \theta_i \theta_j$ $i \neq j$

μ \equiv E (\frac{1}{n} A (n)) = \sum_{i = 1}^{m} w_{i} θ_{i},

$\mu \equiv \mathbb{E}\left(\frac{1}{n} A(n)\right) = \sum_{i=1}^m w_i \theta_i,$

σ^{2} \equiv V (\frac{1}{\sqrt{n}} A (n)) = \sum_{i = 1}^{m} w_{i} θ_{i} - {(\sum_{i = 1}^{m} w_{i} θ_{i})}^{2} = μ (1 - μ) .

$\sigma^2 \equiv \mathbb{V}\left(\frac{1}{\sqrt{n}} A(n)\right) = \sum_{i=1}^m w_i \theta_i - \left(\sum_{i=1}^m w_i \theta_i\right)^2 = \mu (1 - \mu).$

Tomar la aproximación normal al multinomio ahora nos da la distribución aproximada . Aplicando esta aproximación se obtienen: $A(n) \text{ ~ N} (n \mu, n \mu (1 - \mu))$

P (N (a) ⩾ n) = P (A (n - 1) < a) \approx Φ (\frac{a - (n - 1) μ}{\sqrt{(n - 1) μ (1 - μ)}}) .

$\mathbb{P} (N(a) \geqslant n) = \mathbb{P} (A(n-1) < a) \approx \Phi \left(\frac{a - (n-1) \mu}{\sqrt{(n-1) \mu (1 - \mu)}}\right).$

(El símbolo es la notación estándar para la función de distribución normal estándar). Es posible aplicar esta aproximación para encontrar probabilidades relativas a la cantidad para un valor específico de . Esta es una aproximación básica que no ha intentado incorporar la corrección de continuidad en los valores de los valores de recuento multinomiales subyacentes. Se obtiene tomando una aproximación normal usando los mismos dos primeros momentos centrales como la función lineal exacta. $\Phi$ $N(a)$ $a$

Aplicación a su problema: en su problema tiene probabilidades , weights , y el valor de corte a . Por lo tanto, tiene (redondeando a seis puntos decimales) . Aplicando la aproximación anterior que tenemos (redondeando a seis puntos decimales): $\boldsymbol{\theta} = (\tfrac{1}{2}, \tfrac{1}{6}, \tfrac{1}{3})$ $\boldsymbol{w} = (0, \ln 2, \ln 3)$ $a = \ln 100000$ $\mu = \tfrac{1}{6}\ln 2 + \tfrac{1}{3}\ln 3 = 0.481729$

P (N (a) ⩾ 25) \approx Φ (\frac{\ln 100000 - 24 \cdot 0.481729}{\sqrt{24} \cdot 0.499666}) = Φ (- 0.019838) = 0.492086.

$\mathbb{P}(N(a) \geqslant 25) \approx \Phi \left(\frac{\ln 100000 - 24 \cdot 0.481729}{\sqrt{24} \cdot 0.499666}\right) =\Phi (-0.019838) = 0.492086.$

Mediante la aplicación de la distribución multinomial exacta, sumando todas las combinaciones que satisfacen el requisito , se puede demostrar que el resultado exacto es . Por lo tanto, podemos ver que la aproximación es bastante cercana a la respuesta exacta en el presente caso. $\mathbb{P}(A(24) < a)$ $\mathbb{P}(N(a) \geqslant 25) = 0.483500$

Con suerte, esta respuesta le dará una respuesta a su pregunta específica, al tiempo que la ubica dentro de un marco más general de resultados probabilísticos que se aplican a funciones lineales de vectores aleatorios multinomiales. El método actual debería permitirle obtener soluciones aproximadas a los problemas del tipo general que enfrenta, permitiendo la variación en los números específicos en su ejemplo.

— Ben - Restablece a Monica
fuente

Hagamos una aproximación normal.

Primero, reformulemos completamente su problema en los registros. Empiezas en 0 en el tiempo t = 0. Luego, en cada paso de tiempo, agrega:

0 con probabilidad 1/2
$\log(2)$ con probabilidad 1/6
$\log(3)$ con probabilidad 1/3

Detiene este proceso cuando su suma excede momento en el que observa cuántos lanzamientos ha realizado. El número de lanzamientos que te llevó alcanzar ese punto es ^ $\log(10^5)$ $N$

Mi calculadora me dice que la media de sus incrementos es: y que la varianza es . Como referencia, el punto final es de así que lo alcanzaremos en aproximadamente 24 pasos $\approx 0.48$ $\approx 0.25$ $\approx 11.51$

Condicional al hecho de que hemos realizado 25 pasos, la distribución de la suma es aproximadamente un gaussiano centrado en 12.0 y con una varianza de 6.25. Esto nos da una aproximación gaussiana aproximada de $p(N\geq25)\approx 0.5$

Tendría que mirar los acumulativos de la suma en N = 25 para saber si la aproximación gaussiana está bien o no. Dado que los incrementos no son simétricos, el aprox. Podría no ser el mejor

— Guillaume Dehaene
fuente

¿Puedes completar la derivación por mí? Me está costando verlo. Además, ¿no hay una forma exacta de calcularlo?

— Pedro Carvalho

¿No quiere decir "log (2)" y "log (3)" donde tiene log (1) y log (2)?

— Glen_b -Reinstate a Monica el

@GuillaumeDehaene escribió: .... Según mi cálculo, de dos maneras diferentes, que es muy diferente a 0.5

p (N \geq 25) \approx 0.5

$p(N\geq25)\approx 0.5$

P (N \geq 25) = 1 - P (N \leq 24) = 1 - \frac{1127291856633071}{6499837226778624} \approx 0.8266

$P(N\geq25) = 1 - P(N\leq 24) = 1 - \frac{1127291856633071}{6499837226778624} \approx 0.8266$

— wolfies

¿Cómo se obtiene P (n \ leq24) \ aprox 0.18?

— Guillaume Dehaene