Distancia máxima entre muestras extraídas sin reemplazo de una distribución uniforme discreta

Este problema está relacionado con la investigación de mi laboratorio en cobertura robótica:

Dibuja al azar números del conjunto sin reemplazo, y ordena los números en orden ascendente. . $n$ $\{1,2,\ldots,m\}$ $1\le n\le m$

De esta lista ordenada de números , genera la diferencia entre números consecutivos y los límites: . Esto da brechas. $\{a_{(1)},a_{(2)},…,a_{(n)}\}$ $g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\}$ $n+1$

¿Cuál es la distribución de la brecha máxima?

$P(\max(g) = k) = P(k;m,n) = ?$

Esto se puede enmarcar utilizando estadísticas de pedido : $P(g_{(n+1)} = k) = P(k;m,n) = ?$

Vea el enlace para la distribución de brechas , pero esta pregunta hace referencia a la distribución de la brecha máxima .

Estaría satisfecho con el valor promedio, $\mathbb{E}[g_{(n+1)}]$ .

Si $n=m$ todos los espacios son de tamaño 1. Si $n+1 = m$ hay un espacio de tamaño $2$ , $n+1$ posibles ubicaciones. El tamaño máximo de espacio es $m-n+1$ , y este espacio se puede colocar antes o después de cualquiera de los $n$ números, para un total de $n+1$ posibles posiciones. El tamaño de espacio máximo más pequeño es $\lceil\frac{m-n}{n+1}\rceil$ . Defina la probabilidad de cualquier combinación dada $T= {m \choose n}^{-1}$ .

He resuelto parcialmente la función de masa de probabilidad como $P(g_{(n+1)} = k) = P(k;m,n) = \begin{cases} 0 & k < \lceil\frac{m-n}{n+1}\rceil\\ 1 & k = \frac{m-n}{n+1} \\ 1 & k = 1 \text{ (occurs when $m=n$)} \\ T(n+1)& k = 2 \text{ (occurs when $m=n+1$)} \\ T(n+1)& k = \frac{m-(n-1)}{n} \\ ? & \frac{m-(n-1)}{n} \le k \le m-n+1 \\ T(n+1)& k = m-n+1\\ 0 & k > m-n+1 \end{cases} \tag{1}$

Trabajo actual (1): La ecuación para la primera brecha, es sencilla: El valor esperado tiene un valor simple: . Por simetría, espero que todos los espacios tengan esta distribución. Quizás la solución podría encontrarse extrayendo esta distribución veces. $a_{(1)}$

P (a (1) = k) = P (k; m, n) = 1 ( m n ) \sum k = 1 m - n + 1 (m - k - 1 n - 1)

$P(a_{(1)} = k) = P(k;m,n) = \frac{1}{{m \choose n}} \sum_{k=1}^{m-n+1} {m-k-1 \choose n-1}$

E[P(a(1))]=1(mn)∑m−n+1k=1(m−k−1n−1)k=m−n1+n $\mathbb{E}[P(a_{(1)})] = \frac{1}{ {m \choose n}} \sum_{k=1}^{m-n+1} {m-k-1 \choose n-1} k = \frac{m-n}{1+n}$

n $n$

Trabajo actual (2): es fácil ejecutar simulaciones de Monte Carlo.

simMaxGap[m_, n_] := Max[Differences[Sort[Join[RandomSample[Range[m], n], {0, m+1}]]]];
m = 1000; n = 1; trials = 100000;
SmoothHistogram[Table[simMaxGap[m, n], {trials}], Filling -> Axis,
Frame -> {True, True, False, False},
FrameLabel -> {"k (Max gap)", "Probability"},
PlotLabel -> StringForm["m=``,n=``,smooth histogram of maximum map for `` trials", m, n, trials]][![enter image description here][1]][1]

— AaronBecker
fuente

Con estas condiciones debe tener n <= m. Creo que quieres g = {a_ (1), a_ (2) -a_ (1), ..., a_ (n) -a_ (n-1)}. ¿Seleccionar al azar significa seleccionar cada número con probabilidad 1 / m en el primer sorteo? Dado que no reemplaza la probabilidad sería 1 / (m-1) en el segundo y así sucesivamente hasta 1 en el sorteo mth si n = m. Si n <m esto se detendría antes con el último sorteo con probabilidad 1 / (m- (n-1)) en el enésimo sorteo.

— Michael R. Chernick

Su descripción original de no tenía sentido, porque (creo) que transpuso dos de los subíndices. Verifique que mi edición se ajuste a su intención: en particular, confirme que quiere decir que hay espacios, de los cuales es el primero.

g $g$

n $n$

a(1) $a_{(1)}$

— whuber

@gung Creo que esto es investigación, en lugar de autoestudio

— Glen_b -Reinstate Monica

Creo que tu tamaños máximos de desfase mínimo y deben ser y . El tamaño de espacio mínimo es cuando se eligen enteros consecutivos, y el tamaño de espacio máximo se produce cuando selecciona y primeros enteros (o y )

1 $1$

m−n+1 $m-n+1$

m $m$

n−1 $n-1$

1,…,n−1 $1,\dots,n-1$

1 $1$

m−n+2,…,m $m-n+2,\dots,m$

— probabilidadislogica

Gracias a Michael Chernick y a probableislogic, se han hecho sus correcciones. ¡Gracias @whuber por hacer la corrección!

— AaronBecker

Sea la posibilidad de que el mínimo, , sea igual a ; es decir, la muestra consta de un subconjunto de . Hay tales subconjuntos de los subconjuntos igualmente probables, de donde $f(g;n,m)$ $a_{(1)}$ $g$ $g$ $n-1$ $\{g+1,g+2,\ldots,m\}$ $\binom{m-g}{n-1}$ $\binom{m}{n}$

Pr (a (1) = g = f (g; n, m) = ( m - g n - 1 ) ( m n ) .

$\Pr(a_{(1)}=g = f(g;n,m) = \frac{\binom{m-g}{n-1}}{\binom{m}{n}}.$

Agregar para todos los valores posibles de mayores que produce la función de supervivencia $f(k;n,m)$ $k$ $g$

Pr (a (1) > g) = Q (g; n, m) = ( m - g ) ( m - g - 1 n - 1 ) n ( m n ) .

$\Pr(a_{(1)} \gt g) = Q(g;n,m)= \frac{(m-g)\binom{m-g-1}{n-1}}{n \binom{m}{n}}.$

Deje ser la variable aleatoria dada por la brecha más grande: $G_{n,m}$

G n, m = max (a (1), a (2) - a (1), \dots, a (n) - a (n - 1)) .

$G_{n,m} = \max\left(a_{(1)}, a_{(2)}-a_{(1)}, \ldots, a_{(n)}-a_{(n-1)}\right).$

(Esto responde a la pregunta como enmarcados originalmente, antes de que se modificó para incluir un hueco entre y .) $a_{(n)}$ $m$ Vamos a calcular su función de supervivencia de la cual se deriva fácilmente la distribución completa de . El método es un programa dinámico que comienza con , por lo que es obvio que

P (g; n, m) = Pr (G n, m > g),

$P(g;n,m)=\Pr(G_{n,m}\gt g),$

Gn,m $G_{n,m}$

n=1 $n=1$

P (g; 1, m) = Pr (G 1, m > 1) = m - g m, g = 0, 1, \dots, m . (1)

$P(g;1,m) = \Pr(G_{1,m} \gt 1) = \frac{m-g}{m},\ g=0, 1, \ldots, m.\tag{1}$

Para más grande , tenga en cuenta que el evento es la unión disjunta del evento $n\gt 1$ $G_{n,m}\gt g$

a 1 > g,

$a_{1} \gt g,$

para el cual la primera brecha excede , y los eventos separados $g$ $g$

a 1 = k and G n - 1, m - k > g, k = 1, 2, \dots, g

$a_{1}=k\text{ and } G_{n-1,m-k} \gt g, \ k=1, 2, \ldots, g$

para el cual la primera brecha es igual a y una brecha mayor que ocurre más tarde en la muestra. La Ley de Probabilidad Total afirma que las probabilidades de estos eventos se suman, de donde $k$ $g$

P (g; n, m) = Q (g; n, m) + \sum k = 1 g f (k; n, m) P (g; n - 1, m - k) . (2)

$P(g;n,m) = Q(g;n,m) + \sum_{k=1}^g f(k;n,m) P(g;n-1,m-k).\tag{2}$

Fijación y se fijan a cabo una matriz de dos vías indexados por y , podemos calcular mediante el uso de para completar su primera fila y para completar cada fila sucesiva utilizando operaciones por fila. En consecuencia, la tabla se puede completar en operaciones y todas las tablas para a se pueden construir en operaciones . $g$ $i=1,2,\ldots,n$ $j=1,2,\ldots,m$ $P(g;n,m)$ $(1)$ $(2)$ $O(gm)$ $O(gmn)$ $g=1$ $g=m-n+1$ $O(m^3n)$

Estos gráficos muestran la función de supervivencia para . A medida que aumenta , el gráfico se mueve hacia la izquierda, lo que corresponde a las posibilidades decrecientes de grandes brechas. $g\to P(g;n,64)$ $n=1,2,4,8,16,32,64$ $n$

Las fórmulas cerradas para se pueden obtener en muchos casos especiales, especialmente para grande , pero no he podido obtener una fórmula cerrada que se aplique a todos los . Se pueden obtener buenas aproximaciones reemplazando este problema con el problema análogo para variables uniformes continuas. $P(g;n,m)$ $n$ $g,n,m$

Finalmente, la expectativa de se obtiene sumando su función de supervivencia a partir de : $G_{n,m}$ $g=0$

E (G n, m) = \sum g = 0 m - n + 1 P (g; n, m) .

$\mathbb{E}(G_{n,m}) = \sum_{g=0}^{m-n+1} P(g;n,m).$

Esta gráfica de contorno de la expectativa muestra contornos en , graduándose de oscuro a claro. $2, 4, 6, \ldots, 32$

— whuber
fuente

Sugerencia: línea "Sea la variable aleatoria dada por el espacio más grande:", agregue el último espacio de . Su trama de expectativas coincide con mi simulación de Monte Carlo.

$G_{n,m}$

$m+1-a_{n}$

— AaronBecker