¿Cuál es la distribución de la cardinalidad de la intersección de muestras aleatorias independientes sin reemplazo?

$S$ es un conjunto con elementos , y son enteros positivos fijos menores o iguales que . $n\in\mathbb{N}$ $a_1,a_2,...,a_m$ $n$

Dado que los elementos de son igualmente probables, muestras se separado e independientemente de sin reemplazo, cuyo tamaño es , respectivamente. $S$ $m$ $L_1, L_2,...,L_m$ $S$ $a_1,a_2,...,a_m$

La cardinalidad de la intersección de las muestrastiene, en general, soporte igual a , pero ¿qué distribución sigue? $\left|L_1\cap L_2\cap\ ...\ \cap L_m\right|$ $\{0,1,...,\min\{a_1,a_2,...,a_m\}\}$

combinatorics

— Agua fría
fuente

Puedo proporcionarle una receta para calcularlo de forma recursiva, pero no conozco una solución de forma cerrada. ¿Sería suficiente o desea una expresión explícita de la función de distribución dada

a_{1}, \dots, a_{m}

$a_1, \dots, a_m$ y

n

$n$ ?

— Bridgeburners

@Bridgeburners Una receta sería buena, al menos proporcionaría algún método / forma de atacar este problema y otros relacionados.

— llrs

Respuestas:

Aquí hay otro enfoque, uno que no implica recursividad. Sin embargo, todavía utiliza sumas y productos cuyas longitudes dependen de los parámetros. Primero daré la expresión, luego explicaré.

Tenemos

\begin{aligned} P & (| L_{1} \cap L_{2} \cap \dots \cap L_{m} | = k) \\ = \frac{(\binom{n}{k})}{\prod_{i = 1}^{n} (\binom{n}{a_{i}})} \sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) . \end{aligned}

$\begin{align} P &\bigl( | L_{1} \cap L_{2} \cap \cdots \cap L_{m} | = k \bigr) \\ &= \frac{\binom{n}{k}}{\prod_{i = 1}^{n} \binom{n}{a_{i}}} \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} -j - k}. \end{align}$

EDITAR: Al final de escribir todo esto, me di cuenta de que podemos consolidar un poco la expresión anterior combinando los coeficientes binomiales en probabilidades hipergeométricas y coeficientes trinomiales. Para lo que vale, la expresión revisada es Aquí es una variable aleatoria hipergeométrica donde se toman sorteos de una población de tamaño tiene estados de éxito.

\sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n}{j, k, n - j - k}) \prod_{l = 1}^{n} P (Hyp (n, j + k, a_{l}) = j + k) .

$\begin{equation} \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n}{j, k, n - j - k} \prod_{l = 1}^{n} P( \text{Hyp}(n, j + k, a_{l}) = j + k). \end{equation}$

Hyp (n, j + k, a_{l})

$\text{Hyp}(n, j + k, a_{l})$

a_{l}

$a_{l}$

n

$n$

j + k

$j + k$

Derivación

Consigamos alguna notación para hacer que los argumentos combinatorios sean un poco más fáciles de rastrear (con suerte). En todo momento, consideramos y fijos. Usaremos para denotar la colección de -tuplas ordenadas , donde cada , satisface $S$ $a_{1}, \ldots, a_{m}$ $\mathcal{C}(I)$ $m$ $(L_{1}, \ldots, L_{m})$ $L_{i} \subseteq S$

$|L_{i}| = a_{i}$ ; y
$L_{1} \cap \cdots \cap L_{m} = I$ .

También usaremos para una colección idéntica, excepto que requerimos lugar de igualdad. $\mathcal{C}'(I)$ $L_{1} \cap \cdots \cap L_{m} \supseteq I$

Una observación clave es que es relativamente fácil de contar. Esto se debe a que la condición es equivalente a para todo , por lo que, en cierto sentido, esto elimina las interacciones entre diferentes valores de . Para cada , el número de cumple el requisito es , ya que podemos construir tal eligiendo un subconjunto de de tamañoy luego unificante con . Resulta que $\mathcal{C}'(I)$ $L_{1} \cap \cdots \cap L_{m} \supseteq I$ $L_{i} \supseteq I$ $i$ $i$ $i$ $L_{i}$ $\binom{|S| - |I|}{a_{i} - |I|}$ $L_{i}$ $S \setminus I$ $a_{i} - |I|$ $I$

| C^{'} (I) | = \prod_{i = 1}^{n} (\binom{| S | - | I |}{a_{i} - | I |}) .

$\begin{equation} | \mathcal{C}'(I) | = \prod_{i = 1}^{n} \binom{|S| - |I|}{a_{i} - |I|}. \end{equation}$

Ahora nuestra probabilidad original se puede expresar mediante siguiente manera: $\mathcal{C}$

P (| L_{1} \cap L_{2} \cap \dots \cap L_{m} | = k) = \frac{\sum_{I : | I | = k} | C (I) |}{\sum_{all I \subseteq S} | C (I) |} .

$\begin{equation} P \bigl( | L_{1} \cap L_{2} \cap \cdots \cap L_{m} | = k \bigr) = \frac{ \sum_{I : |I| = k} | \mathcal{C}(I) | } { \sum_{\text{all $I \subseteq S$}} | \mathcal{C}(I) | }. \end{equation}$

Podemos hacer dos simplificaciones aquí de inmediato. Primero, el denominador es el mismo que Segundo, un argumento de permutación muestra quesolo depende de través de la cardinalidad. Como hay subconjuntos de tienen cardinalidad , se deduce que donde es un subconjunto arbitrario y fijo de tiene cardinalidad

| C^{'} (\emptyset) | = \prod_{i = 1}^{n} (\binom{| S |}{a_{i}}) = \prod_{i = 1}^{n} (\binom{n}{a_{i}}) .

$\begin{equation} | \mathcal{C}'(\emptyset) | = \prod_{i = 1}^{n} \binom{|S|}{a_{i}} = \prod_{i = 1}^{n} \binom{n}{a_{i}}. \end{equation}$

| C (I) |

$| \mathcal{C}(I) |$

I

$I$

| I |

$|I|$

(\binom{n}{k})

$\binom{n}{k}$

S

$S$

k

$k$

\sum_{I : | I | = k} | C (I) | = (\binom{n}{k}) | C (I_{0}) |,

$\begin{equation} \sum_{I : |I| = k} | \mathcal{C}(I) | = \binom{n}{k} | \mathcal{C}(I_{0}) |, \end{equation}$

I_{0}

$I_{0}$

S

$S$

k

$k$ .

Dando un paso atrás, ahora hemos reducido el problema a mostrar que

| C (I_{0}) | = \sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) .

$\begin{equation} | \mathcal{C}(I_{0}) | = \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k}. \end{equation}$

Sean los subconjuntos distintos de formados al agregar exactamente un elemento a . Entonces (Esto solo dice que si , entonces contiene pero tampoco contiene ningún elemento adicional.) Ahora hemos transformado el problema de conteo un problema de conteo , que sabemos más sobre cómo manejarlo. Más específicamente, tenemos $J_{1}, \ldots, J_{n - k}$ $S$ $I_{0}$

C (I_{0}) = C^{'} (I_{0}) ∖ (⋃_{i = 1}^{n - k} C^{'} (J_{i})) .

$\begin{equation} \mathcal{C}(I_{0}) = \mathcal{C}'(I_{0}) \setminus \biggl( \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr). \end{equation}$

L_{1} \cap \dots \cap L_{m} = I_{0}

$L_{1} \cap \cdots \cap L_{m} = I_{0}$

L_{1} \cap \dots \cap L_{m}

$L_{1} \cap \cdots \cap L_{m}$

I_{0}

$I_{0}$

C

$\mathcal{C}$

C^{'}

$\mathcal{C}'$

| C (I_{0}) | = | C^{'} (I_{0}) | - | ⋃_{i = 1}^{n - k} C^{'} (J_{i}) | = \prod_{l = 1}^{n} (\binom{n - k}{a_{l} - k}) - | ⋃_{i = 1}^{n - k} C^{'} (J_{i}) | .

$\begin{equation} | \mathcal{C}(I_{0}) | = | \mathcal{C}'(I_{0}) | - \biggl| \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr| = \prod_{l = 1}^{n} \binom{n - k}{a_{l} - k} - \biggl| \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr|. \end{equation}$

Podemos aplicar inclusión-exclusión para manejar el tamaño de la expresión de unión anterior. La relación crucial aquí es que, para cualquier , Esto se debe a que si contiene un número de , entonces también contiene su unión. También observamos que el conjunto tiene tamaño. Por lo tanto $\mathcal{I} \subseteq \{ 1, \ldots, n - k \}$

⋂_{i \in I} C^{'} (J_{i}) = C^{'} (⋃_{i \in I} J_{i}) .

$\begin{equation} \bigcap_{i \in \mathcal{I}} \mathcal{C}'(J_{i}) = \mathcal{C}' \biggl( \bigcup_{i \in \mathcal{I}} J_{i} \biggr). \end{equation}$

L_{1} \cap \dots \cap L_{m}

$L_{1} \cap \cdots \cap L_{m}$

J_{i}

$J_{i}$

⋃_{i \in I} J_{i}

$\bigcup_{i \in \mathcal{I}} J_{i}$

| I_{0} | + | I | = k + | I |

$|I_{0}| + |\mathcal{I}| = k + |\mathcal{I}|$

\begin{aligned} | ⋃_{i = 1}^{n - k} C^{'} (J_{i}) | & = \sum_{\emptyset \neq I \subseteq {1, \dots, n - k}} (- 1)^{| I | - 1} | ⋂_{i \in I} C^{'} (J_{i}) | \\ = \sum_{j = 1}^{n - k} \sum_{I : | I | = j} (- 1)^{j - 1} \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) \\ = \sum_{j = 1}^{n - k} (- 1)^{j - 1} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) . \end{aligned}

$\begin{align} \biggl| \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr| &= \sum_{\emptyset \neq \mathcal{I} \subseteq \{ 1, \ldots, n - k \}} (-1)^{| \mathcal{I} | - 1} \biggl| \bigcap_{i \in \mathcal{I}} \mathcal{C}'(J_{i}) \biggr| \\ &= \sum_{j = 1}^{n - k} \sum_{\mathcal{I} : |\mathcal{I}| = j} (-1)^{j - 1} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k} \\ &= \sum_{j = 1}^{n - k} (-1)^{j - 1} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k}. \end{align}$ (Podemos restringir los valores aquí ya que el producto de los coeficientes binomiales es cero a menos que para todo , es decir, .)

j

$j$

j \leq a_{l} - k

$j \leq a_{l} - k$

l

$l$

j \leq min (a_{1}, \dots, a_{m}) - k

$j \leq \min(a_{1}, \ldots, a_{m}) - k$

Finalmente, sustituyendo la expresión al final en la ecuación porarriba y consolidando la suma, obtenemos como se afirma. $| \mathcal{C}(I_{0}) |$

| C (I_{0}) | = \sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k})

$\begin{equation} | \mathcal{C}(I_{0}) | = \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k} \end{equation}$

— Jason
fuente

+1 por todo el esfuerzo y la solución, pero necesitaré pulir mis matemáticas para comprender la mayor parte de esto (y la otra respuesta). Gracias

— llrs

No conozco una forma analítica de resolver esto, pero aquí hay una forma recursiva de calcular el resultado.

Para , está eligiendo elementos de de los cuales se han elegido anteriormente. La probabilidad de elegir elementos que se cruzan con en su segundo sorteo viene dada por la distribución hipergeométrica: $m=2$ $a_2$ $n,$ $a_1$ $k \le \min\{a_1,a_2\}$ $L_1$

P (k ∣ n, a_{1}, a_{2}) = \frac{(\binom{a_{1}}{k}) (\binom{n - a_{1}}{a_{2} - k})}{(\binom{n}{a_{2}})} .

$P(k \mid n, a_1, a_2) = \frac{ {a_1 \choose k} {n - a_1 \choose a_2 - k} } {n \choose a_2}.$

Podemos llamar al resultadoPodemos usar la misma lógica para encontrar donde es la cardinalidad de la intersección de tres muestras. Entonces, $b_2.$ $P(b_3 = k \mid n, b_2, a_3),$ $b_3$

P (b_{3} = k) = \sum_{l = 0}^{min (a_{1}, a_{2})} P (b_{3} = k ∣ n, b_{2} = l, a_{3}) P (b_{2} = l ∣ n, a_{1}, a_{2}) .

$P(b_3=k) = \sum_{l=0}^{\min(a_1,a_2)} P(b_3=k \mid n, b_2=l, a_3) P(b_2 =l \mid n, a_1, a_2).$

Encuentre esto para cada . El último cálculo no es numéricamente difícil, porque es simplemente el resultado del cálculo anterior y es una invocación de La distribución hipergeométrica. $k \in \{0, 1, 2, \dots, \min(a_1,a_2,a_3)\}$ $P(b_2 = l \mid n, a_1, a_2)$ $P(b_3 = k \mid n, b_2=l, a_3)$

En general, para encontrar puede aplicar las siguientes fórmulas recursivas: para y que es solo para decir que $P(b_m)$

P (b_{i} = k) = \sum_{l = 0}^{min (a_{1}, a_{2}, \dots, a_{i - 1})} P (b_{i} = k ∣ n, b_{i - 1} = l, a_{i}) P (b_{i - 1} = l),

$P(b_i=k) = \sum_{l=0}^{\min(a_1, a_2, \dots, a_{i-1})} P(b_i = k \mid n, b_{i-1}=l, a_i) P(b_{i-1}=l),$

P (b_{i} = k ∣ n, b_{i - 1} = l, a_{i}) = \frac{(\binom{l}{k}) (\binom{n - l}{a_{i} - k})}{(\binom{n}{a_{i}})},

$P(b_i = k \mid n, b_{i-1}=l, a_i) = \frac{{l \choose k} {n-l \choose a_i - k}} {n \choose a_i},$

i \in {2, 3, \dots, m},

$i \in \{2, 3, \dots, m\},$

P (b_{1}) = δ_{a_{1} b_{1}},

$P(b_1) = \delta_{a_1 b_1},$

b_{1} = a_{1} .

$b_1 = a_1.$

Aquí está en R:

hypergeom <- function(k, n, K, N) choose(K, k) * choose(N-K, n-k) / choose(N, n)

#recursive function for getting P(b_i) given P(b_{i-1})
PNext <- function(n, PPrev, ai, upperBound) {
  l <- seq(0, upperBound, by=1)
  newUpperBound <- min(ai, upperBound)
  kVals <- seq(0, newUpperBound, by=1)
  PConditional <- lapply(kVals, function(k) {
    hypergeom(k, ai, l, n)
  })
  PMarginal <- unlist(lapply(PConditional, function(p) sum(p * PPrev) ))
  PMarginal
}

#loop for solving P(b_m)
P <- function(n, A, m) {
  P1 <- c(rep(0, A[1]), 1)
  if (m==1) {
    return(P1)
  } else {
    upperBound <- A[1]
    P <- P1
    for (i in 2:m) {
      P <- PNext(n, P, A[i], upperBound)
      upperBound <- min(A[i], upperBound)
    }
    return(P)
  }
}

#Example
n <- 10
m <- 5
A <- sample(4:8, m, replace=TRUE)
#[1] 6 8 8 8 5

round(P(n, A, m), 4)
#[1] 0.1106 0.3865 0.3716 0.1191 0.0119 0.0003
#These are the probabilities ordered from 0 to 5, which is the minimum of A

— Quemadores de puente
fuente

Gracias por su solución y su código. Espero otros enfoques de respuestas (si vienen) antes de otorgar la recompensa.

— llrs