¿Cuál es la distribución de la cardinalidad de la intersección de muestras aleatorias independientes sin reemplazo?


10

S es un conjunto con elementos , y son enteros positivos fijos menores o iguales que .nNa1,a2,...,amn

Dado que los elementos de son igualmente probables, muestras se separado e independientemente de sin reemplazo, cuyo tamaño es , respectivamente.SmL1,L2,...,LmSa1,a2,...,am

La cardinalidad de la intersección de las muestrastiene, en general, soporte igual a , pero ¿qué distribución sigue?|L1L2 ... Lm|{0,1,...,min{a1,a2,...,am}}


Puedo proporcionarle una receta para calcularlo de forma recursiva, pero no conozco una solución de forma cerrada. ¿Sería suficiente o desea una expresión explícita de la función de distribución dada a1,,am y n ?
Bridgeburners

@Bridgeburners Una receta sería buena, al menos proporcionaría algún método / forma de atacar este problema y otros relacionados.
llrs

Respuestas:


3

Aquí hay otro enfoque, uno que no implica recursividad. Sin embargo, todavía utiliza sumas y productos cuyas longitudes dependen de los parámetros. Primero daré la expresión, luego explicaré.

Tenemos

P(|L1L2Lm|=k)=(nk)i=1n(nai)j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk).

EDITAR: Al final de escribir todo esto, me di cuenta de que podemos consolidar un poco la expresión anterior combinando los coeficientes binomiales en probabilidades hipergeométricas y coeficientes trinomiales. Para lo que vale, la expresión revisada es Aquí es una variable aleatoria hipergeométrica donde se toman sorteos de una población de tamaño tiene estados de éxito.Hyp(n,j+k,al)alnj+k

j=0min(a1,,am)k(1)j(nj,k,njk)l=1nP(Hyp(n,j+k,al)=j+k).
Hyp(n,j+k,al)alnj+k

Derivación

Consigamos alguna notación para hacer que los argumentos combinatorios sean un poco más fáciles de rastrear (con suerte). En todo momento, consideramos y fijos. Usaremos para denotar la colección de -tuplas ordenadas , donde cada , satisfacea 1 , , a m C ( I ) m ( L 1 , , L m ) L iSSa1,,amC(I)m(L1,,Lm)LiS

  • |Li|=ai ; y
  • L1Lm=I .

También usaremos para una colección idéntica, excepto que requerimos lugar de igualdad. L 1 L mIC(I)L1LmI

Una observación clave es que es relativamente fácil de contar. Esto se debe a que la condición es equivalente a para todo , por lo que, en cierto sentido, esto elimina las interacciones entre diferentes valores de . Para cada , el número de cumple el requisito es , ya que podemos construir tal eligiendo un subconjunto de de tamañoy luego unificante con . Resulta que L 1 L mI L iIiii L i ( | S | - | I |C(I)L1LmILiIiiiLiLiSIai-| Yo| Yo| C(I)| =ni=1(|S|-|I|(|S||I|ai|I|)LiSIai|I|I

|C(I)|=i=1n(|S||I|ai|I|).

Ahora nuestra probabilidad original se puede expresar mediante siguiente manera: P ( | L 1L 2L m | = k ) = I : | Yo | = k | C ( I ) |C

P(|L1L2Lm|=k)=I:|I|=k|C(I)|all IS|C(I)|.

Podemos hacer dos simplificaciones aquí de inmediato. Primero, el denominador es el mismo que Segundo, un argumento de permutación muestra quesolo depende de través de la cardinalidad. Como hay subconjuntos de tienen cardinalidad , se deduce que donde es un subconjunto arbitrario y fijo de tiene cardinalidadEl | C(I)| Yo| Yo| (n

|C()|=i=1n(|S|ai)=i=1n(nai).
|C(I)|I|I| SkI:| Yo| =k| C(I)| = ( n(nk)SkI0Sk
I:|I|=k|C(I)|=(nk)|C(I0)|,
I0Sk .

Dando un paso atrás, ahora hemos reducido el problema a mostrar que

|C(I0)|=j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk).

Sean los subconjuntos distintos de formados al agregar exactamente un elemento a . Entonces (Esto solo dice que si , entonces contiene pero tampoco contiene ningún elemento adicional.) Ahora hemos transformado el problema de conteo un problema de conteo , que sabemos más sobre cómo manejarlo. Más específicamente, tenemos J1,,JnkSI0

C(I0)=C(I0)(i=1nkC(Ji)).
L1Lm=I0L1LmI0CC
|C(I0)|=|C(I0)||i=1nkC(Ji)|=l=1n(nkalk)|i=1nkC(Ji)|.

Podemos aplicar inclusión-exclusión para manejar el tamaño de la expresión de unión anterior. La relación crucial aquí es que, para cualquier , Esto se debe a que si contiene un número de , entonces también contiene su unión. También observamos que el conjunto tiene tamaño. Por lo tanto I{1,,nk}

iIC(Ji)=C(iIJi).
L1LmJiiIJi|I0|+|I|=k+|I|
|i=1nkC(Ji)|=I{1,,nk}(1)|I|1|iIC(Ji)|=j=1nkI:|I|=j(1)j1l=1n(njkaljk)=j=1nk(1)j1(nkj)l=1n(njkaljk).
(Podemos restringir los valores aquí ya que el producto de los coeficientes binomiales es cero a menos que para todo , es decir, .)jjalkljmin(a1,,am)k

Finalmente, sustituyendo la expresión al final en la ecuación porarriba y consolidando la suma, obtenemos como se afirma.|C(I0)|

|C(I0)|=j=0min(a1,,am)k(1)j(nkj)l=1n(njkaljk)

+1 por todo el esfuerzo y la solución, pero necesitaré pulir mis matemáticas para comprender la mayor parte de esto (y la otra respuesta). Gracias
llrs

4

No conozco una forma analítica de resolver esto, pero aquí hay una forma recursiva de calcular el resultado.

Para , está eligiendo elementos de de los cuales se han elegido anteriormente. La probabilidad de elegir elementos que se cruzan con en su segundo sorteo viene dada por la distribución hipergeométrica:m=2a2n, a1kmin{a1,a2}L1

P(kn,a1,a2)=(a1k)(na1a2k)(na2).

Podemos llamar al resultadoPodemos usar la misma lógica para encontrar donde es la cardinalidad de la intersección de tres muestras. Entonces,b2.P(b3=kn,b2,a3),b3

P(b3=k)=l=0min(a1,a2)P(b3=kn,b2=l,a3)P(b2=ln,a1,a2).

Encuentre esto para cada . El último cálculo no es numéricamente difícil, porque es simplemente el resultado del cálculo anterior y es una invocación de La distribución hipergeométrica.k{0,1,2,,min(a1,a2,a3)}P(b2=ln,a1,a2)P(b3=kn,b2=l,a3)

En general, para encontrar puede aplicar las siguientes fórmulas recursivas: para y que es solo para decir queP ( b i = k ) = min ( a 1 , a 2 , , a i - 1 ) lP(bm)

P(bi=k)=l=0min(a1,a2,,ai1)P(bi=kn,bi1=l,ai)P(bi1=l),
i{2,3,,m},P(b1)=δa1b1,b1=a1.
P(bi=kn,bi1=l,ai)=(lk)(nlaik)(nai),
i{2,3,,m},
P(b1)=δa1b1,
b1=a1.

Aquí está en R:

hypergeom <- function(k, n, K, N) choose(K, k) * choose(N-K, n-k) / choose(N, n)

#recursive function for getting P(b_i) given P(b_{i-1})
PNext <- function(n, PPrev, ai, upperBound) {
  l <- seq(0, upperBound, by=1)
  newUpperBound <- min(ai, upperBound)
  kVals <- seq(0, newUpperBound, by=1)
  PConditional <- lapply(kVals, function(k) {
    hypergeom(k, ai, l, n)
  })
  PMarginal <- unlist(lapply(PConditional, function(p) sum(p * PPrev) ))
  PMarginal
}

#loop for solving P(b_m)
P <- function(n, A, m) {
  P1 <- c(rep(0, A[1]), 1)
  if (m==1) {
    return(P1)
  } else {
    upperBound <- A[1]
    P <- P1
    for (i in 2:m) {
      P <- PNext(n, P, A[i], upperBound)
      upperBound <- min(A[i], upperBound)
    }
    return(P)
  }
}

#Example
n <- 10
m <- 5
A <- sample(4:8, m, replace=TRUE)
#[1] 6 8 8 8 5

round(P(n, A, m), 4)
#[1] 0.1106 0.3865 0.3716 0.1191 0.0119 0.0003
#These are the probabilities ordered from 0 to 5, which is the minimum of A

Gracias por su solución y su código. Espero otros enfoques de respuestas (si vienen) antes de otorgar la recompensa.
llrs
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.