Si entiendo su pregunta correctamente, debe usar la distribución hipergeométrica . Esta distribución generalmente se asocia con los modelos de urna, es decir, hay bolas en una urna, están pintadas de rojo, y usted saca bolas de la urna. Entonces, si es el número de bolas en su muestra de que son rojas, tiene una distribución hipergeométrica.nymXmX
Para su ejemplo específico, dejar que , y denotan las longitudes de sus tres listas y dejar que denota la coincidencia entre y . EntoncesnAnBnCnABAB
nAB∼HG(nA,nC,nB)
Para calcular un valor p, puede usar este comando R:
#Some example values
n_A = 100;n_B = 200; n_C = 500; n_A_B = 50
1-phyper(n_A_B, n_B, n_C-n_B, n_A)
[1] 0.008626697
Palabra de precaución. Recuerde múltiples pruebas, es decir, si tiene muchas listas A y B , entonces necesitará ajustar sus valores p con una corrección. Por ejemplo, las correcciones FDR o Bonferroni.