Interpreto la pregunta de esta manera: supongamos que el muestreo se realizó supuestamente como si boletos de papel blanco se pusieran en un frasco, cada uno etiquetado con el nombre de una persona, y se sacaran al azar después de agitar completamente el contenido del frasco. De antemano, de los boletos eran de color rojo. ¿Cuál es la posibilidad de que exactamente dos de los boletos seleccionados sean rojos? ¿Cuál es la posibilidad de que, como máximo, dos de los boletos sean rojos?232 1236323212
Se puede obtener una fórmula exacta, pero no necesitamos hacer tanto trabajo teórico. En cambio, solo rastreamos las posibilidades a medida que los boletos se sacan del frasco. En el momento han sido retirados de ellos, dejar que la probabilidad de que exactamente billetes rojos se han visto escribirse . Para comenzar, tenga en cuenta que si (no puede tener boletos rojos antes de comenzar) y (es seguro que no tiene boletos rojos al principio). Ahora, en el sorteo más reciente, el boleto era rojo o no. En el primer caso, anteriormente teníamos la posibilidad de ver exactamentei p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )metroyop ( i , m )p ( i , 0 ) = 0i > 0p ( 0 , 0 ) = 1p ( i - 1 , m - 1 )i - 1entradas rojas Luego pasamos a sacar uno rojo de los boletos restantes , haciéndolo exactamente boletos rojos hasta ahora. Debido a que asumimos que todos los boletos tienen las mismas oportunidades en cada etapa, nuestra posibilidad de sacar un rojo de esta manera fue . En el otro caso, tuvimos la oportunidad de obtener exactamente boletos rojos en los sorteos anteriores , y la posibilidad de no agregar otro boleto rojo a la muestra en el próximo sorteo fue363 - m + 1yo( 12 - i + 1 ) / ( 363 - m + 1 )p ( i , m - 1 )yom - 1( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 ). Por lo tanto, usando axiomas básicos de probabilidad (es decir, las posibilidades de dos casos mutuamente excluyentes se suman y las oportunidades condicionales se multiplican),
p ( i , m ) = p ( i - 1 , m - 1 ) ( 12 - i + 1 ) + p ( i , m - 1 ) ( 363 - m + 1 - 12 + i )363 - m + 1.
Repetimos este cálculo de forma recursiva, presentando una matriz triangular de los valores de para y . Después de un pequeño cálculo obtenemos y , respondiendo ambas versiones de la pregunta. Estos son números pequeños: no importa cómo se mire, son eventos bastante raros (más raros que uno de cada mil).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0.000934314p ( i , m )0 ≤ i ≤ 120 ≤ m ≤ 232p ( 2 , 232 ) ≈ 0.000849884p(0,232)+p(1,232)+p(2,232)≈0.000934314
Como doble verificación, realicé este ejercicio con una computadora 1,000,000 de veces. En 932 = 0.000932 de estos experimentos, se observaron 2 o menos tickets rojos. Esto es extremadamente cercano al resultado calculado, porque la fluctuación de muestreo en el valor esperado de 934.3 es de aproximadamente 30 (arriba o abajo). Así es como se realiza la simulación en R:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
Esta vez, debido a que los experimentos son aleatorios, los resultados cambiaron un poco: se observaron dos o menos tickets rojos en 948 de los millones de ensayos. Eso todavía es consistente con el resultado teórico).
La conclusión es que es muy poco probable que dos o menos de los 232 boletos sean rojos. Si realmente tiene una muestra de 232 de 363 personas, este resultado es una fuerte indicación de que el modelo de tickets en un frasco no es una descripción correcta de cómo se obtuvo la muestra. Las explicaciones alternativas incluyen (a) los tickets rojos se hicieron más difíciles de tomar del frasco (un "sesgo" en contra de ellos) así como (b) los tickets se colorearon después de que se observó la muestra ( espionaje de datos post hoc , que sí no indica ningún sesgo).
Un ejemplo de explicación (b) en acción sería un grupo de jurado para un notorio juicio por asesinato. Supongamos que incluye 363 personas. Fuera de ese grupo, el tribunal entrevistó a 232 de ellos. Un reportero de un periódico ambiciosa revisa meticulosamente la vitae de cada uno en la piscina y las comunicaciones que 12 de los 363 eran criadores de peces de colores, pero sólo dos de ellos había sido entrevistado. ¿La corte es parcial contra los fanáticos de los peces dorados? Probablemente no.