EDITAR: ¡Tragedia! ¡Mis suposiciones iniciales eran incorrectas! (O al menos en duda, ¿confía en lo que el vendedor le está diciendo? Aún así, un saludo a Morten también.) Lo que supongo que es otra buena introducción a las estadísticas, pero el Enfoque de hoja parcial ahora se agrega a continuación ( ya que a la gente parecía gustarle la Hoja entera, y tal vez alguien todavía la encuentre útil).
En primer lugar, un gran problema. Pero me gustaría hacerlo un poco más complicado.
Por eso, antes de hacerlo, permítame simplificarlo un poco y decir: el método que está utilizando en este momento es perfectamente razonable . Es barato, es fácil, tiene sentido. Entonces, si tiene que seguir con esto, no debería sentirse mal. Solo asegúrese de elegir sus paquetes al azar. Y, si puede sopesar todo de manera confiable (punta de sombrero para whuber y user777), entonces debe hacerlo.
Sin embargo, la razón por la que quiero hacerlo un poco más complicado es que ya lo ha hecho, simplemente no nos ha contado sobre toda la complicación, que es eso: contar lleva tiempo, y el tiempo también es dinero . Pero, ¿cómo mucho ? ¡Quizás sea más barato contarlo todo!
Entonces, lo que realmente está haciendo es equilibrar el tiempo que lleva contar, con la cantidad de dinero que está ahorrando. (SI, por supuesto, solo juegas este juego una vez. LA PRÓXIMA vez que esto suceda con el vendedor, es posible que se hayan dado cuenta y hayan intentado un nuevo truco. En teoría del juego, esta es la diferencia entre Single Shot Games e Iterated Juegos. Pero por ahora, imaginemos que el vendedor siempre hará lo mismo).
Sin embargo, una cosa más antes de llegar a la estimación. (Y, perdón por haber escrito tanto y aún no haber llegado a la respuesta, pero esa es una respuesta bastante buena a ¿Qué haría un estadístico? Pasarían una gran cantidad de tiempo asegurándose de que entendieran cada pequeña parte del problema antes de que se sintieran cómodos diciendo algo al respecto.) Y esa cosa es una idea basada en lo siguiente:
(EDITAR: SI ESTÁN REALMENTE ENGAÑANDO ...) Su vendedor no ahorra dinero quitando etiquetas, sino que ahorrando dinero al no imprimir hojas. No pueden vender sus etiquetas a otra persona (supongo). Y tal vez, no sé y no sé si lo haces, no pueden imprimir media hoja de tus cosas, y media hoja de otra persona. En otras palabras, incluso antes de comenzar a contar, puede suponer que el número total de etiquetas es cualquiera 9000, 9100, ... 9900, or 10,000
. Así es como lo abordaré, por ahora.
El método de la hoja entera
Cuando un problema es un poco complicado como este (discreto y limitado), muchos estadísticos simularán lo que podría suceder. Esto es lo que simulé:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Esto le da, suponiendo que están usando hojas enteras, y sus suposiciones son correctas, una posible distribución de sus etiquetas (en el lenguaje de programación R).
Entonces hice esto:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Esto encuentra, usando un método "bootstrap", intervalos de confianza usando 4, 5, ... 20 muestras. En otras palabras, en promedio, si usaras N muestras, ¿qué tan grande sería tu intervalo de confianza? Utilizo esto para encontrar un intervalo lo suficientemente pequeño como para decidir el número de hojas, y esa es mi respuesta.
Por "lo suficientemente pequeño", quiero decir que mi intervalo de confianza del 95% tiene solo un número entero; por ejemplo, si mi intervalo de confianza fuera de [93.1, 94.7], elegiría 94 como el número correcto de hojas, ya que sabemos Es un número entero.
Sin embargo, OTRA dificultad: su confianza depende de la verdad . Si tiene 90 hojas y cada pila tiene 90 etiquetas, entonces converge muy rápido. Lo mismo con 100 hojas. Así que miré 95 hojas, donde existe la mayor incertidumbre, y descubrí que para tener una certeza del 95%, se necesitan alrededor de 15 muestras, en promedio. Digamos, en general, que desea tomar 15 muestras, porque nunca sabe qué hay realmente allí.
DESPUÉS de saber cuántas muestras necesita, sabe que sus ahorros esperados son:
100Nmissing−15c
c500−15∗
¡Pero también deberías acusar al tipo por obligarte a hacer todo este trabajo!
(EDITAR: ¡AGREGADO!) El enfoque de hoja parcial
Bien, supongamos que lo que dice el fabricante es cierto y no es intencional: solo se pierden algunas etiquetas en cada hoja. ¿Todavía quieres saber, sobre cuántas etiquetas, en general?
Este problema es diferente porque ya no tiene una buena decisión limpia que pueda tomar, eso fue una ventaja para la suposición de la hoja completa. Antes, solo había 11 respuestas posibles; ahora, hay 1100, y obtener un intervalo de confianza del 95% sobre exactamente cuántas etiquetas hay probablemente tomará muchas más muestras de las que desea. Entonces, veamos si podemos pensar en esto de manera diferente.
Debido a que realmente se trata de que usted tome una decisión, todavía nos faltan algunos parámetros: cuánto dinero está dispuesto a perder, en un solo acuerdo y cuánto dinero cuesta contar una pila. Pero déjame configurar lo que podrías hacer, con esos números.
Simulando de nuevo (¡aunque apoya al usuario777 si puede hacerlo sin él!), Es informativo observar el tamaño de los intervalos cuando se usan diferentes números de muestras. Eso se puede hacer así:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Lo que supone (esta vez) que cada pila tiene un número uniforme de etiquetas al azar entre 90 y 100, y le da:
Por supuesto, si las cosas fueran realmente como si hubieran sido simuladas, la verdadera media sería de alrededor de 95 muestras por pila, lo que es más bajo de lo que parece ser la verdad: este es un argumento de hecho para el enfoque bayesiano. Pero, le da una idea útil de cuánto más seguro se está volviendo sobre su respuesta, a medida que continúa probando, y ahora puede intercambiar explícitamente el costo de la muestra con cualquier trato que obtenga sobre los precios.
Lo cual sé por ahora, todos tenemos mucha curiosidad por saber.