El problema del mundo real
Uno de mis clientes se está preparando para enviar un correo directo a su lista de usuarios suscritos, y surgió este desafío estadístico.
Su equipo de marketing tiene 3 folletos diferentes y quiere saber qué folleto obtiene la tasa de respuesta más alta. También les gustaría saber si enviar el correo con una dirección escrita a mano, en un sobre grueso, mejora los resultados en comparación con un sobre normal.
Asumamos lo siguiente:
- Para cada folleto (), una persona que recibe ese folleto que realmente lo abre y lo lee responderá con probabilidad, dónde es la verdadera tasa de respuesta para ese folleto
- Los sobres gruesos de alta calidad tienen una verdadera tasa de apertura de mientras que los sobres normales tienen una tasa de apertura
- De envíos anteriores, esperamos que las tasas de respuesta observadas reales estén entre aproximadamente 1% y 5%.
Nuestras metas
Queremos encontrar el mejor folleto mientras enviamos la menor cantidad de correos. También queremos estimar las dos tasas de apertura.
Al recopilar las tasas de respuesta empírica de los correos enviados reales, si la verdadera diferencia entre las tasas de respuesta es mayor al medio por ciento, deberíamos poder detectar esa diferencia como estadísticamente significativa con
Mis pensamientos hasta ahora
Asignamos aleatoriamente usuarios a cada uno de los 3 folletos, de modo que Los usuarios reciben cada folleto. Queremos saber quenecesitamos lograr nuestra sensibilidad deseada para detectar diferencias en las tasas de respuesta. Suponiendo el peor de los casos, debemos ser capaces de detectar una diferencia entre las tasas reales de 1% y 1.5%. El SD para esta diferencia es. Establecer el doble de esa cantidad (2 desviaciones estándar nos da un 95% de confianza) igual a .005 (nuestro medio porcentaje deseado) conduce a la solución.
Preguntas
- ¿Es este el diseño óptimo o podemos hacerlo mejor?
- Es mi cálculo de ¿correcto?
Finalmente, ¿cuál es la mejor manera de estimar y o simplemente la diferencia entre los dos?
Mi idea era asignar aleatoriamente la mitad de cada grupo de folletos a cada tipo de sobre. Dentro de cada grupo de folletos, las tasas de respuesta observadas serían el producto de las tasas de apertura y el. Esto complicaría mi cálculo de arriba, ya que realmente debería haber usado este producto en mi cálculo.
Mi respuesta dependería de una estimación de la tasa de apertura promedio: - que tendría que adivinar. Además, no estoy seguro de cómo determinar la distribución de la diferencia entre y , dado que ahora tenemos tres estimaciones diferentes de esa diferencia, cada una de las cuales depende de una diferencia , cada uno de los cuales solo tenemos estimaciones empíricas, estimaciones empíricas que dependen de nuestra estimación de la tasa de apertura promedio.
Muchas gracias por cualquier ayuda con esto.