Estudié estadística hace años y lo olvidé todo, por lo que pueden parecer preguntas conceptuales generales que específicas, pero aquí está mi problema.
Trabajo para un sitio web de comercio electrónico como diseñador de experiencia de usuario. Tenemos un marco de prueba A / B que fue construido hace años y que estoy empezando a dudarlo.
La métrica sobre la que tomamos todas nuestras decisiones se conoce como conversión, y se basa en el porcentaje de usuarios que visitan el sitio y terminan comprando algo.
Por lo tanto, queremos probar cambiar el color del botón Comprar de Verde a Azul.
El control es lo que ya tenemos, el botón verde donde sabemos cuál es nuestra tasa de conversión promedio. El experimento está reemplazando el botón verde con el botón azul.
Estamos de acuerdo en que el 95% de importancia es el nivel de confianza con el que estamos contentos y activamos el experimento, lo dejamos en funcionamiento.
Cuando los usuarios visitan el sitio, detrás de escena hay una probabilidad de 50/50 de que se envíen a la versión de control (botón verde) Vs la versión experimental (botón azul).
Después de mirar el experimento después de 7 días, veo un aumento del 10,2% en la conversión a favor del experimento con un tamaño de muestra de 3000 (1500 para el control, 1500 para el experimento) y una significación estadística del 99,2%. Excelente, creo.
El experimento continúa, el tamaño de la muestra crece y luego veo un aumento de + 9% en la conversión con una importancia del 98.1%. Ok, mantenga el experimento funcionando por más tiempo y ahora el experimento muestra solo un aumento del 5% en la conversión con una significancia estadística de solo 92%, y el marco me dice que necesito 4600 muestras más antes de alcanzar el 95% de significación.
¿En qué punto es el experimento concluyente entonces?
Si pienso en un proceso de ensayo clínico en el que está de acuerdo con el tamaño de la muestra por adelantado y al completar el experimento, ve una mejora del 10% de cualquier métrica al 99% de importancia, entonces se toma la decisión de que ese medicamento luego salga al mercado. Pero luego, si hubieran hecho el experimento con 4000 personas y vean una mejora del 5% de cualquier métrica a solo un 92% significativo, entonces no se permitiría que el medicamento salga al mercado.
¿Deberíamos acordar un tamaño de muestra por adelantado y detenernos una vez que se alcanza ese tamaño de muestra y estar contentos con los resultados si la significación fue del 99% al momento de apagar el experimento?