Valide las pruebas web a / b volviendo a ejecutar un experimento: ¿es válido?

El otro día, un seminario web realizado por una compañía de pruebas a / b hizo que su "Científico de datos" residente explicara que debe validar sus resultados volviendo a ejecutar el experimento. La premisa era que, si selecciona un 95% de confianza, hay un 5% (1/20) de probabilidad de un falso positivo. Si vuelve a ejecutar su experimento con las mismas restricciones, ahora hay un 1/400 (supongo que lo determinaron como 0.05 ^ 2 = 1/400)

¿Es esta una declaración válida? (es decir, "correr dos veces, dos victorias de significancia estadística = 1/400 de probabilidad de falso positivo")? ¿Habría sido un mejor enfoque para aumentar su nivel de importancia?

Desde el punto de vista comercial, la preocupación que tengo es volver a ejecutar el experimento, exponer a más usuarios a una página inferior (tratamiento) y, por lo tanto, perder las ventas potenciales.

— John
fuente

Hola John, bienvenido a Stats.SE! Si está satisfecho con alguna de las respuestas, debe aceptar una de ellas o proporcionar más preguntas aclaratorias sobre lo que está buscando.

— Christopher Aden

John, sospecho que el problema real se refiere al contexto. Es raro que las personas dediquen recursos a aprender solo una cosa a la vez: quieren aprovechar al máximo sus datos, por una buena razón. Eso significa que cada conjunto de datos se utilizará para múltiples pruebas. Además, a veces las pruebas son post hoc : se inspiraron en patrones vistos en los datos. En tales casos, las pruebas no tienen el 95% deseado (o lo que sea) de confianza y la replicación es esencial. Entonces: ¿qué quieres decir exactamente con "experimento"? ¡La respuesta depende de ese pequeño detalle!

— whuber

Acerca de las repeticiones del experimento y los valores de importancia, consulte este cómic de XKCD: xkcd.com/882 Después de leer eso, consulte el comentario anterior.

— Lucas Gallindo

whuber: perdón por la falta de detalles, estoy haciendo referencia a la optimización del sitio web, por lo que un experimento de ejemplo sería probar dos versiones de mi página de inicio, con una división de 50/50 de usuarios para cada una.

— John

Respuestas:

Ignorando las probabilidades de un falso positivo por el momento, lo vería así:

Si ejecuta el experimento dos veces y obtiene el mismo resultado, no tiene idea de si hubo dos resultados positivos verdaderos o dos resultados positivos falsos seguidos.
Si ejecuta el experimento dos veces y obtiene dos resultados diferentes, entonces no sabe cuál es el verdadero positivo y cuál fue el resultado falso positivo.

En cualquier caso, debe ejecutar un tercer experimento, solo para estar seguro. Esto puede estar bien para experimentos que son relativamente baratos, pero donde el costo es potencialmente alto (como perder clientes) realmente necesita considerar el beneficio.

Al observar las probabilidades, la primera vez que ejecuta el experimento, hay una probabilidad de 1/20 de un falso positivo. La segunda vez que ejecutas el experimento todavía hay una probabilidad de 1/20 de un falso positivo (piensa en tirar un dado donde cada tirada tiene una probabilidad de 1/6 de obtener un cierto número). Solo hay una probabilidad de 1/400 de tener dos falsos positivos seguidos.

El verdadero problema es tener una hipótesis bien definida con procedimientos estrictos y tener un tamaño de muestra, nivel de error e intervalo de confianza con el que pueda vivir o pagar. La repetición del experimento debe dejarse para explorar

clientes a lo largo del tiempo
cambios realizados por la organización
cambios realizados por la competencia

en lugar de segundos resultados de adivinanzas. Aunque explicar esto a los gerentes es más fácil decirlo que hacerlo.

— mjc
fuente

mjc, muchas gracias por el comentario, esto es exactamente lo que estaba buscando.

— John

Sí, esa afirmación es correcta, suponiendo que tu experimento sea ideal. Pero obtener un experimento ideal es mucho más difícil de lo que este sentimiento da crédito. Los datos del "mundo real" son desordenados, complicados y difíciles de interpretar en primer lugar. Hay un enorme espacio para el análisis defectuoso, las variables ocultas (rara vez hay "las mismas restricciones") o la falta de comunicación entre un científico de datos que hace su trabajo y un ejecutivo de marcado que hace el suyo.

Desde el punto de vista comercial, garantizar una buena metodología y no tener demasiada confianza en los resultados; un desafío más complicado de lo que piensas. Una vez que los bajes, trabaja en ese 5%.

— eric chiang
fuente

Gracias, eso responde a la primera pregunta. ¿Qué pasa con la segunda pregunta: "¿Habría sido un mejor enfoque para aumentar su nivel de importancia?" Simplemente haciendo una simulación rápida en R (manteniendo el mismo tamaño y potencia del efecto, solo cambiando el valor de significación) podría recolectar ~ 4.8% menos datos simplemente eligiendo 97.5% de significación, en lugar de ejecutar experimentos 2X con 95% de significación. Debo aclarar: cuando pregunto "Hubiera sido mejor ..." Quiero decir, ¿podría lograr el mismo resultado final al recopilar menos datos?

— John