¿Diferencia entre la prueba G y la prueba t y cuál debería usarse para las pruebas A / B?

8

El G-Test es una forma de obtener estimaciones rápidas de una distribución chi cuadrado, y es recomendado por el autor de este conocido tutorial prueba A / B .

Esta herramienta asume una distribución normal y utiliza la diferencia de medios para calcular la confianza.

¿Cuál es la diferencia entre una prueba G y una prueba T? ¿Cuáles son los beneficios o las desventajas de usar cada método para medir la efectividad de nuestras pruebas A / B?

Estoy tratando de averiguar cuál debo usar para medir los resultados de mi marco de prueba A / B. Nuestro marco tiene dos casos de uso general: dividir el grupo de visitantes de manera uniforme, mostrar a cada uno una función diferente y medir su conversión en otra página (por ejemplo, la página de registro); y dividir el grupo de visitantes en el grupo de control (90%) y un grupo experimental (10%) para una prueba, y medir las conversiones en alguna otra página.

Nuestro sitio web recibe entre 1000 y 200,000 visitas por día (estoy siendo vago a propósito para ocultar el número verdadero, lo que no cambia mucho). Estas visitas se dividen con una distribución exponencial en aproximadamente 300 páginas.

Gracias Kevin

confidence-interval ab-test

— Kevin Burke
fuente

44

Aleatorizar a los visitantes (es decir, 50:50 de posibilidades de control o tratamiento experimental) es en general un buen diseño , suponiendo que su tratamiento experimental no haga nada terrible a los visitantes. Además, 1000-200,000 es un gran rango; ¿Hay alguna razón para pensar que los visitantes en días tranquilos u ocupados (en promedio) se verían afectados de manera diferente por el tratamiento de control / experimental?

— invitado

Hola, el rango es vago porque preferiría no compartir el número real. Las fluctuaciones entre días no son grandes.

— Kevin Burke

Hola Kevin. Me pregunto si podrías aclararme un punto. El título pregunta sobre la diferencia entre una prueba y una prueba . Al leer la pregunta, casi se lee como si estuviera interesado en cuál de los dos tipos de división de muestras usar. De hecho, parece que la única respuesta publicada actualmente ha interpretado las preguntas con respecto a la última. ¿Puedes abordar esto brevemente? Salud.

G

$G$

t

$t$

— cardenal

Estoy más interesado en la diferencia entre una prueba G y una prueba T, actualizaré la pregunta para aclararla.

— Kevin Burke

8

En general, la prueba que es menos aproximada para calcular las estadísticas de la prueba es mejor, aunque todas convergerán con los mismos resultados al aumentar el tamaño de la muestra.

Entonces, dado que las pruebas A / B generalmente se enfocan en resultados binarios, ...

Respuesta corta:

Use la prueba G, porque es menos aproximada.

Respuesta larga:

La prueba t, en las pruebas A / B, el caso de tamaños de muestra desiguales y varianza desigual , aproxima la diferencia de dos distribuciones con una distribución t, que es cuestionable en sí misma . Las dos distribuciones pueden ser desconocidas, pero se considera que su media y varianza son suficientes para describirlo (de lo contrario, cualquier conclusión no ayudará mucho), lo que por supuesto es cierto para la distribución normal.

En el caso especial del resultado binario, la distribución binomial se puede aproximar con una distribución normal con , que es válida para (regla general, = ensayos, = tasa de éxito). $\mu=np,\sigma^2=np(1-p)$ $n*p*(1-p)\geq9$ $n$ $p$

Entonces, en resumen, aunque está bien aplicar la prueba t, se realizan dos aproximaciones para transformar el caso binomial en un caso más genérico, lo cual no es necesario aquí, ya que las pruebas menos aproximadas como la prueba G o (aún mejor ) La prueba exacta de Fisher está disponible para este caso especial. La prueba exacta de Fisher se debe aplicar especialmente si el tamaño de la muestra es menos igual a 20 (otra regla general), pero supongo que esto no importa en una prueba A / B sólida.

— steffen
fuente

No sigo tu regla de oro para la aproximación normal; Me pregunto si hay un error tipográfico. Como está escrito, la regla se aplicaría mucho más rápido para que .

p = .9

$p=.9$

p = .1

$p=.1$

— gung - Restablece a Monica

@gung gracias por señalar eso, fue un error tipográfico. Por cierto: la referencia utilizada es Hartung: Statistik, Oldenbourg 14th Edition (desafortunadamente solo disponible en alemán)

— steffen

5

La página de Ben Tilly a la que hizo referencia es un excelente resumen de las pruebas A / B para principiantes. Sin embargo, a medida que entra en preguntas más detalladas / problemas de diseño del estudio, vale la pena buscar fuentes primarias más detalladas. Kohavi et al publicaron un documento seminal sobre pruebas de AB que es una buena combinación de exhaustividad y legibilidad. Lo recomiendo ampliamente: http://exp-platform.com/Documents/GuideControlledExperiments.pdf .

Volviendo a sus preguntas, las preguntas reales que debería hacerse son:

¿Cuántas impresiones necesito obtener en los tratamientos y el control para que el resultado sea significativamente significativo?
¿Cuál es el tamaño mínimo del efecto que me preocupa? ¿Está interesado en tratamientos que son al menos un 5% mejores que los controles, o un 0,005% mejores?
En el caso de tratamientos múltiples, ¿existe un escenario para comparar tratamientos entre sí, o es suficiente comparar cada tratamiento con el control?
Qué variables son importantes para medir para garantizar que los grupos de tratamiento no se vean afectados por los efectos secundarios no intencionales de su experimento. El documento de Kohavi tiene un gran ejemplo de esto en términos de rendimiento del sitio web: si su experiencia de tratamiento es más lenta, controle por cualquier razón (más imágenes, servidor diferente, código rápido y sucio), esto tiene el potencial de descarrilar seriamente la prueba.
¿Tiene más sentido inscribir usuarios o impresiones en los experimentos? En otras palabras, ¿tiene sentido garantizar que el usuario siempre obtenga experiencia de control o tratamiento durante la sesión / período de prueba, o puede inscribir cada impresión de página en la prueba de forma independiente?

A medida que trabaje en estas preguntas, eventualmente terminará con una mejor comprensión de los parámetros de la prueba. Combinado con su conocimiento de dominio (por ejemplo, si su sitio experimenta un patrón cíclico fuerte que le gustaría controlar), el apetito por exponer a los usuarios a experimentos (¿está realmente dispuesto a mostrar la experiencia del tratamiento a muchos usuarios, o prefiere contener el daño potencial) y la velocidad deseada para obtener resultados, esta comprensión lo guiará a determinar en última instancia cómo dividir el tráfico general entre controles y tratamientos.

Odio responder preguntas específicas con "depende", pero en este caso realmente depende de lo que esté sucediendo con su sitio y experimento. Bajo ciertas condiciones, no hará una diferencia significativa si dividir el tráfico 50/50 o 90/10, mientras que en diferentes circunstancias esto puede ser muy importante. YMMV, pero una buena referencia como el artículo citado anteriormente definitivamente lo moverá en la dirección correcta.

— Inverso de inverso
fuente

3

Gracias por una respuesta reflexiva y útil. Me doy cuenta de que has estado aquí por un par de meses, pero como esta es tu primera respuesta, parece una buena ocasión para darte la bienvenida al sitio. ¡Espero que se sienta inspirado para ofrecer más consejos a medida que pase el tiempo!

— whuber

4

No puedo comentar sobre la publicación original ya que me faltan puntos StackExchange o lo que sea, pero solo quería señalar que para el valor p, ABBA no utiliza una prueba Z simple basada en aproximación normal, aunque puedo vea cómo podría pensar eso en una breve lectura de la página. ABBA utiliza estadísticas binomiales exactas hasta el tamaño de muestra 100, más allá de eso se basa en la aproximación normal con una corrección de continuidad. No he visto casos en los que difiera mucho de las pruebas "menos aproximadas", pero me interesaría mucho ver esos casos si te los encuentras.

No hay distribuciones t ni pruebas t presentes en ningún caso.

Para intervalos de confianza, siempre se basa en una aproximación normal, aunque utiliza el método Agresti-Coull que funciona bastante bien.

— Steve
fuente