Estoy tratando de entender el razonamiento eligiendo un enfoque de prueba específico al tratar con una prueba A / B simple (es decir, dos variaciones / grupos con una respuesta binaria (convertida o no). Como ejemplo, usaré los datos a continuación
Version Visits Conversions
A 2069 188
B 1826 220
La respuesta principal aquí es excelente y habla sobre algunos de los supuestos subyacentes para las pruebas de z, t y chi cuadrado. Pero lo que me parece confuso es que los diferentes recursos en línea citarán diferentes enfoques, y ¿usted pensaría que las suposiciones para una prueba básica A / B deberían ser más o menos las mismas?
- Por ejemplo, este artículo usa puntuación z :
- Este artículo usa la siguiente fórmula (que no estoy seguro si es diferente del cálculo de zscore):
- Este artículo hace referencia a la prueba t (p 152):
Entonces, ¿qué argumentos se pueden hacer a favor de estos enfoques diferentes? ¿Por qué uno tendría una preferencia?
Para incluir a un candidato más, la tabla anterior se puede reescribir como una tabla de contingencia 2x2, donde se puede usar la prueba exacta de Fisher (p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Pero de acuerdo con este hilo, la prueba exacta de Fisher solo debe usarse con tamaños de muestra más pequeños (¿cuál es el límite?)
Y luego están las pruebas t y z pareadas, la prueba f (y la regresión logística, pero quiero dejar eso fuera por ahora) ... Siento que me estoy ahogando en diferentes enfoques de prueba, y solo quiero poder Haga algún tipo de argumento para los diferentes métodos en este simple caso de prueba A / B.
Usando los datos de ejemplo obtengo los siguientes valores p
https://vwo.com/ab-split-test-significance-calculator/ da un valor p de 0.001 (puntaje z)
http://www.evanmiller.org/ab-testing/chi-squared.html (usando la prueba de chi cuadrado) da un valor p de 0.00259
Y en R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
da un valor p de 0.002785305
Que supongo que están muy cerca ...
De todos modos, solo espero una discusión saludable sobre qué enfoques usar en las pruebas en línea donde los tamaños de muestra generalmente son miles y las relaciones de respuesta a menudo son del 10% o menos. Mi instinto me dice que use chi-cuadrado, pero quiero poder responder exactamente por qué lo estoy eligiendo entre las otras muchas formas de hacerlo.