Prueba AB vs prueba de la hipótesis nula

Estoy tratando de entender la diferencia entre

prueba de la hipótesis nula (es decir, prueba de que la probabilidad de un "objetivo" es la misma en 2 poblaciones diferentes, similar a la prueba de prop. en R)
Una prueba A / B utilizando una fórmula bayesiana como la que se describe aquí: http://www.evanmiller.org/bayesian-ab-testing.html

¿Hay una diferencia? ¿Es preferible uno?

El problema al que me enfrento se parece a esto:

el grupo de control tiene 100,000 impresiones y 100 reacciones, el grupo de prueba tiene 50,000 impresiones y 55 reacciones

— usuario35581
fuente

¿Hay una diferencia?

Si. Una prueba de hipótesis nula produce una estadística de prueba y un valor p, la probabilidad de una estadística de prueba tan extrema como la de los datos, bajo el supuesto de que la hipótesis nula es verdadera. En su ejemplo, prop.testprueba la suposición de que el $p_A$ y $p_B$ son iguales. Esto es distinto de la probabilidad descrita en su enlace, $Pr(p_B \gt p_A)$ :

En sus datos, prop.testproduce un valor p de 0.6291; interpretamos que esto significa que si $p_A = p_B$ , esperaríamos ver datos tan extremos en aproximadamente el 63% de los experimentos. Pero esto no es directamente interpretable como la probabilidad de que la alternativa supere al control. Usando la fórmula de la publicación vinculada, uno llega a $Pr(p_B \gt p_A) \approx 0.726$ , que es directamente interpretable como tal. (Código de Python después del descanso).

Para tener un poco de intuición sobre esto, observe las dos densidades posteriores para $p_A, p_B$ .

Beta (56, 49946), Beta (101, 99901)

El modo de $p_B$ está claramente a la derecha del modo de $p_A$ . En otras palabras, nuestra estimación puntual para $p_B$ es más alto. Esperado, ya que $\frac{55}{50000} \gt \frac{100}{100000}$ .
El posterior para $p_B$ Está más disperso. Intuitivamente satisfactorio: dado que hemos observado A el doble de veces, tenemos más confianza en un posterior más estrecho.
Todavía hay mucha superposición, es concebible que los dos tratamientos simplemente no difieran significativamente.

Para una última ayuda intuitiva, podemos trazar la distribución de la diferencia de los posteriores, y observar que aproximadamente tres cuartos de su área se encuentra a la derecha de $0$ : Diferencia de distribuciones beta

Para reiterar, el valor p solo nos dice que los datos no llegan al extremo en el que estaríamos convencidos de que existe una diferencia.

¿Es preferible uno?

Esa pregunta es una instancia de la opción más amplia Bayesiana v. Frecuentista, y a menudo se desvía hacia cuestiones de opinión. En general, creo que la respuesta depende de muchos factores, incluidas las preferencias de aplicación, audiencia y analista. Aquí hay algunas maneras de ver la diferencia entre los dos, lo que con suerte ayudará a mostrar cuándo sería preferible.

Una buena introducción a las pruebas Bayesianas A / B lo pone así:

¿Cuál de estas dos afirmaciones es más atractiva?

(1) "Rechazamos la hipótesis nula de que A = B con un valor p de 0.043".

(2) "Hay un 85% de posibilidades de que A tenga un aumento del 5% sobre B".

El modelado bayesiano puede responder preguntas como (2) directamente.

Para otra toma, el estadístico teórico Larry Wasserman describe muy bien las dos escuelas de pensamiento:

Pero primero, debo decir que la inferencia bayesiana y frecuente se define por sus objetivos, no por sus métodos.

El objetivo de la inferencia frecuenta: procedimiento de construcción con garantías de frecuencia. (Por ejemplo, intervalos de confianza).

El objetivo de la inferencia bayesiana: cuantifique y manipule sus grados de creencias. En otras palabras, la inferencia bayesiana es el análisis de creencias.

>>> from scipy.special import betaln as lbeta
def probability_B_beats_A(a_A, b_A, a_B, b_B):
...     total = 0.0
...     for i in range(a_B):
...         total += exp(lbeta(a_A+i, b_B+b_A) - log(b_B+i) - lbeta(1+i, b_B) - lbeta(a_A, b_A))
...     return total
>>> probability_B_beats_A(101, 100001 - 100, 56, 50001 - 55)
0.72594700264280843

— Sean Easter
fuente