Estamos investigando las pruebas estadísticas bayesianas, y nos encontramos con un fenómeno extraño (al menos para mí).
Considere el siguiente caso: estamos interesados en medir qué población, A o B, tiene una tasa de conversión más alta. Para una comprobación de cordura, establecemos , es decir, la probabilidad de conversión es igual en ambos grupos. datos artificiales utilizando un modelo binomial, por ejemplo,n A ∼ Binomial ( N , p A )
Luego tratamos de estimar el usando un modelo beta-binomial bayesiano para obtener posteriores para cada tasa de conversión, por ejemplo,
Nuestra estadística de prueba se calcula calculando través de Monte Carlo.
Lo que me sorprendió fue que si , entonces . Mis pensamientos eran que sería centra alrededor de 0,5, e incluso convergen a 0,5 como el tamaño de la muestra, , crece.
Mi pregunta es, ¿por qué cuando ?
Aquí hay un código de Python para demostrar:
%pylab
from scipy.stats import beta
import numpy as np
import pylab as P
a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
assert a==b
A = np.random.binomial(N, a); B = np.random.binomial(N, b)
S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean()
samples.append(S)
P.hist(samples)
P.show()
R