R - power.prop.test, prop.test y tamaños de muestra desiguales en pruebas A / B

Digamos que quiero saber qué tamaño de muestra necesito para un experimento en el que estoy tratando de determinar si la diferencia en dos proporciones de éxito es estadísticamente significativa o no. Aquí está mi proceso actual:

Mire los datos históricos para establecer predicciones de referencia. Digamos que en el pasado, tomar una acción resulta en una tasa de éxito del 10%, mientras que no tomar una acción resulta en una tasa de éxito del 9%. Suponga que estas conclusiones no se han validado estadísticamente, sino que se basan en cantidades relativamente grandes de datos (más de 10,000 observaciones).

Conecte estos supuestos en power.prop.test para obtener lo siguiente:

 power.prop.test(p1=.1,p2=.11,power=.9)

 Two-sample comparison of proportions power calculation 

          n = 19746.62
         p1 = 0.1
         p2 = 0.11
  sig.level = 0.05
      power = 0.9
alternative = two.sided

Entonces esto me dice que necesitaría un tamaño de muestra de ~ 20000 en cada grupo de una prueba A / B para detectar una diferencia significativa entre las proporciones.
El siguiente paso es realizar el experimento con 20,000 observaciones en cada grupo. El Grupo B (ninguna acción tomada) tiene 2300 éxitos de 20,000 observaciones, mientras que el Grupo A (acción tomada) tiene 2200 éxitos de 20,000 observaciones.

Haz una prueba de apoyo

prop.test(c(2300,2100),c(20000,20000))

2-sample test for equality of proportions with continuity correction

data:  c(2300, 2100) out of c(20000, 20000)
X-squared = 10.1126, df = 1, p-value = 0.001473
alternative hypothesis: two.sided
95 percent confidence interval:
0.003818257 0.016181743
sample estimates:
prop 1 prop 2 
0.115  0.105

Entonces decimos que podemos rechazar la hipótesis nula de que las proporciones son iguales.

Preguntas

¿Es este método sólido o al menos en el camino correcto?
¿Podría especificar alt="greater"en prop.test y confiar en el valor p aunque power.prop.test fuera para una prueba de dos lados?
¿Qué pasa si el valor p fue mayor que 0.05 en la prueba de prop? ¿Debo suponer que tengo una muestra estadísticamente significativa pero no hay una diferencia estadísticamente significativa entre las dos proporciones? Además, ¿la significación estadística es inherente al valor p en prop.test, es decir, es necesario incluso power.prop.test?
¿Qué sucede si no puedo hacer una división 50/50 y necesito hacer, digamos, una división 95/5? ¿Hay algún método para calcular el tamaño de la muestra para este caso?
¿Qué sucede si no tengo idea de cuál debería ser mi predicción de referencia para las proporciones? Si supongo que las proporciones reales están muy lejos, ¿eso invalidará mi análisis?

Cualquier otra laguna que pueda llenar sería muy apreciada. Mis disculpas por la naturaleza enrevesada de esta publicación. ¡Gracias!

r hypothesis-testing statistical-significance proportion

— usuarioNaN
fuente

¿Es este método sólido o al menos en el camino correcto?

Sí, creo que es un buen enfoque.

¿Podría especificar alt = "mayor" en prop.test y confiar en el valor p aunque power.prop.test fuera para una prueba de dos lados?

No estoy seguro, pero creo que tendrá que utilizar alternative="two.sided"para prop.test.

¿Qué pasa si el valor p fue mayor que 0.05 en la prueba de prop? ¿Debo suponer que tengo una muestra estadísticamente significativa pero no hay una diferencia estadísticamente significativa entre las dos proporciones? Además, ¿la significación estadística es inherente al valor p en prop.test, es decir, es necesario incluso power.prop.test?

Sí, si el valor p es mayor que 0.05, entonces no hay confianza de que haya una diferencia detectable entre las muestras. Sí, la significación estadística es inherente al valor p, pero la prueba power.prop. todavía es necesaria antes de comenzar el experimento para determinar el tamaño de la muestra. power.prop.testse usa para configurar su experimento, prop.testse usa para evaluar los resultados de su experimento.

Por cierto, puede calcular el intervalo de confianza para cada grupo y ver si se superponen en su nivel de confianza. Puede hacerlo siguiendo estos pasos para calcular muchos intervalos de confianza desde la distribución .

Para visualizar lo que quiero decir, mire esta calculadora con sus datos de ejemplo conectados: http://www.evanmiller.org/ab-testing/chi-squared.html#!2300/20000;2100/20000@95

Aquí está el resultado:

intervalo de confianza para cada grupo

Observe el gráfico que proporciona que muestra el rango del intervalo de confianza para cada grupo.

¿Qué sucede si no puedo hacer una división 50/50 y necesito hacer, digamos, una división 95/5? ¿Hay algún método para calcular el tamaño de la muestra para este caso?

Es por eso que debe usarlo power.prop.testporque la división no importa. Lo importante es que cumpla con el tamaño mínimo de muestra para cada grupo. Si hace una división de 95/5, solo tomará más tiempo alcanzar el tamaño mínimo de muestra para la variación que está obteniendo el 5%.

¿Qué sucede si no tengo idea de cuál debería ser mi predicción de referencia para las proporciones? Si supongo que las proporciones reales están muy lejos, ¿eso invalidará mi análisis?

Deberá dibujar una línea en la arena, adivinar un efecto detectable razonable y calcular el tamaño de muestra necesario. Si no tiene suficiente tiempo, recursos, etc. para cumplir con el tamaño de muestra calculado power.prop.test, entonces tendrá que reducir su efecto detectable. Por lo general, lo configuro así y analizo diferentes deltavalores para ver cuál debería ser el tamaño de la muestra para ese efecto.

#Significance Level (alpha)
alpha <- .05

# Statistical Power (1-Beta)
beta <- 0.8

# Baseline conversion rate
p <- 0.2   

# Minimum Detectable Effect
delta <- .05

power.prop.test(p1=p, p2=p+delta, sig.level=alpha, power=beta, alternative="two.sided")

— Javid Jamae
fuente

Javid, cuando cites parte de la pregunta en tu respuesta, podrías considerar usar el marcado destinado a indicar una cita de bloque ( > al comienzo del bloque citado) en lugar de solo ponerlo en negrita.

— Glen_b -Reinstate Monica

"Si hace una división de 95/5, entonces tomará más tiempo alcanzar el tamaño mínimo de muestra para la variación que está obteniendo el 5%". - Si bien este es un enfoque conservador para al menos satisfacer la potencia especificada de la prueba, en realidad estará excediendo la potencia especificada ingresada en la prueba power.prop.test si tiene un grupo "pequeño" y "grande" (por ejemplo, n1 = 19746, n2 = 375174). Probablemente sería deseable un método más exacto para cumplir con los requisitos de potencia para tamaños de muestra desiguales.

— Underminer