¿Qué prueba estadística usar para la prueba A / B?

Tenemos dos cohortes de 1000 muestras cada una. Medimos 2 cantidades en cada cohorte. El primero es una variable binaria. El segundo es un número real que sigue una distribución de cola pesada. Queremos evaluar qué cohorte funciona mejor para cada métrica. Hay muchas pruebas estadísticas para elegir: las personas sugieren la prueba z, otras usan la prueba t y otras Mann – Whitney U.

¿Qué prueba o pruebas debemos elegir para cada métrica para nuestro caso?
¿Qué sucede si una prueba sugiere una diferencia significativa entre las cohortes y alguna otra prueba sugiere una diferencia no significativa?

ab-test

— iliasfl
fuente

Respuestas:

Dado que sus dos métricas son 1) binaria y 2) de cola pesada, debe evitar la prueba t, que supone distribuciones normales.

Creo que Mann-Whitney U es su mejor opción y debería ser lo suficientemente eficiente incluso si sus distribuciones fueran casi normales.

Con respecto a su segunda pregunta:

¿Qué sucede si una prueba sugiere una diferencia significativa entre las cohortes y alguna otra prueba sugiere una diferencia no significativa?

Esto no es raro si la diferencia estadística es límite y los datos tienen distribuciones de muestra "desordenadas". Esta situación requiere que el analista considere cuidadosamente todos los supuestos y limitaciones de cada prueba estadística, y otorgue el mayor peso a la prueba estadística que tiene el menor número de violaciones de supuestos.

Suponga que la distribución normal. Hay varias pruebas de normalidad, pero ese no es el final de la historia. Algunas pruebas funcionan bastante bien en distribuciones simétricas, incluso si hay alguna desviación de la normalidad, pero no funcionan bien en distribuciones asimétricas.

Como regla general, le sugiero que no ejecute ninguna prueba donde cualquiera de sus supuestos se viola claramente.

EDITAR: para la segunda variable, podría ser factible transformar la variable en una que normalmente se distribuye (o al menos cierra) siempre que la transformación conserve el orden. Debe tener buena confianza en que la transformación produce una distribución normal para ambas cohortes. Si ajusta la segunda variable a la distribución log-normal, entonces una función log la transforma en una distribución normal. Pero si la distribución es Pareto (ley de poder), entonces no hay transformación a una distribución normal.

EDITAR: Como se sugiere en este comentario , definitivamente debe considerar la Estimación Bayesiana como una alternativa a la prueba t y otras Pruebas de significación de hipótesis nulas (NHST).

— MrMeritology
fuente

Gracias por la info. No estaba lo suficientemente claro, tengo dos cantidades, una de las cuales es binaria y otra que es un número real después de una distribución de cola pesada. Edité la pregunta para aclarar esto.

— iliasfl

Sí, creo que lo entiendo. Desea ejecutar la prueba dos veces, una en la variable binaria y otra en la variable real (distribución de cola pesada). Recomiendo ejecutar el U de Mann-Whitney para ambos.

¿Por qué un Mann-Whitney sería adecuado para datos binarios?

— Glen_b: reinstala a Mónica el

Mann-Whitney U es eficaz para distribuciones no normales, incluidas las distribuciones discretas con dos valores (es decir, binario). Si todos los datos fueran binarios, entonces quizás otra prueba funcionaría mejor.

— MrMeritology

¿Alguien puede confirmar si esto es cierto? ...

Para los datos de valor real, también puede considerar generar su propia estadística de prueba basada en un arranque de sus datos. Este enfoque tiende a producir resultados precisos cuando se trata de distribuciones de población no normales o cuando se trata de desarrollar un intervalo de confianza alrededor de un parámetro que no tiene una solución analítica conveniente. (Lo primero es cierto en su caso. Solo menciono lo segundo por contexto).

Para sus datos de valor real, haría lo siguiente:

Agrupa tus dos cohortes.
Del grupo, muestree dos grupos de 1000 elementos, con reemplazo.
Calcule la diferencia en la media muestral entre los dos grupos.
Repita los pasos 2 y 3 unas pocas miles de veces para desarrollar una distribución de estas diferencias.

Una vez que tenga esa distribución, calcule la diferencia de medias para sus muestras reales y calcule un valor p.

— Nathan Gould
fuente

Gracias, así que terminas con una distribución, que debería ser normal con alguna media y desviación estándar. ¿Cómo calcularía el valor p a partir de eso, y tal vez los intervalos de confianza, para decidir el ganador (si hay uno)?

— iliasfl

La distribución no necesariamente sería normal. Tendría aproximadamente la distribución de lo que fuera de la muestra. Esa es la belleza de usar un bootstrap. En cualquier caso, obtienes un valor p calculando tu estadística de prueba a partir de tus resultados reales. Es decir, diferencia de las medias de cada cohorte. Luego compara ese número con la distribución. El percentil que obtiene es su valor p para una prueba unilateral de diferencia de medias.

— Nathan Gould

Lo que Nathan está describiendo es también la base de los métodos bayesianos de pruebas de significación. He usado (y actualmente uso) la estimación bayesiana reemplaza el enfoque de la prueba T (BEST). Debería mirar ese marco si tiene la intención de implementar un enfoque de agrupación.

— cwharland

Apoyo la respuesta de @ MrMeritology. En realidad, me preguntaba si la prueba MWU sería menos poderosa que la prueba de proporciones independientes, ya que los libros de texto que aprendí y solía enseñar decían que la MWU solo se puede aplicar a datos ordinales (o intervalo / relación).

Pero mis resultados de simulación, graficados a continuación, indican que la prueba de MWU es en realidad un poco más poderosa que la prueba de proporción, mientras que controla bien el error tipo I (en la proporción de población del grupo 1 = 0,50).

ingrese la descripción de la imagen aquí

La proporción de la población del grupo 2 se mantiene en 0,50. El número de iteraciones es de 10,000 en cada punto. Repetí la simulación sin la corrección de Yate pero los resultados fueron los mismos.

library(reshape)

MakeBinaryData <- function(n1, n2, p1){
  y <- c(rbinom(n1, 1, p1), 
        rbinom(n2, 1, 0.5))
  g_f <- factor(c(rep("g1", n1), rep("g2", n2)))
  d <- data.frame(y, g_f)
  return(d)
}

GetPower <- function(n_iter, n1, n2, p1, alpha=0.05, type="proportion", ...){
  if(type=="proportion") {
    p_v <- replicate(n_iter, prop.test(table(MakeBinaryData(n1, n1, p1)), ...)$p.value)
  }

  if(type=="MWU") {
    p_v <- replicate(n_iter, wilcox.test(y~g_f, data=MakeBinaryData(n1, n1, p1))$p.value)
  }

  empirical_power <- sum(p_v<alpha)/n_iter
  return(empirical_power)
}

p1_v <- seq(0.5, 0.6, 0.01)
set.seed(1)
power_proptest <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x))
power_mwu <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x, type="MWU"))

— Masato Nakazawa
fuente

su imagen de resultado es toda negra

— Ooker