Analizando los resultados de la prueba A / B que normalmente no están distribuidos, usando la prueba t independiente


13

Tengo un conjunto de resultados de una prueba A / B (un grupo de control, un grupo de características) que no se ajustan a una Distribución Normal. De hecho, la distribución se parece más a la distribución de Landau.

Creo que la prueba t independiente requiere que las muestras estén al menos aproximadamente distribuidas normalmente, lo que me desalienta el uso de la prueba t como un método válido de prueba de significación.

Pero mi pregunta es: ¿en qué punto se puede decir que la prueba t no es un buen método de prueba de significación?

O dicho de otra manera, ¿cómo se puede calificar qué tan confiables son los valores p de una prueba t, dado solo el conjunto de datos?

Respuestas:


8

La distribución de sus datos no necesita ser normal, es la distribución de muestreo que tiene que ser casi normal. Si el tamaño de su muestra es lo suficientemente grande, entonces la distribución de muestreo de las medias de Landau Distribution debería ser casi normal, debido al Teorema del límite central .

Por lo tanto, significa que debería poder usar t-test de forma segura con sus datos.

Ejemplo

Consideremos este ejemplo: supongamos que tenemos una población con distribución Lognormal con mu = 0 y sd = 0.5 (se parece un poco a Landau)

densidad lognormal

Entonces, tomamos muestras de 30 observaciones 5000 veces de esta distribución cada vez calculando la media de la muestra

Y esto es lo que obtenemos

distribución muestral

Parece bastante normal, ¿no? Si aumentamos el tamaño de la muestra, es aún más evidente

distribución muestral

Código R

x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')


n = 30
m = 1000

set.seed(0)
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))


n = 300
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))

Hola alexei Parece que eres competente en R, así que me pregunto si tienes algún consejo sobre el problema con el que estoy atrapado actualmente: stackoverflow.com/questions/25101444/… . Más allá de eso, me complacería conectarme con usted (consulte aleksandrblekh.com para ver mis perfiles en las redes sociales profesionales), ya que parece que tenemos algunos intereses comunes (incluido el idioma nativo :-).
Aleksandr Blekh

Esta es una gran explicación, y de hecho es el método que terminé usando. Me gusta pensar en este método como dividir todo el conjunto de muestras en submuestras más pequeñas y usar las medias (promedio con CLT) de cada submuestra como la distribución del conjunto de datos. ¡Gracias por la respuesta!
teebszet

1

Básicamente, se usa una prueba t independiente o una prueba t de 2 muestras para verificar si los promedios de las dos muestras son significativamente diferentes. O, para decirlo de otra manera, si hay una diferencia significativa entre las medias de las dos muestras.

Ahora, las medias de esas 2 muestras son dos estadísticas, que de acuerdo con CLT, tienen una distribución normal, si se proporcionan suficientes muestras. Tenga en cuenta que CLT funciona sin importar la distribución a partir de la cual se construye la estadística media.

Normalmente, se puede usar una prueba z, pero si las variaciones se estiman a partir de la muestra (porque es desconocida), se introduce cierta incertidumbre adicional, que se incorpora en la distribución t. Es por eso que la prueba t de 2 muestras se aplica aquí.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.