Estos datos tienen una cola corta en comparación con una distribución lognormal, no muy diferente de una distribución Gamma:
set.seed(17)
par(mfcol=c(1,1))
x <- rgamma(500, 1.9)
qqnorm(log(x), pch=20, cex=.8, asp=1)
abline(mean(log(x)) + .1,1.2*sd(log(x)), col="Gray", lwd=2)
Sin embargo, debido a que los datos están fuertemente sesgados, podemos esperar que los valores más grandes desempeñen un papel importante en la estimación de la media y su intervalo de confianza. Por lo tanto , debemos anticipar que un estimador lognormal (LN) tenderá a sobreestimar la media y los dos límites de confianza .
Verifiquemos y, para comparación, usemos los estimadores habituales: es decir, la media muestral y su intervalo de confianza de la teoría normal. Tenga en cuenta que los estimadores habituales se basan únicamente en la normalidad aproximada de la media de la muestra , no de los datos, y, con un conjunto de datos tan grande, se puede esperar que funcionen bien. Para hacer esto, necesitamos una ligera modificación de la ci
función:
ci <- function (x, alpha=.05) {
z <- -qnorm(alpha / 2)
y <- log(x); n <- length(y); s2 <- var(y)
m <- mean(y) + s2 / 2
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
exp(c(mean=m, lcl=m-d, ucl=m+d))
}
Aquí hay una función paralela para las estimaciones de la teoría normal:
ci.u <- function(x, alpha=.05) {
mean(x) + sd(x) * c(mean=0, lcl=1, ucl=-1) / sqrt(length(x)) * qnorm(alpha/2)
}
Aplicado a este conjunto de datos simulado, las salidas son
> ci(x)
mean lcl ucl
2.03965 1.87712 2.21626
> ci.u(x)
mean lcl ucl
1.94301 1.81382 2.07219
Las estimaciones de la teoría normal producidas por ci.u
mirar un poco más cerca de la media real de , pero es difícil saber a partir de un conjunto de datos qué procedimiento tiende a funcionar mejor. Para averiguarlo, simulemos muchos conjuntos de datos:1.9
trial <- function(n=500, k=1.9) {
x <- rgamma(n, k)
cbind(ci(x), ci.u(x))
}
set.seed(17)
sim <- replicate(5000, trial())
Estamos interesados en comparar los resultados con la media real de . Un panel de histogramas es revelador a ese respecto:1.9
xmin <- min(sim)
xmax <- max(sim)
h <- function(i, ...) {
b <- seq(from=floor(xmin*10)/10, to=ceiling(xmax*10)/10, by=0.1)
hist(sim[i,], freq=TRUE, breaks=b, col="#a0a0FF", xlab="x", xlim=c(xmin, xmax), ...)
hist(sim[i,sim[i,] >= 1.9], add=TRUE,freq=TRUE, breaks=b, col="#FFa0a0",
xlab="x", xlim=c(xmin, xmax), ...)
}
par(mfcol=c(2,3))
h(1, main="LN Estimate of Mean")
h(4, main="Sample Mean")
h(2, main="LN LCL")
h(5, main="LCL")
h(3, main="LN UCL")
h(6, main="UCL")
Ahora está claro que los procedimientos lognormales tienden a sobreestimar la media y los límites de confianza, mientras que los procedimientos habituales hacen un buen trabajo. Podemos estimar las coberturas de los procedimientos de intervalo de confianza:
> sapply(c(LNLCL=2, LCL=5, LNUCL=3, UCL=6), function(i) sum(sim[i,] > 1.9)/dim(sim)[2])
LNLCL LCL LNUCL UCL
0.2230 0.0234 1.0000 0.9648
Este cálculo dice:
El límite inferior de LN no cubrirá la media real aproximadamente el 22,3% del tiempo (en lugar del 2,5% previsto).
El límite inferior habitual no cubrirá la media real aproximadamente el 2,3% del tiempo, cerca del 2,5% previsto.
El límite superior de LN siempre excederá la media real (en lugar de caer por debajo del 2.5% del tiempo según lo previsto). Esto lo convierte en un 100% de dos lados - (22.3% + 0%) = 77.7% de intervalo de confianza en lugar de un intervalo de confianza de 95%.
El límite superior habitual no cubrirá la media verdadera aproximadamente 100 - 96.5 = 3.5% del tiempo. Esto es un poco mayor que el valor previsto de 2.5%. Por lo tanto, los límites habituales comprenden un 100% de dos lados - (2.3% + 3.5%) = 94.2% de intervalo de confianza en lugar de un intervalo de confianza de 95%.
La reducción de la cobertura nominal del 95% al 77,7% para el intervalo lognormal es terrible. La reducción al 94.2% para el intervalo habitual no es mala en absoluto y puede atribuirse al efecto de la asimetría (de los datos en bruto, no de sus logaritmos).
Tenemos que concluir que los análisis posteriores de la media no deben suponer lognormalidad.
¡Ten cuidado! Algunos procedimientos (como los límites de predicción) serán más sensibles a la asimetría que estos límites de confianza para la media, por lo que es posible que se deba tener en cuenta su distribución sesgada. Sin embargo, parece poco probable que los procedimientos logarítmicos funcionen bien con estos datos para prácticamente cualquier análisis previsto.