¿Por qué la media aritmética es menor que la media de distribución en una distribución logarítmica normal?

Entonces, tengo un proceso aleatorio que genera variables aleatorias distribuidas normalmente $X$ . Aquí está la función de densidad de probabilidad correspondiente:

Quería estimar la distribución de unos pocos momentos de esa distribución original, digamos el primer momento: la media aritmética. Para hacerlo, dibujé 100 variables aleatorias 10000 veces para poder calcular 10000 estimados de la media aritmética.

Hay dos formas diferentes de estimar esa media (al menos, eso es lo que entendí: podría estar equivocado):

simplemente calculando la media aritmética de la manera habitual: $\bar{X} = \sum_{i = 1}^{N} \frac{X_{i}}{N} .$ $\bar{X} = \sum_{i=1}^N \frac{X_i}{N}.$
o estimando primero y partir de la distribución normal subyacente: y luego la media como $\sigma$ $\mu$ $μ = \sum_{i = 1}^{N} \frac{\log (X_{i})}{N} σ^{2} = \sum_{i = 1}^{norte} \frac{{(Iniciar sesión (X_{yo}) - μ)}^{2}}{norte}$ $\mu = \sum_{i=1}^N \frac{\log (X_i)}{N} \quad \sigma^2 = \sum_{i=1}^N \frac{\left(\log (X_i) - \mu\right)^2}{N}$ $\bar{X} = Exp (μ + \frac{1}{2} σ^{2}) .$ $\bar{X} = \exp(\mu + \frac{1}{2}\sigma^2).$

El problema es que las distribuciones correspondientes a cada una de estas estimaciones son sistemáticamente diferentes:

La media "sin formato" (representada como la línea discontinua roja) proporciona valores generalmente más bajos que el derivado de la forma exponencial (línea sin formato verde). Aunque ambas medias se calculan exactamente en el mismo conjunto de datos. Tenga en cuenta que esta diferencia es sistemática.

¿Por qué estas distribuciones no son iguales?

— JohnW
fuente

¿Cuáles son sus verdaderos parámetros para

μ

$\mu$

σ

$\sigma$

— Christoph Hanck

, pero tenga en cuenta que estoy interesado en estimar estos parámetros, de ahí el enfoque de Montecarlo en lugar de calcular la cosa a partir de estos números brutos.

μ = 3

$\mu = 3$

σ = 1.5

$\sigma = 1.5$

— JohnW

claro, esto es para replicar sus resultados.

— Christoph Hanck

Curiosamente, este fenómeno no tiene nada que ver con la lognormalidad. Dados los números positivos

con logaritmos

, es bien sabido que su media aritmética (AM)

nunca es menor que su media geométrica (GM)

. En la otra dirección, el AM nunca es mayor que el GM multiplicado por

donde

es la varianza del

x_{i}

$x_i$

y_{i}

$y_i$

\sum x_{i} / n

$\sum x_i/n$

\exp (\sum y_{i} / n)

$\exp(\sum y_i/n)$

\exp (s_{y}^{2} / 2)

$\exp(s_y^2/2)$

s_{y}^{2}

$s_y^2$

y_{i}

$y_i$ . Por lo tanto, la curva roja punteada debe estar a la izquierda de la curva verde sólida para cualquier distribución principal (que describe números aleatorios positivos).

— whuber

Si gran parte de la media proviene de una pequeña probabilidad de números enormes, una media aritmética de muestra finita puede subestimar la media de la población con alta probabilidad. (En la expectativa es imparcial, pero hay una gran probabilidad de una pequeña subestimación y una pequeña probabilidad de una gran sobreestimación). Esta pregunta también puede relacionarse con esta: stats.stackexchange.com/questions/214733/…

— Matthew Gunn

Los dos estimadores que está comparando son el método de estimador de momentos (1.) y el MLE (2.), vea aquí . Ambos son coherentes (por lo que para gran , que son en cierto sentido probable que sea cercano al valor verdadero ). $N$ $\exp[\mu+1/2\sigma^2]$

Para el estimador MM, esto es una consecuencia directa de la Ley de grandes números, que dice que . Para el MLE, la aplicación continua teorema implica que como y $\bar X\to_pE(X_i)$

\exp [\hat{μ} + 1 / 2 {\hat{σ}}^{2}] \to_{p} \exp [μ + 1 / 2 σ^{2}],

$\exp[\hat\mu+1/2\hat\sigma^2]\to_p\exp[\mu+1/2\sigma^2],$

\hat{μ} \to_{p} μ

$\hat\mu\to_p\mu$

{\hat{σ}}^{2} \to_{p} σ^{2}

$\hat\sigma^2\to_p\sigma^2$

El MLE, sin embargo, no es imparcial.

$N$ $\hat\mu$ $\hat\sigma^2$ $N=100$ $N-1$ $\mu$ $\sigma^2$

$E(\hat\mu+1/2\hat\sigma^2)\approx\mu+1/2\sigma^2$

E [\exp (\hat{μ} + 1 / 2 {\hat{σ}}^{2})] > \exp [E (\hat{μ} + 1 / 2 {\hat{σ}}^{2})] \approx \exp [μ + 1 / 2 σ^{2}]

$E[\exp(\hat\mu+1/2\hat\sigma^2)]>\exp[E(\hat\mu+1/2\hat\sigma^2)]\approx \exp[\mu+1/2\sigma^2]$

$N=100$

$N=1000$

Creado con:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

$\exp(\mu+\sigma^2/2)$

V_{t} = (σ^{2} + σ^{4} / 2) \cdot \exp {2 (μ + \frac{1}{2} σ^{2})},

$V_t = (\sigma^2 + \sigma^4/2)\cdot \exp\left\{2(\mu + \frac 12\sigma^2)\right\},$

\exp {2 (μ + \frac{1}{2} σ^{2})} (\exp {σ^{2}} - 1)

$\exp\left\{2(\mu + \frac 12\sigma^2)\right\}(\exp\{\sigma^2\}-1)$

\exp {σ^{2}} > 1 + σ^{2} + σ^{4} / 2,

$\exp\{\sigma^2\}>1+\sigma^2 + \sigma^4/2,$

\exp (x) = \sum_{i = 0}^{\infty} x^{i} / i!

$\exp(x)=\sum_{i=0}^\infty x^i/i!$

σ^{2} > 0

$\sigma^2>0$

$N$ N <- c(50,100,200,500,1000,2000,3000,5000)

$N$ $N$ $N=50$

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727

— Christoph Hanck
fuente

N

$N$

N = 100

$N=100$

N

$N$

Bueno, también me sorprende que haya una diferencia tan grande entre los dos métodos, sin embargo, este ejemplo es absolutamente perfecto para demostrar por qué "simplemente promediar cosas" puede ser horrible.

— JohnW

@ JohnW, agregué una pequeña explicación analítica de por qué el MLE tiene una varianza menor.

— Christoph Hanck

La discrepancia se deriva del hecho de que el sesgo es un problema de muestra finita, es decir, desaparece a medida que

N

$N$ se va al infinito La comparación de la varianza asintótica (como su nombre lo indica) solo muestra lo que sucede en el límite, como

N \to \infty

$N\to\infty$ .

— Christoph Hanck