Considere un conjunto aleatorio de números que normalmente se distribuyen:
x <- rnorm(n=1000, mean=10)
Nos gustaría saber la media y el error estándar en la media, por lo que hacemos lo siguiente:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
¡Excelente!
Sin embargo, supongamos que no necesariamente sabemos que nuestra distribución original sigue una distribución normal. Transformamos los datos y realizamos el mismo cálculo de error estándar.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Genial, pero ahora necesitamos una transformación inversa para obtener nuestra respuesta en unidades, NO en unidades de registro.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
Mi pregunta: ¿Por qué, para una distribución normal, el error estándar difiere dependiendo de si se calculó a partir de la distribución misma o si se transformó, calculó y transformó de nuevo? Nota: los medios salieron igual independientemente de la transformación.
EDITAR # 1: en última instancia, estoy interesado en calcular una media y los intervalos de confianza para los datos no distribuidos normalmente, por lo que si puede dar alguna orientación sobre cómo calcular el IC del 95% en los datos transformados, incluida la forma de volver a transformar a sus unidades nativas , ¡Lo apreciaría!
EDICIÓN FINAL # 1
EDITAR # 2: intenté usar la función cuantil para obtener los intervalos de confianza del 95%:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Entonces, eso convergió en la misma respuesta, lo cual es bueno. Sin embargo, el uso de este método no proporciona el mismo intervalo exacto usando datos no normales con tamaños de muestra "pequeños":
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Qué método se consideraría "más correcto". ¿Asumo que uno elegiría la estimación más conservadora?
Como ejemplo, ¿informaría que este resultado para los datos no normales (t) tiene una media de 0.92 unidades con un intervalo de confianza del 95% de [0.211, 4.79]?
EDICIÓN FINAL # 2
¡Gracias por tu tiempo!