¿Cómo puedo encontrar la desviación estándar de la desviación estándar de la muestra de una distribución normal?

Perdóname si me he perdido algo bastante obvio.

Soy un físico con lo que es esencialmente una distribución (histograma) centrada en un valor medio que se aproxima a una distribución Normal. El valor importante para mí es la desviación estándar de esta variable aleatoria gaussiana. ¿Cómo trataría de encontrar el error en la desviación estándar de muestra? Tengo la sensación de que tiene algo que ver con el error en cada bin en el histograma original.

— Bronceado
fuente

Se proporciona una pista en stats.stackexchange.com/questions/26924 . En general, el error de muestreo de una varianza puede calcularse en términos de los primeros cuatro momentos de la distribución y, por lo tanto, el error de muestreo de la SD puede al menos estimarse a partir de esos momentos.

— whuber

Respuestas:

Parece que está pidiendo un cálculo de la desviación estándar de la desviación estándar de la muestra. Es decir, está solicitando , donde ${\rm SD}(s) = \sqrt{ {\rm var}(s) }$

s = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \bar{X})},

$s = \sqrt{ \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X}) },$

$X_1, ..., X_n \sim N(\mu, \sigma^2)$ y es la media muestral. $\overline{X}$

Primero, sabemos por las propiedades básicas de la varianza que

v a r (s) = E (s^{2}) - E (s)^{2}

${\rm var}(s) = E(s^2) - E(s)^2$

Como la varianza de la muestra es insesgada, sabemos que . En ¿ Por qué la desviación estándar muestral es un estimador sesgado de ? , se calcula, de lo que podemos inferir $E(s^2) = \sigma^2$ $\sigma$ $E(s)$

E (s)^{2} = \frac{2 σ^{2}}{n - 1} \cdot {(\frac{Γ (n / 2)}{Γ (\frac{n - 1}{2})})}^{2}

$E(s)^2 = \frac{2 \sigma^2 }{n-1} \cdot \left( \frac{ \Gamma(n/2) }{ \Gamma( \frac{n-1}{2} ) } \right)^2$

por lo tanto

S D (s) = \sqrt{E (s^{2}) - E (s)^{2}} = σ \sqrt{1 - \frac{2}{n - 1} \cdot {(\frac{Γ (n / 2)}{Γ (\frac{n - 1}{2})})}^{2}}

${\rm SD}(s) = \sqrt{ E(s^2) - E(s)^2 } = \sigma \sqrt{ 1 - \frac{2}{n-1} \cdot \left( \frac{ \Gamma(n/2) }{ \Gamma( \frac{n-1}{2} ) } \right)^2 }$

— Macro
fuente

Buen punto. Obtuve una estimación de la varianza de s ^ 2. Tomar la raíz cuadrada da una estimación de la desviación estándar de s ^ 2. Pero respondiste la pregunta real que era obtener la desviación estándar de s. Supongo que, por razones prácticas, usted también debería reemplazar σ con s para obtener una estimación utilizando la fórmula.

— Michael R. Chernick

Sí, es cierto, puede reemplazar con esta aproximación funciona bien incluso para tamaños de muestra modestos. Hice algunas pruebas con .

σ

$\sigma$

s

$s$

n = 20

$n=20$

— Macro

La cantidad tiene una distribución chi-cuadrado con grados de libertad cuando las muestras son independientes y se distribuyen con la misma distribución normal. Esta cantidad se puede usar para obtener confianza intervalos para la varianza de lo normal y su desviación estándar. Si tiene los valores brutos y no solo el valor central de los contenedores, puede calcular . $X=(n-1) s^2/\sigma^2$ $n-1$ $s^2$

Se sabe que si tiene una distribución de chi-cuadrado con grados de libertad, su varianza es . Sabiendo esto y el hecho de que obtenemos que tiene una varianza igual a Aunque es desconocido, puede aproximarlo por y tiene una idea aproximada de cuál es la varianza de . $X$ $n-1$ $2(n-1)$ $\mathrm{Var}(cX) = c^2 \mathrm{Var}(X)$ $s^2$

\frac{2 (n - 1) σ^{4}}{(n - 1)^{2}} = \frac{2 σ^{4}}{n - 1} .

$\frac{2(n-1)\sigma^4}{(n-1)^2} =\frac{2\sigma^4}{n-1} \>.$

σ^{4}

$\sigma^4$

s^{4}

$s^4$

s^{2}

$s^2$

— Michael R. Chernick
fuente

Iba a publicar esto al principio, pero el problema tal como lo veo aquí es que es desconocido. Dado ese hecho, no sé si es válido aproximar si ni siquiera sabemos el tamaño de la muestra. Recuerdo que se puede demostrar que el cuarto momento puede tener serios problemas con los valores atípicos.

σ^{2}

$\sigma^2$

s^{4} \approx σ^{4}

$s^4\approx \sigma^4$

— Néstor

s^{4}

$s^4$ es un estimador consistente de (siempre que exista ), ¿verdad @Nesp? Creo que esto suele ser lo que significa cuando la gente dice "aproximada" o "idea aproximada".

σ^{4}

$\sigma^4$

σ^{4}

$\sigma^4$

— Macro

Tal vez sea la falta de sueño, pero, ¿no es eso como un razonamiento circular?

— Néstor

Asumimos desde el principio que los datos provenían de una distribución normal, por lo que no hay un problema atípico. Quise decir rudo en la forma en que Macro sugiere. Estoy de acuerdo en que el tamaño de la muestra afecta qué tan cerca está s ^ 4 de σ ^ 4. Pero la preocupación por los valores atípicos está fuera de la base Nesp. Si me rechazaste por eso, creo que es muy injusto. Lo que presenté fue la forma estándar de estimar la desviación estándar para s ^ 2 cuando los datos se DISTRIBUYEN NORMALMENTE.

— Michael R. Chernick

@Nesp, Michael ha dado un estimador consistente de la varianza de la desviación estándar de la muestra de una muestra distribuida normalmente, para muestras grandes funcionará bien, simúlela y averigüe. No estoy seguro de por qué crees que esto es un razonamiento circular.

— Macro

Hay varias formas de cuantificar el error de la desviación estándar en el caso normal. Voy a presentar la probabilidad de perfil de que se puede usar para aproximar los intervalos de confianza. $\sigma$

Sea una muestra de un Normal . La función de probabilidad correspondiente está dada por $x=(x_1,...,x_n)$ $(\mu,\sigma)$

L (μ, σ) \propto \frac{1}{σ^{n}} \exp (- \frac{1}{2 σ^{2}} \sum_{j = 1}^{n} (x_{j} - μ)^{2})

${\mathcal L}(\mu,\sigma) \propto \dfrac{1}{\sigma^n}\exp\left(-\dfrac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2\right)$

Luego, los estimadores de máxima verosimilitud están dados por , donde . Dado que está interesado en cuantificar el error en , puede calcular la probabilidad de perfil normalizado de este parámetro de la siguiente manera. $(\hat\mu,\hat\sigma)=(\bar x,s)$ $s=\sqrt{\dfrac{1}{n}\sum_{j=1}^n(x_j-\bar x)^2}$ $\sigma$

R_{p} (σ) = \frac{sup_{μ} L (μ, σ)}{L (\hat{μ}, \hat{σ})} = {(\frac{\hat{σ}}{σ})}^{n} \exp [\frac{n}{2} (1 - {(\frac{\hat{σ}}{σ})}^{2})]

$R_p(\sigma)=\dfrac{\sup_{\mu}{\mathcal L}(\mu,\sigma)}{{\mathcal L}(\hat\mu,\hat\sigma)} = \left(\dfrac{\hat\sigma}{\sigma}\right)^n\exp\left[\dfrac{n}{2}\left(1-\left(\dfrac{\hat\sigma}{\sigma}\right)^2\right)\right]$

Tenga en cuenta que . Un intervalo de nivel tiene una confianza aproximada de . A continuación, adjunto un código que puede usarse para calcular estos intervalos. Puede modificarlo en consecuencia en su contexto (o si publica los datos, puedo incluir estos cambios). $R_p:{\mathbb R}_+\rightarrow (0,1]$ $0.147$ $0.95$ $R$

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

Una ventaja de este tipo de intervalos es que son invariables bajo transformaciones. En este caso, si calcula un intervalo para , , entonces el intervalo correspondiente para es simplemente . $\sigma$ $I=(L,U)$ $\sigma^2$ $I^{\prime}=(L^2,U^2)$

Creo que realmente solo quería la desviación estándar de s.

— Michael R. Chernick