En un artículo encontré la fórmula para la desviación estándar de un tamaño de muestra
donde es el rango promedio de submuestras (tamaño ) de la muestra principal. ¿Cómo se calcula el número ? Este es el número correcto?
En un artículo encontré la fórmula para la desviación estándar de un tamaño de muestra
donde es el rango promedio de submuestras (tamaño ) de la muestra principal. ¿Cómo se calcula el número ? Este es el número correcto?
Respuestas:
En una muestra de n valores independientes de una distribución F con pdf f , el pdf de la distribución conjunta de los extremos y max ( x ) = x [ n ] es proporcional a
(La constante de proporcionalidad es el recíproco del coeficiente multinomial . Intuitivamente, este PDF conjunto expresa la posibilidad de encontrar el valor más pequeño en el rango[x[1],x[1]+dx[1], y losvaloresintermediosn-2entre ellos dentro del rango[x[1]+dx[1],x , el valor más grande en el rango [ x [ n ] , x [ n ] + d x [ n ] ). CuandoF)d x [ 1 ] ,f( x [ n ] )d x [ n ] , es continuo, podemos reemplazar ese rango medio por , descuidando así solo una cantidad de probabilidad "infinitesimal". Las probabilidades asociadas, de primer orden en los diferenciales, son f ( x [ 1 ] y ., Respectivamente, ahora por lo que es obvio que la fórmula viene)
Tomando la expectativa del rango da para cualquier distribución Normal con desviación estándar σ y n = 6 . El rango esperado como múltiplo de σ depende del tamaño de la muestra n :
Estos valores se calcularon integrando numéricamente sobre{(x,y)∈R2| x≤y}, conFestablecido en el CDF normal estándar, y dividido por la desviación estándar deF(que es solo1).
Una relación multiplicativa similar entre el rango esperado y la desviación estándar se mantendrá para cualquier familia de distribuciones de escala de ubicación, porque es una propiedad de la forma de la distribución sola. Por ejemplo, aquí hay una gráfica comparable para distribuciones uniformes:
y distribuciones exponenciales:
Los valores en los dos gráficos anteriores se obtuvieron por integración exacta, no numérica, que es posible debido a las formas algebraicas relativamente simples de y F en cada caso. Para las distribuciones uniformes son iguales a n - 1 y para las distribuciones exponenciales son dondeγes la constante de Euler yψes la función "polígama", la derivada logarítmica de la función Gamma de Euler.
Aunque difieren (debido a que estas distribuciones muestran una amplia gama de formas), las tres están más o menos de acuerdo con , lo que demuestra que el multiplicador 2.5 no depende en gran medida de la forma y, por lo tanto, puede servir como una evaluación general y robusta de la desviación estándar cuando se conocen rangos de pequeñas submuestras. (De hecho, el estudiante t de cola muy pesada distribución de con tres grados de libertad todavía tiene un multiplicador de alrededor de para n = 6 , no muy lejos de 2.5 ).
Esa aproximación está muy cerca de la verdadera desviación estándar de la muestra. Escribí un guión R rápido para ilustrarlo:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
cuyos rendimientos:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
Ahora no estoy seguro (todavía) de por qué esto funciona, pero al menos parece (al pie de la letra) que la aproximación es decente.
Editar: Vea el comentario excepcional de @ Whuber (arriba) sobre por qué esto funciona
mean(R)/2.474
sd(x)