¿Por qué estamos usando una fórmula de desviación estándar sesgada y engañosa para


20

Me sorprendió un poco la primera vez que hice una simulación de Monte Carlo de distribución normal y descubrí que la media de 100 desviaciones estándar de 100 muestras, todas con un tamaño de muestra de solo n=2 , resultó ser mucho menor que, es decir, promediando 2π veces, elσutilizado para generar la población. Sin embargo, esto es bien conocido, si rara vez se recuerda, y de alguna manera lo sabía, o no habría hecho una simulación. Aquí hay una simulación.

Aquí hay un ejemplo para predecir intervalos de confianza del 95% de N(0,1) usando 100, n=2 , estimaciones de SD y E(sn=2)=π2SD.

 RAND()   RAND()    Calc    Calc    
 N(0,1)   N(0,1)    SD      E(s)    
-1.1171  -0.0627    0.7455  0.9344  
 1.7278  -0.8016    1.7886  2.2417  
 1.3705  -1.3710    1.9385  2.4295  
 1.5648  -0.7156    1.6125  2.0209  
 1.2379   0.4896    0.5291  0.6632  
-1.8354   1.0531    2.0425  2.5599  
 1.0320  -0.3531    0.9794  1.2275  
 1.2021  -0.3631    1.1067  1.3871  
 1.3201  -1.1058    1.7154  2.1499  
-0.4946  -1.1428    0.4583  0.5744  
 0.9504  -1.0300    1.4003  1.7551  
-1.6001   0.5811    1.5423  1.9330  
-0.5153   0.8008    0.9306  1.1663  
-0.7106  -0.5577    0.1081  0.1354  
 0.1864   0.2581    0.0507  0.0635  
-0.8702  -0.1520    0.5078  0.6365  
-0.3862   0.4528    0.5933  0.7436  
-0.8531   0.1371    0.7002  0.8775  
-0.8786   0.2086    0.7687  0.9635  
 0.6431   0.7323    0.0631  0.0791  
 1.0368   0.3354    0.4959  0.6216  
-1.0619  -1.2663    0.1445  0.1811  
 0.0600  -0.2569    0.2241  0.2808  
-0.6840  -0.4787    0.1452  0.1820  
 0.2507   0.6593    0.2889  0.3620  
 0.1328  -0.1339    0.1886  0.2364  
-0.2118  -0.0100    0.1427  0.1788  
-0.7496  -1.1437    0.2786  0.3492  
 0.9017   0.0022    0.6361  0.7972  
 0.5560   0.8943    0.2393  0.2999  
-0.1483  -1.1324    0.6959  0.8721  
-1.3194  -0.3915    0.6562  0.8224  
-0.8098  -2.0478    0.8754  1.0971  
-0.3052  -1.1937    0.6282  0.7873  
 0.5170  -0.6323    0.8127  1.0186  
 0.6333  -1.3720    1.4180  1.7772  
-1.5503   0.7194    1.6049  2.0115  
 1.8986  -0.7427    1.8677  2.3408  
 2.3656  -0.3820    1.9428  2.4350  
-1.4987   0.4368    1.3686  1.7153  
-0.5064   1.3950    1.3444  1.6850  
 1.2508   0.6081    0.4545  0.5696  
-0.1696  -0.5459    0.2661  0.3335  
-0.3834  -0.8872    0.3562  0.4465  
 0.0300  -0.8531    0.6244  0.7826  
 0.4210   0.3356    0.0604  0.0757  
 0.0165   2.0690    1.4514  1.8190  
-0.2689   1.5595    1.2929  1.6204  
 1.3385   0.5087    0.5868  0.7354  
 1.1067   0.3987    0.5006  0.6275  
 2.0015  -0.6360    1.8650  2.3374  
-0.4504   0.6166    0.7545  0.9456  
 0.3197  -0.6227    0.6664  0.8352  
-1.2794  -0.9927    0.2027  0.2541  
 1.6603  -0.0543    1.2124  1.5195  
 0.9649  -1.2625    1.5750  1.9739  
-0.3380  -0.2459    0.0652  0.0817  
-0.8612   2.1456    2.1261  2.6647  
 0.4976  -1.0538    1.0970  1.3749  
-0.2007  -1.3870    0.8388  1.0513  
-0.9597   0.6327    1.1260  1.4112  
-2.6118  -0.1505    1.7404  2.1813  
 0.7155  -0.1909    0.6409  0.8033  
 0.0548  -0.2159    0.1914  0.2399  
-0.2775   0.4864    0.5402  0.6770  
-1.2364  -0.0736    0.8222  1.0305  
-0.8868  -0.6960    0.1349  0.1691  
 1.2804  -0.2276    1.0664  1.3365  
 0.5560  -0.9552    1.0686  1.3393  
 0.4643  -0.6173    0.7648  0.9585  
 0.4884  -0.6474    0.8031  1.0066  
 1.3860   0.5479    0.5926  0.7427  
-0.9313   0.5375    1.0386  1.3018  
-0.3466  -0.3809    0.0243  0.0304  
 0.7211  -0.1546    0.6192  0.7760  
-1.4551  -0.1350    0.9334  1.1699  
 0.0673   0.4291    0.2559  0.3207  
 0.3190  -0.1510    0.3323  0.4165  
-1.6514  -0.3824    0.8973  1.1246  
-1.0128  -1.5745    0.3972  0.4978  
-1.2337  -0.7164    0.3658  0.4585  
-1.7677  -1.9776    0.1484  0.1860  
-0.9519  -0.1155    0.5914  0.7412  
 1.1165  -0.6071    1.2188  1.5275  
-1.7772   0.7592    1.7935  2.2478  
 0.1343  -0.0458    0.1273  0.1596  
 0.2270   0.9698    0.5253  0.6583  
-0.1697  -0.5589    0.2752  0.3450  
 2.1011   0.2483    1.3101  1.6420  
-0.0374   0.2988    0.2377  0.2980  
-0.4209   0.5742    0.7037  0.8819  
 1.6728  -0.2046    1.3275  1.6638  
 1.4985  -1.6225    2.2069  2.7659  
 0.5342  -0.5074    0.7365  0.9231  
 0.7119   0.8128    0.0713  0.0894  
 1.0165  -1.2300    1.5885  1.9909  
-0.2646  -0.5301    0.1878  0.2353  
-1.1488  -0.2888    0.6081  0.7621  
-0.4225   0.8703    0.9141  1.1457  
 0.7990  -1.1515    1.3792  1.7286  

 0.0344  -0.1892    0.8188  1.0263  mean E(.)
                    SD pred E(s) pred   
-1.9600  -1.9600   -1.6049 -2.0114    2.5%  theor, est
 1.9600   1.9600    1.6049  2.0114   97.5%  theor, est
                    0.3551 -0.0515    2.5% err
                   -0.3551  0.0515   97.5% err

Arrastre el control deslizante hacia abajo para ver los totales generales. Ahora, utilicé el estimador SD normal para calcular los intervalos de confianza del 95% alrededor de una media de cero, y están apagados en 0.3551 unidades de desviación estándar. El estimador E (s) está apagado solo por 0.0515 unidades de desviación estándar. Si se estima la desviación estándar, el error estándar de la media o las estadísticas t, puede haber un problema.

Mi razonamiento fue el siguiente, la media de la población, , de dos valores puede estar en cualquier lugar con respecto a a x 1 y definitivamente no se encuentra en x 1 + x 2μx1 , lo que hace que sea una suma mínima posible absoluta al cuadrado, de modo que estamos subestimandoσsustancialmente, de la siguiente manerax1+x22σ

wlog let , entonces Σ n i = 1 ( x i - ˉ x ) 2 es 2 ( dx2x1=dΣi=1n(xix¯)2 , el menor resultado posible.2(d2)2=d22

Eso significa que la desviación estándar calculada como

SD=Σi=1n(xix¯)2n1 ,

es un estimador sesgado de la desviación estándar de la población ( ). Tenga en cuenta que en esa fórmula disminuimos los grados de libertad de entre 1 y dividimos entre , es decir, hacemos algunas correcciones, pero solo es asintóticamente correcto, y sería una mejor regla general . Para nuestro ejemplo la fórmula nos daría , un valor mínimo estadísticamente inverosímil como , donde un mejor valor esperado ( ) serían n - 1 n - 3 / 2 x 2 - x 1 = d SD S D = dσnn1n3/2x2x1=dSDμˉxsE(s)=SD=d20.707dμx¯sn<10SDσn25n<25n=1000E(s)=π2d2=π2d0.886d. Para el cálculo habitual, para , s sufre una subestimación muy significativa llamada sesgo de número pequeño , que solo se acerca al 1% de subestimación de cuando es aproximadamente . Dado que muchos experimentos biológicos tienen , este es realmente un problema. Para , el error es de aproximadamente 25 partes en 100,000. En general, la corrección de sesgo de números pequeños implica que el estimador imparcial de la desviación estándar de la población de una distribución normal esn<10SDσnorte25norte<25norte=1000

mi(s)=Γ(norte-12)Γ(norte2)Σyo=1norte(Xyo-X¯)22>Dakota del Sur=Σyo=1norte(Xyo-X¯)2norte-1.

De Wikipedia bajo licencia Creative Commons se tiene una trama de subestimación SD deσ <a title = "Por Rb88guy (Trabajo propio) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0) o GFDL (http://www.gnu.org/copyleft/fdl .html)], a través de Wikimedia Commons "href =" https://commons.wikimedia.org/wiki/File%3AStddevc4factor.jpg "> <img width =" 512 "alt =" Stddevc4factor "src =" https: // upload.wikimedia.org/wikipedia/commons/thumb/e/ee/Stddevc4factor.jpg/512px-Stddevc4factor.jpg "/> </a>

Dado que SD es un estimador sesgado de la desviación estándar de la población, no puede ser el estimador imparcial de varianza mínima MVUE de la desviación estándar de la población a menos que estemos contentos de decir que es MVUE como , que yo, por mi parte, no soy.norte

Con respecto a distribuciones no normales y aproximadamente imparcial, lea esto .Sre

Ahora viene la pregunta Q1

¿Se puede demostrar que el anterior es MVUE para de una distribución normal de tamaño de muestra , donde es un entero positivo mayor que uno?σ n nmi(s)σnortenorte

Sugerencia: (pero no la respuesta) vea ¿Cómo puedo encontrar la desviación estándar de la desviación estándar de la muestra de una distribución normal? .

Siguiente pregunta, Q2

¿Podría alguien explicarme por qué estamos usando todos modos ya que está claramente sesgado y es engañoso? Es decir, ¿por qué no usar para casi todo? E ( s )Dakota del Surmi(s)Suplementario, en las respuestas a continuación se hizo evidente que la varianza es imparcial, pero su raíz cuadrada está sesgada. Solicitaría que las respuestas aborden la cuestión de cuándo se debe utilizar la desviación estándar imparcial.

Como resultado, una respuesta parcial es que para evitar sesgos en la simulación anterior, las variaciones podrían haberse promediado en lugar de los valores SD. Para ver el efecto de esto, si elevamos al cuadrado la columna SD anterior y promediamos esos valores obtenemos 0.9994, cuya raíz cuadrada es una estimación de la desviación estándar 0.9996915 y el error para el cual es solo 0.0006 para la cola del 2.5% y -0.0006 para la cola del 95%. Tenga en cuenta que esto se debe a que las variaciones son aditivas, por lo que promediarlas es un procedimiento de bajo error. Sin embargo, las desviaciones estándar están sesgadas, y en aquellos casos en los que no podemos darnos el lujo de utilizar las variaciones como intermediario, aún necesitamos una pequeña corrección numérica. Incluso si podemos usar la varianza como intermediario, en este caso paranorte=100, la corrección de muestra pequeña sugiere multiplicar la raíz cuadrada de la varianza imparcial 0.9996915 por 1.002528401 para obtener 1.002219148 como una estimación imparcial de la desviación estándar. Entonces, sí, podemos retrasar el uso de la corrección de números pequeños, pero ¿deberíamos ignorarlo por completo?

La pregunta aquí es cuándo deberíamos usar la corrección de números pequeños, en lugar de ignorar su uso, y predominantemente, hemos evitado su uso.

Aquí hay otro ejemplo, el número mínimo de puntos en el espacio para establecer una tendencia lineal que tiene un error es tres. Si ajustamos estos puntos con mínimos cuadrados ordinarios, el resultado para muchos de estos ajustes es un patrón residual normal doblado si no hay linealidad y medio normal si hay linealidad. En el caso medio normal, nuestra media de distribución requiere una pequeña corrección numérica. Si intentamos el mismo truco con 4 o más puntos, la distribución generalmente no será normal o fácil de caracterizar. ¿Podemos usar la varianza para combinar de alguna manera esos resultados de 3 puntos? Quizás, quizás no. Sin embargo, es más fácil concebir problemas en términos de distancias y vectores.


Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .
whuber

3
P1: Ver el teorema de Lehmann-Scheffe.
Scortchi - Restablece a Monica

1
El sesgo distinto de cero de un estimador no es necesariamente un inconveniente. Por ejemplo, si deseamos tener un estimador exacto bajo pérdida cuadrada, estamos dispuestos a inducir sesgo siempre que reduzca la varianza en una cantidad suficientemente grande. Es por eso que los estimadores regularizados (sesgados) pueden funcionar mejor que el estimador OLS (imparcial) en un modelo de regresión lineal, por ejemplo.
Richard Hardy

3
@Carl muchos términos se usan de manera diferente en diferentes áreas de aplicación. Si está publicando en un grupo de estadísticas y usa un término de jerga como "sesgo", naturalmente se supondrá que está usando los significados específicos del término particular para las estadísticas. Si quiere decir algo más, es esencial usar un término diferente o definir claramente lo que quiere decir con el término correcto en el primer uso.
Glen_b: reinstala a Mónica el

2
"sesgo" es sin duda un término de jerga: las palabras o expresiones especiales utilizadas por una profesión o grupo que son difíciles de entender para los demás parece más o menos lo que es "sesgo". Es porque tales términos tienen definiciones precisas y especializadas en sus áreas de aplicación (incluidas las definiciones matemáticas) que los convierte en términos jerga.
Glen_b: reinstala a Mónica el

Respuestas:


34

Para la pregunta más restringida

¿Por qué se usa típicamente una fórmula de desviación estándar sesgada?

la respuesta simple

Porque el estimador de varianza asociado es imparcial. No existe una justificación matemática / estadística real.

puede ser exacto en muchos casos.

Sin embargo, esto no es necesariamente siempre el caso. Hay al menos dos aspectos importantes de estos temas que deben entenderse.

Primero, la varianza muestral no es solo imparcial para las variables aleatorias gaussianas. Es imparcial para cualquier distribución con varianza finita (como se discute a continuación, en mi respuesta original). La pregunta señala que no es imparcial para , y sugiere una alternativa que es imparcial para una variable aleatoria gaussiana. Sin embargo, es importante tener en cuenta que a diferencia de la varianza, para la desviación estándar es no posible tener una "distribución gratuita" estimador insesgado (* ver nota más abajo).σ 2 s σs2σ2sσ

Segundo, como se menciona en el comentario de whuber, el hecho de que esté sesgado no afecta la "prueba t" estándar. Primero tenga en cuenta que, para una variable gaussiana , si estimamos los puntajes z de una muestra como entonces estos estarán sesgados.x { x i } z i = x i - μsX{Xyo}

zyo=Xyo-μσXyo-X¯s

Sin embargo, la estadística t generalmente se usa en el contexto de la distribución de muestreo de . En este caso, la puntuación sería aunque no podemos calcular ni ni , ya que no sabemos . No obstante, si la estadística fuera normal, entonces la estadística seguirá una distribución de Student-t . Esta no es una aproximación grande- . La única suposición es que las muestras son iid gaussianas. z ˉ x = ˉ x -μX¯ztμz ˉ x tnx

zX¯=X¯-μσX¯X¯-μs/ /norte=t
ztμzX¯tnorteX

(Comúnmente el t-test se aplica más ampliamente para posiblemente no gaussiana . Esto no se basan en a gran , que por el límite central teorema asegura que todavía será gaussiana.)n ˉ xXnorteX¯


* Aclaración sobre "estimador imparcial sin distribución"

Por "distribución libre", quiero decir que el estimador no puede depender de ninguna información sobre la población aparte de la muestra . Por "imparcial" quiero decir que el error esperado es uniformemente cero, independiente del tamaño de la muestra . (A diferencia de un estimador que es meramente asintóticamente imparcial, también conocido como " consistente ", para el cual el sesgo desaparece como ).{ x 1 , ...XE [ θ n ] - θ n n {X1,...,Xnorte}mi[θ^norte]-θnortenorte

En los comentarios esto se dio como un posible ejemplo de un "estimador imparcial sin distribución". Resumiendo un poco, este estimador tiene la forma , donde es el exceso de curtosis de . Este estimador no está "libre de distribución", ya que depende de la distribución de . Se dice que el estimador satisface , donde es la varianza de . Por lo tanto, el estimador es consistente, pero no (absolutamente) "imparcial", comoσ^=F[s,norte,κX] x κ x x E [ σ ] - σ x = O [ 1κXXκXXσ 2 x xO[1mi[σ^]-σX=O[1norte]σX2XnO[1norte]puede ser arbitrariamente grande para pequeños .norte


Nota: A continuación se muestra mi "respuesta" original. De aquí en adelante, los comentarios se refieren a la media y la varianza de la "muestra" estándar, que son estimadores imparciales "libres de distribución" (es decir, no se supone que la población sea ​​gaussiana).

Esta no es una respuesta completa, sino más bien una aclaración sobre por qué se usa comúnmente la fórmula de varianza de la muestra .

Dada una muestra aleatoria , siempre que las variables tengan una media común, el estimador será imparcial , es decir, ˉ x = 1{X1,...,Xnorte}E[xi]=μX¯=1norteyoXyo

mi[Xyo]=μmi[X¯]=μ

Si las variables también tienen una varianza finita común, y son no correlacionados , entonces el estimador será también ser imparcial, es decir, Tenga en cuenta que la imparcialidad de estos estimadores depende solo de los supuestos anteriores (y la linealidad de la expectativa; la prueba es solo álgebra). El resultado no depende de ninguna distribución en particular, como la gaussiana. Las variables no no tienen que tener una distribución común, y que ni siquiera tiene que serEs2=1norte-1yo(Xyo-X¯)2x i

mi[XyoXj]-μ2={σ2yo=j0 0yojmi[s2]=σ2
Xyoindependiente (es decir, la muestra no tiene que ser iid ).

La "desviación estándar de muestra" no es un estimador imparcial, , pero no obstante se usa comúnmente. Supongo que esto se debe simplemente a que es la raíz cuadrada de la varianza muestral imparcial. (Sin justificación más sofisticada).sσssσ

En el caso de una muestra iid gaussiana, las estimaciones de máxima verosimilitud (MLE) de los parámetros son y , es decir, la varianza se divide por lugar de . Además, en el caso iid Gaussiano, la desviación estándar MLE es solo la raíz cuadrada de la varianza MLE. Sin embargo, estas fórmulas, así como la que se insinuó en su pregunta, dependen de la suposición gaidiana del iid. ( σ 2)MLE=n-1μ^METROLmi=X¯nn2(σ^2)MLE=n1ns2nn2


Actualización: aclaración adicional sobre "sesgado" frente a "imparcial".

Considere una muestra de elementos como arriba, , con suma de desviación cuadrada Dados los supuestos descritos en la primera parte anterior, necesariamente tenemos por lo que el estimador MLE (gaussiano) está sesgado mientras que el estimador de "varianza muestral" es imparcial X = { x 1 , , x n } δ 2 n = i ( xnX={x1,,xn}E [ δ 2 n ] = (

δn2=i(xi-x¯)2
^ σ 2 n = 1
mi[δnorte2]=(norte-1)σ2
s 2 n =1
σnorte2^=1norteδnorte2mi[σnorte2^]=norte-1norteσ2
snorte2=1norte-1δnorte2mi[snorte2]=σ2

Ahora es cierto que vuelve menos sesgado a medida que aumenta el tamaño de la muestra . Sin embargo, tiene un sesgo cero sin importar el tamaño de la muestra (siempre que ). Para ambos estimadores, la varianza de su distribución de muestreo será distinta de cero y dependerá de . ns 2 n n>1nσnorte2^nortesnorte2norte>1norte

Como ejemplo, el siguiente código de Matlab considera un experimento con muestras de una población normal estándar . Para estimar las distribuciones de muestreo para , el experimento se repite veces. (Puede cortar y pegar el código aquí para probarlo usted mismo).z ˉ x , ^ σ 2 , s 2 N = 10 6norte=2zx¯,σ2^,s2N=106

% n=sample size, N=number of samples
n=2; N=1e6;
% generate standard-normal random #'s
z=randn(n,N); % i.e. mu=0, sigma=1
% compute sample stats (Gaussian MLE)
zbar=sum(z)/n; zvar_mle=sum((z-zbar).^2)/n;
% compute ensemble stats (sampling-pdf means)
zbar_avg=sum(zbar)/N, zvar_mle_avg=sum(zvar_mle)/N
% compute unbiased variance
zvar_avg=zvar_mle_avg*n/(n-1)

La salida típica es como

zbar_avg     =  1.4442e-04
zvar_mle_avg =  0.49988
zvar_avg     =  0.99977

confirmando que

E[z¯](z¯)¯μ=0E[s2](s2)¯σ2=1E[σ2^](σ2^)¯n1nσ2=12

Actualización 2: Nota sobre la naturaleza fundamentalmente "algebraica" de la imparcialidad.

En la demostración numérica anterior, el código se aproxima a la verdadera expectativa usando un promedio de conjunto con réplicas del experimento (es decir, cada una es una muestra de tamaño ). Incluso con este gran número, los resultados típicos citados anteriormente están lejos de ser exactos.N = 10 6 n = 2mi[]norte=106 6norte=2

Para demostrar numéricamente que los estimadores son realmente imparciales, podemos usar un simple truco para aproximar el caso : simplemente agregue la siguiente línea al códigonorte

% optional: "whiten" data (ensure exact ensemble stats)
[U,S,V]=svd(z-mean(z,2),'econ'); z=sqrt(N)*U*V';

(colocando después de "generar números aleatorios estándar-normales" y antes de "calcular estadísticas de muestra")

Con este simple cambio, incluso ejecutar el código con da resultados comonorte=10

zbar_avg     =  1.1102e-17
zvar_mle_avg =  0.50000
zvar_avg     =  1.00000

3
@amoeba Bueno, me comeré mi sombrero. Cuadré los valores SD en cada línea, luego los promedié y salieron insesgados (0.9994), mientras que los valores SD no lo hacen. Lo que significa que usted y GeoMatt22 están en lo correcto, y estoy equivocado.
Carl

2
@Carl: generalmente es cierto que la transformación de un estimador imparcial de un parámetro no proporciona una estimación imparcial del parámetro transformado, excepto cuando la transformación es afín, siguiendo la linealidad de la expectativa. Entonces, ¿en qué escala es importante para usted la imparcialidad?
Scortchi - Restablece a Monica

44
Carl: Pido disculpas si sientes que mi respuesta fue ortogonal a tu pregunta. Se pretendía proporcionar una explicación plausible de P: "¿por qué se suele utilizar una fórmula de desviación estándar sesgada?" A: "simplemente porque el estimador de varianza asociado es imparcial, frente a cualquier justificación matemática / estadística real ". En cuanto a su comentario, típicamente "imparcial" describe un estimador cuyo valor esperado es correcto independientemente del tamaño de la muestra. Si es imparcial solo en el límite del tamaño de muestra infinito, normalmente se llamaría " consistente ".
GeoMatt22

3
(+1) Buena respuesta. Pequeña advertencia: ese pasaje de Wikipedia sobre la consistencia citado en esta respuesta es un poco desordenado y la declaración entre paréntesis que se hace al respecto es potencialmente engañosa. La "consistencia" y la "imparcialidad asintótica" son, en cierto sentido, propiedades ortogonales de un estimador. Para un poco más sobre ese punto, vea el hilo de comentarios a esta respuesta .
cardenal

3
+1 pero creo que @Scortchi hace un punto realmente importante en su respuesta que no se menciona en la suya: a saber, que incluso para la población gaussiana, la estimación imparcial de tiene un error esperado más alto que la estimación sesgada estándar de (debido a la alta varianza de los primeros). Este es un argumento fuerte a favor de no utilizar un estimador imparcial, incluso si se sabe que la distribución subyacente es gaussiana. σσ
ameba dice Reinstate Monica

15

La desviación estándar de la muestra es completa y suficiente para por lo que el conjunto de estimadores insesgados de dada porS=(X-X¯)2norte-1σσk

(norte-1)k22k2Γ(norte-12)Γ(norte+k-12)Sk=Skdok

(Ver ¿Por qué la desviación estándar muestral es un estimador sesgado de ?σ ) Son, según el teorema de Lehmann-Scheffé, UMVUE. Los estimadores consistentes, aunque sesgados, de también se pueden formar comoσk

σ~jk=(Sjdoj)kj

(los estimadores insesgados se especifican cuando ). El sesgo de cada uno viene dado porj=k

miσ~jk-σk=(dokdojkj-1)σk

y su varianza por

Varσ~jk=miσ~j2k-(miσ~jk)2=do2k-dok2doj2kjσ2k

Para los dos estimadores de que ha considerado, & , la falta de sesgo de está más que compensado por su mayor varianza en comparación con :σ˜ σ 1 2 =S ˜σ~11=Sdo1σ~21=Sσ~1σ~2

miσ~1-σ=0 0miσ~2-σ=(do1-1)σVarσ~1=miσ~12-(miσ~11)2=do2-do12do12σ2=(1do12-1)σ2Varσ~2=miσ~12-(miσ~2)2=do2-do12do2σ2=(1-do12)σ2
(Tenga en cuenta que , como ya es un estimador imparcial de )do2=1S2σ2

Gráfico que muestra las contribuciones de sesgo y varianza a MSE en tamaños de muestra de uno a 20 para los dos estimadores

El error cuadrado medio de como estimador de viene dado porunakSkσ2

(miunakSk-σk)2+mi(unakSk)2-(miunakSk)2=[(unakdok-1)2+unak2do2k-unak2dok2]σ2k=(unak2do2k-2unakdok+1)σ2k

y por lo tanto minimizado cuando

unak=dokdo2k

, permitiendo la definición de otro conjunto de estimadores de interés potencial:

σ^jk=(dojSjdo2j)kj

Curiosamente, , por lo que la misma constante que divide para eliminar el sesgo multiplica para reducir MSE. De todos modos, estos son los estimadores de invariantes de ubicación y equivalentes de escala de varianza mínima uniforme (no desea que su estimación cambie en absoluto si mide en grados Kelvin en lugar de grados Celsius, y desea que cambie por un factor de si mide en Fahrenheit).σ^11=do1SSSσk(9 95 5)k

Ninguno de los anteriores tiene relación con la construcción de pruebas de hipótesis o intervalos de confianza (ver, por ejemplo, ¿ por qué este extracto dice que la estimación imparcial de la desviación estándar generalmente no es relevante? ). Y & no agotan ni los estimadores ni las escalas de parámetros de interés potencial: considere el estimador de máxima verosimilitud , o el estimador imparcial medio ; o la desviación estándar geométrica de una distribución lognormal . Puede valer la pena mostrar algunas estimaciones más o menos populares hechas de una pequeña muestra (σ~jkσ^jk norte-1norteSnorte-1χnorte-12(0.5 0.5)Smiσnorte=2) junto con los límites superior e inferior, & , del intervalo de confianza de igual cola que tiene cobertura :(norte-1)s2χnorte-12(α)(norte-1)s2χnorte-12(1-α)1-α

distribución de confianza para $ \ sigma $ mostrando estimaciones

El intervalo entre las estimaciones más divergentes es insignificante en comparación con el ancho de cualquier intervalo de confianza que tenga una cobertura decente. (El IC del 95%, por ejemplo, es(0,45s,31,9s).) No tiene sentido ser quisquilloso con las propiedades de un estimador puntual a menos que esté preparado para ser bastante explícito acerca de para qué quiere usarlo; lo más explícito es que puede definir una función de pérdida personalizada para una aplicación en particular. Una razón por la que podría preferir un estimador exacto (o casi) imparcial es que lo usará en cálculos posteriores durante los cuales no desea que se acumule sesgo: su ilustración de promediar estimados sesgados de desviación estándar es un simple ejemplo de tal (un ejemplo más complejo podría ser usarlos como respuesta en una regresión lineal). En principio, un modelo global debería obviar la necesidad de estimaciones imparciales como un paso intermedio, pero podría ser considerablemente más difícil de especificar y ajustar.

† El valor de que hace que los datos observados sean más probables tiene un atractivo como una estimación independiente de la consideración de su distribución de muestreo.σ


7

P2: ¿Alguien podría explicarme por qué estamos usando SD de todos modos ya que está claramente sesgado y es engañoso?

Esto salió a un lado en los comentarios, pero creo que vale la pena repetirlo porque es el quid de la respuesta:

La fórmula de la varianza de la muestra es sesgada, y las variaciones son aditivos . Entonces, si espera hacer alguna transformación (afín), esta es una razón estadística seria por la que debe insistir en un "buen" estimador de varianza sobre un "buen" estimador SD.

En un mundo ideal, serían equivalentes. Pero eso no es cierto en este universo. Debe elegir uno, por lo que podría elegir el que le permita combinar información en el futuro.

¿Comparar dos medias muestrales? La varianza de su diferencia es la suma de sus varianzas.
¿Haciendo un contraste lineal con varios términos? Obtenga su varianza tomando una combinación lineal de sus varianzas.
Mirando los ajustes de la línea de regresión? Obtenga su varianza utilizando la matriz de varianza-covarianza de sus coeficientes beta estimados.
¿Usa pruebas F, pruebas t o intervalos de confianza basados ​​en t? La prueba F requiere variaciones directamente; y la prueba t es exactamente equivalente a la raíz cuadrada de una prueba F.

En cada uno de estos escenarios comunes, si comienza con variaciones imparciales, seguirá siendo imparcial hasta el final (a menos que su paso final se convierta en SD para informar).
Mientras tanto, si hubieras comenzado con SD no sesgadas, ni tus pasos intermedios ni el resultado final serían imparciales de todos modos .


La varianza no es una medida de distancia, y la desviación estándar sí. Sí, las distancias vectoriales se suman por cuadrados, pero la medida principal es la distancia. La pregunta era para qué usaría la distancia corregida y no por qué deberíamos ignorar la distancia como si no existiera.
Carl

Bueno, supongo que estoy argumentando que "la medida principal es la distancia" no es necesariamente cierto. 1) ¿Tiene un método para trabajar con variaciones no sesgadas? combinarlos tomar la variación final resultante; y reescalar su sqrt para obtener una SD imparcial? Genial, entonces haz eso. Si no ... 2) ¿Qué vas a hacer con una SD de una muestra pequeña? ¿Informarlo por su cuenta? Es mejor trazar los puntos de datos directamente, no resumir su propagación. ¿Y cómo lo interpretará la gente, además de como una entrada para las SE y, por lo tanto, las CI? Es significativo como una entrada para los CI, pero luego preferiría el CI basado en t (con SD habitual).
civilstat

No creo que muchos estudios clínicos o programas de software comerciales con utilicen el error estándar de la media calculada a partir de la desviación estándar corregida de muestra pequeña que conduce a una falsa impresión de cuán pequeños son esos errores. Creo que incluso ese tema, incluso si ese es el único, debería ignorarse. norte<25
Carl

"así que también podría elegir el que le permita combinar información en el futuro" y "la medida principal es la distancia" no es necesariamente cierto. ¿La casa del granjero Jo está a 640 acres más adelante? Uno usa la medida apropiada correctamente para cada situación, o uno tiene una mayor tolerancia al falso testimonio que yo. Mi única pregunta aquí es cuándo usar qué, y la respuesta no es "nunca".
Carl

1

Esta publicación está en forma de esquema.

(1) Sacar una raíz cuadrada no es una transformación afín (Crédito @Scortchi).

(2) , por lo tantovunar(s)=mi(s2)-mi(s)2mi(s)=mi(s2)-vunar(s)vunar(s)

(3) , mientras quevunar(s)=Σyo=1norte(Xyo-X¯)2norte-1mi(s)=Γ(norte-12)Γ(norte2)Σyo=1norte(Xyo-X¯)22Σyo=1norte(Xyo-X¯)2norte-1=vunar(s)

(4) Por lo tanto, no podemos sustituir por , por pequeño, ya que la raíz cuadrada no es afín.vunar(s)mi(s)norte

(5) y son imparciales (Credit @ GeoMatt22 y @Macro, respectivamente).vunar(s)mi(s)

(6) Para distribuciones no normales, veces está (a) indefinido (por ejemplo, Cauchy, Pareto con pequeño ) y (b) no UMVUE (por ejemplo, Cauchy ( Student's- con ), Pareto, Uniforme, beta). Aún más comúnmente, la varianza puede ser indefinido, por ejemplo Student's- con . Entonces se puede afirmar que no es UMVUE para la distribución de casos generales. Por lo tanto, no existe una responsabilidad especial para introducir una corrección de números pequeños aproximados para la desviación estándar, que probablemente tiene limitaciones similares a , pero además está menos sesgada,X¯αtreF=1t1reF2var(s)var(s)σ^=1norte-1,5-14 4γ2yo=1norte(Xyo-X¯)2 ,

donde es exceso de curtosis. De manera similar, al examinar una distribución cuadrática normal (una Chi-cuadrado con transformación ), podríamos sentir la tentación de tomar su raíz cuadrada y usar las propiedades de distribución normal resultantes. Es decir, en general, la distribución normal puede ser el resultado de transformaciones de otras distribuciones y puede ser conveniente examinar las propiedades de esa distribución normal de modo que la limitación de la corrección de números pequeños en el caso normal no sea una restricción tan severa como uno podría Al principio asumir.γ2reF=1

Para el caso de distribución normal:

A1: según el teorema de Lehmann-Scheffe y son UMVUE (Credit @Scortchi).vunar(s)mi(s)

A2: (Editado para ajustar los comentarios a continuación). Para , deberíamos usar para la desviación estándar, error estándar, intervalos de confianza de la media y de la distribución, y opcionalmente para z- Estadísticas. Para prueba usaríamos el estimador insesgado ya que sí mismo es Student's- distribuido con grados de libertad (Crédito @whuber y @ GeoMatt22). Para las estadísticas z, generalmente se aproxima usando grande para el cual es pequeño, pero para el cualnorte25mi(s)tX¯-μvar(norte)/ /nortetnorte-1σnortemi(s)-var(norte)mi(s) parece ser más matemáticamente apropiado (Credit @whuber y @ GeoMatt22).


2
A2 es incorrecto: seguir esa receta produciría pruebas demostrablemente inválidas. Como comenté a la pregunta, quizás demasiado sutilmente: consulte cualquier explicación teórica de una prueba clásica, como la prueba t, para ver por qué una corrección de sesgo es irrelevante.
whuber

2
Hay un fuerte metaargumento que muestra por qué la corrección de sesgo para las pruebas estadísticas es una pista falsa: si fuera incorrecto no incluir un factor de corrección de sesgo, entonces ese factor ya estaría incluido en las tablas estándar de la distribución t de Student, distribución F, Para decirlo de otra manera: si estoy equivocado sobre esto, entonces todos se han equivocado acerca de las pruebas estadísticas durante el siglo pasado.
whuber

1
¿Soy el único que está desconcertado por la notación aquí? ¿Por qué usar para representar , la estimación imparcial de la desviación estándar? Lo que es ? mi(s)Γ(norte-12)Γ(norte2)Σyo=1norte(Xyo-X¯)22s
Scortchi - Restablece a Monica

2
@Scortchi, la notación aparentemente surgió como un intento de heredar la utilizada en la publicación vinculada . Hay es la varianza de la muestra, y es el valor esperado de para una muestra gaussiana. En esta pregunta, " " fue elegido como un nuevo estimador derivado de la publicación original (es decir, algo así como donde ). Si llegamos a una respuesta satisfactoria para esta pregunta, probablemente se justificaría una limpieza de la notación de preguntas y respuestas :)smi(s)smi(s)σ^s/ /ααmi[s]/ /σ
GeoMatt22

2
La prueba z supone que el denominador es una estimación precisa de . Se sabe que es una aproximación que solo es asintóticamente correcta. Si desea corregirlo, no use el sesgo del estimador SD, solo use una prueba t. Para eso fue inventada la prueba t. σ
whuber

0

Quiero agregar la respuesta bayesiana a esta discusión. Solo porque su suposición es que los datos se generan de acuerdo con alguna normalidad con media y varianza desconocidas, eso no significa que deba resumir sus datos utilizando una media y una varianza. Todo este problema puede evitarse si dibuja el modelo, que tendrá una predicción posterior que es una distribución de T de tres parámetros no centrada en escala de estudiante. Los tres parámetros son el total de las muestras, el total de las muestras cuadradas y el número de muestras. (O cualquier mapa biyectivo de estos).

Por cierto, me gusta la respuesta de civilstat porque resalta nuestro deseo de combinar información. Las tres estadísticas suficientes anteriores son incluso mejores que las dos dadas en la pregunta (o por la respuesta de civilstat). Dos conjuntos de estas estadísticas se pueden combinar fácilmente, y dan la mejor predicción posterior dado el supuesto de normalidad.


¿Cómo se calcula un error estándar imparcial de la media a partir de esas tres estadísticas suficientes?
Carl

@carl Puede calcularlo fácilmente ya que tiene el número de muestras , puede multiplicar la varianza de la muestra no corregida por . Sin embargo, realmente no quieres hacer eso. Eso equivale a convertir sus tres parámetros en una distribución normal que mejor se adapte a sus datos limitados. Es mucho mejor usar sus tres parámetros para ajustarse al verdadero predictivo posterior: la distribución T escalada no central. Todas las preguntas que pueda tener (percentiles, etc.) se responden mejor con esta distribución T. De hecho, las pruebas T son solo preguntas de sentido común que se hacen a esta distribución. nortenortenorte-1
Neil G

¿Cómo se puede entonces generar una verdadera RV distribución normal de simulaciones de Monte Carlo (s) y recuperar la verdadera distribución utilizando sólo Student's- parámetros de la distribución? ¿Me estoy perdiendo de algo? t
Carl

@Carl Las estadísticas suficientes que describí fueron la media, el segundo momento y el número de muestras. Su MLE de la normal original es la media y la varianza (que es igual al segundo momento menos la media al cuadrado). El número de muestras es útil cuando desea hacer predicciones sobre futuras observaciones (para lo cual necesita la distribución predictiva posterior).
Neil G

σ
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.