Aprender una variación es difícil.
Se necesita un (quizás sorprendentemente) gran número de muestras para estimar bien una varianza en muchos casos. A continuación, mostraré el desarrollo del caso "canónico" de una muestra iid normal.
Suponga que , i = 1 , ... , n son variables aleatorias independientes N ( μ , σ 2 ) . Buscamos un intervalo de confianza del 100 ( 1 - α ) % para la varianza de modo que el ancho del intervalo sea ρ s 2 , es decir, el ancho sea el 100 ρ % de la estimación puntual. Por ejemplo, si ρ = 1 / 2 , entonces la anchura de la CI es la mitad del valor de la estimación puntual, por ejemplo, siYii=1,…,nN(μ,σ2)100(1−α)%ρs2100ρ%ρ=1/2 , entonces el IC sería algo así como ( 8 ,s2=10 , que tiene un ancho de 5. Observe también la asimetría alrededor de la estimación puntual. ( s 2 es el estimador imparcial de la varianza).(8,13)s2
El "intervalo de confianza" (más bien, "a") para es
( n - 1 ) s 2s2
donde χ 2
(n−1)s2χ2(1−α/2)(n−1)≤σ2≤(n−1)s2χ2(α/2)(n−1),
es la
βcuantil de la distribución chi-cuadrado con
n-1grados de libertad. (Esto surge del hecho de que
(n-1)s2/σ2es una cantidad fundamental en un entorno gaussiano).
χ2β(n−1)βn−1(n−1)s2/σ2
Queremos minimizar el ancho para que
por lo que nos queda resolver para n tal que
( n - 1 ) ( 1
L(n)=(n−1)s2χ2(α/2)(n−1)−(n−1)s2χ2(1−α/2)(n−1)<ρs2,
n(n−1)⎛⎝⎜1χ2(α/2)(n−1)−1χ2(1−α/2)(n−1)⎞⎠⎟<ρ.
Para el caso de un intervalo de confianza 99%, obtenemos para ρ = 1 y n = 5321 para ρ = 0,1 . Este último caso produce un intervalo que es ( ¡todavía! ) 10% tan grande como la estimación puntual de la varianza.n=65ρ=1n=5321ρ=0.1
Si su nivel de confianza elegido es inferior al 99%, se obtendrá el mismo intervalo de ancho para un valor inferior de . Pero, n aún puede ser más grande de lo que habría imaginado.nn
Una gráfica del tamaño de muestra versus el ancho proporcional ρ muestra algo que se ve asintóticamente lineal en una escala log-log; en otras palabras, una relación de poder-ley. Podemos estimar el poder de esta relación poder-ley (crudamente) comonρ
α^≈log0.1−log1log5321−log65=−log10log523165≈−0.525,
que, lamentablemente, ¡es decididamente lento!
Este es el caso "canónico" para darle una idea de cómo hacer el cálculo. Según sus gráficos, sus datos no se ven particularmente normales; en particular, existe lo que parece ser un sesgo notable.
Pero, esto debería darle una idea general de qué esperar. Tenga en cuenta que para responder a su segunda pregunta anterior, es necesario corregir primero un cierto nivel de confianza, que he establecido en 99% en el desarrollo anterior para fines de demostración.