Me cuesta entender la diferencia entre el error estándar y la desviación estándar. ¿Cómo son diferentes y por qué necesita medir el error estándar?
Me cuesta entender la diferencia entre el error estándar y la desviación estándar. ¿Cómo son diferentes y por qué necesita medir el error estándar?
Respuestas:
Para completar la respuesta a la pregunta, Ocram abordó amablemente el error estándar, pero no lo comparó con la desviación estándar y no mencionó la dependencia del tamaño de la muestra. Como un caso especial para el estimador, considere la media muestral. El error estándar para la media es donde σes la desviación estándar de la población. Entonces, en este ejemplo, vemos explícitamente cómo el error estándar disminuye al aumentar el tamaño de la muestra. La desviación estándar se usa con mayor frecuencia para referirse a las observaciones individuales. Entonces, la desviación estándar describe la variabilidad de las observaciones individuales, mientras que el error estándar muestra la variabilidad del estimador. Los buenos estimadores son consistentes, lo que significa que convergen al valor del parámetro verdadero. Cuando su error estándar disminuye a 0 a medida que aumenta el tamaño de la muestra, los estimadores son consistentes, lo que en la mayoría de los casos ocurre porque el error estándar va a 0 como vemos explícitamente con la media de la muestra.
Aquí hay una respuesta más práctica (y no matemática):
Tenga en cuenta que los errores estándar se pueden calcular para casi cualquier parámetro que calcule a partir de los datos, no solo la media. La frase "el error estándar" es un poco ambigua. Los puntos anteriores se refieren solo al error estándar de la media.
(De la Guía de estadísticas de GraphPad que escribí).
(tenga en cuenta que me estoy centrando en el error estándar de la media, que creo que el interrogador también lo hizo, pero puede generar un error estándar para cualquier estadística de muestra)
El error estándar está relacionado con la desviación estándar, pero no son lo mismo y aumentar el tamaño de la muestra no los acerca más. Más bien, los separa más. La desviación estándar de la muestra se acerca a la desviación estándar de la población a medida que aumenta el tamaño de la muestra, pero no el error estándar.
A veces, la terminología en torno a esto es un poco difícil de entender.
Cuando reúne una muestra y calcula la desviación estándar de esa muestra, a medida que la muestra crece en tamaño, la estimación de la desviación estándar se vuelve más y más precisa. Parece de su pregunta que era lo que estaba pensando. Pero también considere que la media de la muestra tiende a estar más cerca de la media de la población en promedio. Eso es crítico para entender el error estándar.
El error estándar es sobre lo que sucedería si obtuvieras múltiples muestras de un tamaño determinado. Si toma una muestra de 10, puede obtener una estimación de la media. Luego, toma otra muestra de 10 y una nueva estimación media, y así sucesivamente. La desviación estándar de las medias de esas muestras es el error estándar. Dado que planteó su pregunta, probablemente pueda ver ahora que si la N es alta, entonces el error estándar es menor porque es menos probable que las medias de las muestras se desvíen mucho del valor real.
Para algunos, eso suena un poco milagroso dado que has calculado esto a partir de una muestra. Entonces, lo que podría hacer es iniciar un error estándar a través de la simulación para demostrar la relación. En R eso se vería así:
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
Encontrará que esos dos últimos comandos generan el mismo número (aproximadamente). Puede variar los valores n, m y s y siempre saldrán bastante cerca uno del otro.