Supongamos que tenemos dos estimadores y para algún parámetro . Para determinar qué estimador es "mejor", ¿miramos el MSE (error cuadrático medio)? En otras palabras, nos fijamos en
Supongamos que tenemos dos estimadores y para algún parámetro . Para determinar qué estimador es "mejor", ¿miramos el MSE (error cuadrático medio)? En otras palabras, nos fijamos en
Respuestas:
Si tiene dos estimadores que compiten theta 1 y θ 2 , sea o no H S E ( θ 1 ) < M S E ( θ 2 ) le dice que θ 1 es el mejor estimador depende totalmente de su definición "mejor". Por ejemplo, si usted está comparando estimadores no sesgados y por "mejor" significa que tiene menor varianza entonces, sí, esto implicaría que θ 1 es mejor. M S E
Hay ciertas situaciones en las que elegir un estimador para minimizar puede no ser algo particularmente sensato. Me vienen a la mente dos escenarios:
Si hay valores atípicos muy grandes en un conjunto de datos, pueden afectar drásticamente a MSE y, por lo tanto, el estimador que minimiza el MSE puede verse influido indebidamente por dichos valores atípicos. En tales situaciones, el hecho de que un estimador minimice el MSE realmente no le dice mucho, ya que, si elimina los valores atípicos, puede obtener una estimación muy diferente. En ese sentido, el MSE no es "robusto" para los valores atípicos. En el contexto de la regresión, este hecho es lo que motivó el Estimador M de Huber (que discuto en esta respuesta), que minimiza una función de criterio diferente (que es una mezcla entre el error al cuadrado y el error absoluto) cuando hay errores de cola larga .
Si está estimando un parámetro acotado, comparar s puede no ser apropiado ya que penaliza la sobreestimación y la subestimación de manera diferente en ese caso. Por ejemplo, suponga que está estimando una varianza, σ 2 . Entonces, si conscientemente subestima la cantidad, su M S E puede ser como máximo σ 4 , mientras que la sobreestimación puede producir un M S E que supera con creces a σ 4 , tal vez incluso en una cantidad ilimitada.
Para aclarar estos inconvenientes, daré un ejemplo concreto de cuándo, debido a estos problemas, el puede no ser una medida adecuada de la calidad del estimador.
Suponga que tiene una muestra de de una distribución t con ν > 2 grados de libertad y estamos tratando de estimar la varianza, que es ν / ( ν - 2 ) . Considere dos estimadores compiten: theta 1 : t h e u n b i una s e d s a m p l e v a r i y θ 2 = 0 , r e g a r d l e s s o f t h e d un t un Claramente M S E ( θ 2 ) = ν 2
MSE corresponde al riesgo (pérdida esperada) para la función de pérdida de error al cuadrado . La función de pérdida de error al cuadrado es muy popular, pero solo una opción de muchas. El procedimiento que describe es correcto bajo la pérdida de error al cuadrado; la pregunta es si eso es apropiado en su problema o no.
Porque la función es diferenciable, hace que encontrar el MSE mínimo sea más fácil tanto desde un punto de vista teórico como numérico. Por ejemplo, en los mínimos cuadrados ordinarios puede resolver explícitamente la pendiente ajustada y la intersección. Desde un punto de vista numérico, tiene solucionadores más eficientes cuando también tiene una derivada.
El error cuadrático medio generalmente sobrepasa los valores atípicos en mi opinión. Es por eso que a menudo es más robusto usar el error absoluto medio, es decir, usarcomo su función de error Sin embargo, dado que no es diferenciable, hace que las soluciones sean más difíciles de trabajar.
MSE es probablemente una buena opción si los términos de error se distribuyen normalmente. Si tienen colas más gordas, es preferible una opción más robusta, como el valor absoluto.
En Case & Berger, Inferencia estadística, segunda edición, la página 332 establece que MSE penaliza por igual la sobreestimación y la subestimación, lo cual está bien en el caso de la ubicación. En el caso de la escala, sin embargo, 0 es un límite inferior natural, por lo que el problema de estimación no es simétrico. El uso de MSE en este caso tiende a perdonar la subestimación.
Es posible que desee verificar qué estimador satisface las propiedades UMVUE, lo que significa usar el límite inferior de Cramer-Rao. Página 341.