¿Se utiliza el error cuadrático medio para evaluar la superioridad relativa de un estimador sobre otro?


13

Supongamos que tenemos dos estimadores α1 y α2 para algún parámetro x . Para determinar qué estimador es "mejor", ¿miramos el MSE (error cuadrático medio)? En otras palabras, nos fijamos en

MSE=β2+σ2
donde β es el sesgo del estimador y σ2 es la varianza del estimador? ¿Cuál tiene un MSE mayor es un peor estimador?

Respuestas:


10

Si tiene dos estimadores que compiten theta 1 y θ 2 , sea o no H S E ( θ 1 ) < M S E ( θ 2 ) le dice que θ 1 es el mejor estimador depende totalmente de su definición "mejor". Por ejemplo, si usted está comparando estimadores no sesgados y por "mejor" significa que tiene menor varianza entonces, sí, esto implicaría que θ 1 es mejor. M S Eθ^1θ^2

MSE(θ^1)<MSE(θ^2)
θ^1θ^1MSEes un criterio popular debido a su conexión con los mínimos cuadrados y la probabilidad logarítmica gaussiana, pero, como muchos criterios estadísticos, uno debe ser advertido de usar ciegas como una medida de la calidad del estimador sin prestar atención a la aplicación.MSE

Hay ciertas situaciones en las que elegir un estimador para minimizar puede no ser algo particularmente sensato. Me vienen a la mente dos escenarios:MSE

  • Si hay valores atípicos muy grandes en un conjunto de datos, pueden afectar drásticamente a MSE y, por lo tanto, el estimador que minimiza el MSE puede verse influido indebidamente por dichos valores atípicos. En tales situaciones, el hecho de que un estimador minimice el MSE realmente no le dice mucho, ya que, si elimina los valores atípicos, puede obtener una estimación muy diferente. En ese sentido, el MSE no es "robusto" para los valores atípicos. En el contexto de la regresión, este hecho es lo que motivó el Estimador M de Huber (que discuto en esta respuesta), que minimiza una función de criterio diferente (que es una mezcla entre el error al cuadrado y el error absoluto) cuando hay errores de cola larga .

  • Si está estimando un parámetro acotado, comparar s puede no ser apropiado ya que penaliza la sobreestimación y la subestimación de manera diferente en ese caso. Por ejemplo, suponga que está estimando una varianza, σ 2 . Entonces, si conscientemente subestima la cantidad, su M S E puede ser como máximo σ 4 , mientras que la sobreestimación puede producir un M S E que supera con creces a σ 4 , tal vez incluso en una cantidad ilimitada.MSEσ2MSEσ4MSEσ4

Para aclarar estos inconvenientes, daré un ejemplo concreto de cuándo, debido a estos problemas, el puede no ser una medida adecuada de la calidad del estimador.MSE

Suponga que tiene una muestra de de una distribución t con ν > 2 grados de libertad y estamos tratando de estimar la varianza, que es ν / ( ν - 2 ) . Considere dos estimadores compiten: theta 1 : t h e u n b i una s e d s a m p l e v a r iX1,...,Xntν>2ν/(ν2) y θ 2 = 0 , r e g a r d l e s s o f t h e d un t un Claramente M S E ( θ 2 ) = ν 2

θ^1:the unbiased sample variance
θ^2=0, regardless of the data
y es un hecho queMSE( θ 1)={si  ν 4 ν 2MSE(θ^2)=ν2(ν2)2que se puede derivar usandoel hecho discutido en este hiloylas propiedades de ladistribuciónt. Por lo tanto, el estimador ingenuo supera en términos deMSEindependientemente del tamaño de la muestra siempre queν<4, lo cual es bastante desconcertante. También supera cuando(2
MSE(θ^1)={if ν4ν2(ν2)2(2n1+6n(ν4))if ν>4.
tMSEν<4pero esto solo es relevante para tamaños de muestra muy pequeños. Lo anterior sucede debido a la naturaleza de cola larga de latde distribución con pequeños grados de libertad, lo que hace θ 2propensos a valores muy grandes y laMSEpenaliza en gran medida por la sobreestimación, mientras que θ 1no tiene este problema.(2n1+6n(ν4))>1tθ^2MSEθ^1

MSEMSEθ^

S(θ^)=θ^ν/(ν2)1log(θ^ν/(ν2))

S(θ^1)=


(+1) Buena discusión. Para ser justos, probablemente debería señalarse que también se pueden hacer argumentos similares a favor y en contra de otros criterios (otras funciones de pérdida).
MånsT

2
Normalmente, uno evalúa los estimadores observando sus funciones de riesgo, que trazan la pérdida esperada frente a los parámetros. Aquí, al corregir los parámetros, puede haber producido un análisis engañoso. Después de todo, siempre es el caso de que un estimador estúpido (constante, ignorante de datos) puede producir una pérdida esperada muy baja: ¡simplemente configúrelo igual al parámetro correcto! Esto me deja preguntándome qué ha demostrado realmente la simulación aquí.
whuber

@whuber, he modificado esta respuesta para dar el ejemplo analíticamente, lo que lo hace más claro tal vez. También he ofrecido una función de pérdida alternativa que puede ser más apropiada.
Macro

+1 ¡Mucho mejor y muy interesante! Creo que el aspecto "desconcertante" puede estar en el ojo del espectador. A cualquiera que quiera inclinarse por Bayesν, este resultado debería ser aleccionador. Además, para algunos de nosotros, la elección de la pérdida es primordial y debería reemplazar la mayoría de las demás consideraciones: los valores y objetivos de su cliente determinan la pérdida y eso lo ayuda a elegir un buen procedimiento de estimación. ¡Favorecer un procedimiento de estimación y luego proponer una pérdida para que ese procedimiento funcione es un ejercicio útil, pero seguramente no puede tomarse como un paradigma de cómo se resuelven los problemas estadísticos!
whuber

2

MSE corresponde al riesgo (pérdida esperada) para la función de pérdida de error al cuadrado L(αyo)=(αyo-α)2. La función de pérdida de error al cuadrado es muy popular, pero solo una opción de muchas. El procedimiento que describe es correcto bajo la pérdida de error al cuadrado; la pregunta es si eso es apropiado en su problema o no.


2

Porque la función F(X)=X2es diferenciable, hace que encontrar el MSE mínimo sea más fácil tanto desde un punto de vista teórico como numérico. Por ejemplo, en los mínimos cuadrados ordinarios puede resolver explícitamente la pendiente ajustada y la intersección. Desde un punto de vista numérico, tiene solucionadores más eficientes cuando también tiene una derivada.

El error cuadrático medio generalmente sobrepasa los valores atípicos en mi opinión. Es por eso que a menudo es más robusto usar el error absoluto medio, es decir, usarF(X)=El |XEl |como su función de error Sin embargo, dado que no es diferenciable, hace que las soluciones sean más difíciles de trabajar.

MSE es probablemente una buena opción si los términos de error se distribuyen normalmente. Si tienen colas más gordas, es preferible una opción más robusta, como el valor absoluto.


0

En Case & Berger, Inferencia estadística, segunda edición, la página 332 establece que MSE penaliza por igual la sobreestimación y la subestimación, lo cual está bien en el caso de la ubicación. En el caso de la escala, sin embargo, 0 es un límite inferior natural, por lo que el problema de estimación no es simétrico. El uso de MSE en este caso tiende a perdonar la subestimación.

Es posible que desee verificar qué estimador satisface las propiedades UMVUE, lo que significa usar el límite inferior de Cramer-Rao. Página 341.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.