Descomposición de varianza sesgada


13

En la sección 3.2 de Reconocimiento de patrones y Aprendizaje automático de Bishop , analiza la descomposición de la variación de sesgo, indicando que para una función de pérdida al cuadrado, la pérdida esperada puede descomponerse en un término de sesgo al cuadrado (que describe qué tan lejos están las predicciones promedio del verdadero modelo), un término de varianza (que describe la propagación de las predicciones alrededor del promedio) y un término de ruido (que da el ruido intrínseco de los datos).

  1. ¿Se puede realizar la descomposición de la variación de sesgo con funciones de pérdida distintas de la pérdida al cuadrado?
  2. Para un conjunto de datos de modelo dado, ¿hay más de un modelo cuya pérdida esperada sea la mínima en todos los modelos, y si es así, eso significa que podría haber diferentes combinaciones de sesgo y varianza que produzcan la misma pérdida mínima esperada?
  3. Si un modelo implica regularización, ¿existe una relación matemática entre el sesgo, la varianza y el coeficiente de regularización λ ?
  4. ¿Cómo puedes calcular el sesgo si no conoces el verdadero modelo?
  5. ¿Hay situaciones en las que tiene más sentido minimizar el sesgo o la varianza en lugar de la pérdida esperada (la suma del sesgo y la varianza al cuadrado)?

Respuestas:


3

... la pérdida esperada [error cuadrado] se puede descomponer en un término de sesgo cuadrado (que describe qué tan lejos están las predicciones promedio del modelo verdadero), un término de varianza (que describe la extensión de las predicciones alrededor del promedio), y un término de ruido (que da el ruido intrínseco de los datos).

Al observar la descomposición de pérdida de error al cuadrado Solo veo dos términos: uno para el sesgo y otro para la varianza del estimador o predictor, δ ( X 1 : n ) . No hay término de ruido adicional en la pérdida esperada. Como debería ser, ya que la variabilidad es la variabilidad de δ ( X 1 : n ) , no de la muestra misma.

Eθ[(θδ(X1:n))2]=(θEθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]δ(X1:n))2]
δ(X1:n)δ(X1:n)
  1. ¿Se puede realizar la descomposición de la variación de sesgo con funciones de pérdida distintas de la pérdida al cuadrado?

Mi interpretación del sesgo al cuadrado + descomposición de la varianza [y la forma en que lo enseño] es que este es el equivalente estadístico del Teorema de Pitágoras, a saber, que la distancia al cuadrado entre un estimador y un punto dentro de un determinado conjunto es la suma de la distancia al cuadrado entre un estimador y el conjunto, más la distancia al cuadrado entre la proyección ortogonal en el conjunto y el punto dentro del conjunto. Cualquier pérdida basada en una distancia con un nPara un conjunto de datos de modelo dado, ¿hay más de un modelo cuya pérdida esperada es la mínima en todos los modelos, y si es así, eso significa que podría haber diferentes combinaciones de sesgo y varianza que produzcan el La misma posición de pérdida mínima esperada de proyección ortogonal, es decir, un producto interno, es decir, esencialmente espacios de Hilbert, satisface esta descomposición.

  1. Para un conjunto de datos de modelo dado, ¿hay más de un modelo cuya pérdida esperada sea la mínima en todos los modelos, y si es así, eso significa que podría haber diferentes combinaciones de sesgo y varianza que produzcan la misma pérdida mínima esperada?

La pregunta no es clara: si al mínimo respecto a los modelos, usted se refiere entonces hay muchos ejemplos de modelos estadísticos y decisiones asociadas con una constante pérdida esperada (o riesgo ) Tomemos, por ejemplo, el MLE de una media normal.

minθEθ[(θδ(X1:n))2]
  1. ¿Cómo puedes calcular el sesgo si no conoces el verdadero modelo?

En un sentido genérico, el sesgo es la distancia entre el modelo verdadero y el modelo más cercano dentro de la familia de distribuciones asumida. Si se desconoce el verdadero modelo, el sesgo se puede determinar mediante bootstrap.

  1. ¿Hay situaciones en las que tiene más sentido minimizar el sesgo o la varianza en lugar de la pérdida esperada (la suma del sesgo y la varianza al cuadrado)?

(θEθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]δ(X1:n))2]0<α
αα

fY=f(X)+ϵϵσϵf(X)E[f^(X)]E[(Yf(X))2|X=x]σϵ2+Bias2f^(x)+Varf^(x)

f^ϵ

Hmm, por supuesto que tienes razón. Pero creo que el problema es un artefacto de mi derivación descuidada. Consulte la página 223
Miguel

ϵf^
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.