Estoy leyendo aprendizaje profundo por Ian Goodfellow et al. Introduce el sesgo como
donde y son el parámetro estimado y el parámetro real subyacente, respectivamente.
La consistencia, por otro lado, está definida por
lo que significa que para cualquier , como
Luego dice que la consistencia implica imparcialidad pero no viceversa:
La consistencia asegura que el sesgo inducido por el estimador disminuye a medida que crece el número de ejemplos de datos. Sin embargo, lo contrario no es cierto: la imparcialidad asintótica no implica consistencia. Por ejemplo, considere estimar el parámetro medio μ de una distribución normal N (x; μ, σ2), con un conjunto de datos que consta de m muestras: . Podríamos usar la primera muestra del conjunto de datos como un estimador imparcial: \ hatθ = x ^ {(1)} . En ese caso, E (\ hat θ_m) = θ por lo que el estimador es imparcial sin importar cuántos puntos de datos se vean. Esto, por supuesto, implica que la estimación es asintóticamente imparcial. Sin embargo, este no es un estimador consistente ya que no es el caso de que \ hatθ_m → θ como
No estoy seguro de haber entendido correctamente el párrafo anterior y los conceptos de imparcialidad y consistencia, espero que alguien pueda ayudarme a verificarlo. Gracias por adelantado.
Según tengo entendido, la coherencia implica imparcialidad y baja varianza y, por lo tanto, la imparcialidad por sí sola no es suficiente para implicar coherencia.