Descomposición de variación de sesgo: término para el error de pronóstico al cuadrado esperado menos error irreducible

Hastie y col. "Los elementos del aprendizaje estadístico" (2009) consideran un proceso de generación de datos con y .

Y = f (X) + ε

$Y = f(X) + \varepsilon$

E (ε) = 0

$\mathbb{E}(\varepsilon)=0$

Var (ε) = σ_{ε}^{2}

$\text{Var}(\varepsilon)=\sigma^2_{\varepsilon}$

Presentan la siguiente descomposición de sesgo-varianza del error de pronóstico cuadrado esperado en el punto (p. 223, fórmula 7.9): $x_0$ En mi propio trabajo no especifico, pero tomo una proyección arbitraria en su lugar (si es relevante). Pregunta:Estoy buscando un término para o, más precisamente,

\begin{aligned} Err (x_{0}) & = E ([y - \hat{f} (x_{0})]^{2} | X = x_{0}) \\ = \dots \\ = σ_{ε}^{2} + {Bias}^{2} (\hat{f} (x_{0})) + Var (\hat{f} (x_{0})) \\ = Irreducible error + {Bias}^{2} + Variance . \end{aligned}

$\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) + \text{Var}(\hat f(x_0)) \\ &= \text{Irreducible error} + \text{Bias}^2 + \text{Variance} .\\ \end{aligned}$

\hat{f} (\cdot)

$\hat f(\cdot)$

\hat{y}

$\hat y$

{Bias}^{2} + Variance

$\text{Bias}^2 + \text{Variance}$

Err (x_{0}) - Irreducible error .

$\text{Err}(x_0) - \text{Irreducible error}.$

— Richard Hardy
fuente

¿Cuál es la pregunta aquí?

— Michael R. Chernick

@sntx, gracias por la idea. Pero de alguna manera no suena bien. Tal vez un error de modelado (es decir, error debido a una especificación errónea del modelo y una estimación imprecisa del modelo), pero entonces no tiene sentido si no hay un modelo generador de pronósticos (por ejemplo, pronósticos expertos).

— Richard Hardy

@DeltaIV, eso es bastante bueno. Sin embargo, creo que el término está cargado; parece que el pronóstico es malo y podríamos hacerlo mejor. Pero supongamos que hicimos nuestro mejor esfuerzo para los datos dados. Por lo tanto, hemos elegido el modelo correcto (sin "sesgo de modelo"), pero la muestra es demasiado pequeña para estimar perfectamente los coeficientes. Por lo tanto, la varianza de estimación ("varianza del modelo") es realmente irreducible para el tamaño de muestra dado, mientras que el término "error reducible" sugiere que este no es el caso. No es que esté seguro de que podamos encontrar un término mejor, todavía me gustaría luchar por eso.

— Richard Hardy

@DeltaIV, OK, ahora tengo la intuición en qué sentido es reducible. Aún así, el término puede ser engañoso si se usa sin más explicaciones (tal como me lo explicaron). Su última sugerencia es precisa, lo cual es realmente agradable, pero tal como lo dijo, es bastante complicada.

— Richard Hardy

@ DeltaIV, no tenía la intención de sonar así. Esto no es nada personal; mis (con suerte convincentes) argumentos están arriba en los comentarios. Pero gracias por tener la discusión conmigo, ayuda.

— Richard Hardy

Respuestas:

Propongo un error reducible . Esta es también la terminología adoptada en el párrafo 2.1.1 de Gareth, Witten, Hastie & Tibshirani, An Introduction to Statistical Learning , un libro que es básicamente una simplificación de ESL + algunos laboratorios de código R muy interesantes (excepto por el hecho de que usan attach, pero, oye, nadie es perfecto). A continuación enumeraré las razones de los pros y los contras de esta terminología.

$\epsilon$ $X$ $\epsilon$ $X$ $\mathcal{H}$ $\sigma^2_{\epsilon}$

$\text{Err}(x_0)-\sigma^2_{\epsilon}$

f (x) = E [Y | X = x]

$f(x)=\mathbb{E}[Y\vert X=x]$

$\mathbb{E}[Y\vert X=x]\in \mathcal{H}$ $\mathbb{E}[Y\vert X=x]\notin \mathcal{H}$ $\hat{f}(x)$ en nuestra familia de modelos.

$\mathcal{H}$ $\mathbb{E}[Y\vert X=x]$ $\sigma^2_{\epsilon}$ $\mathcal{H}$ $\epsilon\perp X$

— DeltaIV
fuente

Si el ruido es el error irreducible, no es irreducible. Necesitas motivar esto de alguna manera, no puedo hacerlo por mí mismo.

— Carl

En 2.1.1, el ejemplo es "ensayo de algún fármaco en la sangre". El primer ejemplo que doy a continuación es exactamente eso. En ese ensayo, el llamado error irreducible de medición no es nada por el estilo. Se compone de ruido de conteo, que generalmente se reduce contando 10000 o más eventos, error de pipeteo, que se distribuye casi exponencialmente, y otros errores técnicos. Para reducir aún más estos errores "irreducibles", recomiendo usar la mediana de tres tubos de conteo para cada muestra de tiempo. El término irreducible es mala jerga, inténtalo de nuevo.

— Carl

@ Delta, gracias por la respuesta. Un "error reducible" de una línea podría no haber sido muy convincente, pero dado el contexto y la discusión, ¡parece bastante bueno!

— Richard Hardy

n

$n$

n

$n$

@DeltaV Creo que la reducibilidad es una suposición dudosa, ver más abajo.

— Carl

$1-R^2$ $y$ $n$ $n$

¿Por qué no me gusta el término "reducibilidad"? Parece una tautología autorreferencial como en el Axioma de la reducibilidad . Estoy de acuerdo con Russell 1919 en que "no veo ninguna razón para creer que el axioma de la reducibilidad sea lógicamente necesario, que es lo que significaría decir que es cierto en todos los mundos posibles. La admisión de este axioma en un sistema de la lógica es, por lo tanto, un defecto ... una suposición dudosa ".

$n=36$

Es notable que, a medida que se cae la primera muestra a los cinco minutos, la física mejora como lo hace secuencialmente a medida que se continúan bajando las primeras muestras a 60 minutos. Esto muestra que aunque el GV finalmente forma un buen modelo para la concentración plasmática de la droga, algo más está sucediendo durante los primeros tiempos.

$1\%$

$y$

— Carl
fuente

De hecho, de esto se trata la descomposición anterior. Pero su respuesta serviría mejor como un comentario, ya que no aborda la pregunta real. O lo hace?

— Richard Hardy

{Bias}^{2} + Variance

$\text{Bias}^2+\text{Variance}$

Una vez más, estás respondiendo una pregunta diferente. Desafortunadamente, una respuesta correcta a una pregunta incorrecta es una respuesta incorrecta (una nota para mí mismo: casualmente, les estaba explicando esto a mis estudiantes de pregrado ayer). No estoy preguntando qué tan significativa es la expresión (es significativa para alguien que ha leído el libro de texto de ESL y / o ha trabajado en el aprendizaje automático aplicado), estoy pidiendo un término apropiado para ello. La pregunta es positiva, no normativa. Y es bastante simple y muy concreto.

— Richard Hardy

@ RichardHardy Sin la física, la pregunta fue difícil de comprender para mí. Cambié mi respuesta, ver el registro erróneo arriba.

— Carl

Puede hacer eso para estimar el proceso, sí, y esa es la parte de error reducible. Pero cuando pronostica un evento concreto que incluye el lanzamiento de la moneda, no hay forma de que pueda reducir el error asociado con la predicción errónea del resultado del lanzamiento de la moneda. De esto se trata el error irreducible. Interesante: en un mundo puramente determinista no habría errores irreductibles por definición, por lo que si su visión del mundo es completamente determinista, entonces podría entender lo que quiere decir. Sin embargo, el mundo es estocástico en "Los elementos del aprendizaje estadístico" y en las estadísticas en general.

— Richard Hardy