Confundido por la derivación de la función de regresión

Acabo de recibir una copia de Los elementos del aprendizaje estadístico de Hastie, Tibshirani y Friedman. En el capítulo 2 (Descripción general del aprendizaje supervisado), sección 4 (Teoría de decisión estadística), ofrece una derivación de la función de regresión.

Supongamos que denota un vector de entrada aleatorio con valor real, e una variable de salida aleatoria con valor real, con distribución conjunta . Buscamos una función para predecir valores dados de la entrada . Esta teoría requiere una función de pérdida para penalizar los errores en la predicción, y con mucho, el más común y conveniente es la pérdida de error al cuadrado: . Esto nos lleva a un criterio para elegir , $X \in \mathbb{R}^p$ $Y\in\mathbb{R}$ $Pr(X,Y)$ $f(X)$ $Y$ $X$ $L(Y,f(X))$ $L(Y,f(X))=(Y −f(X))^2$ $f$

$\begin{aligned} E P E (f) & = E (Y - f (X))^{2} \\ = \int [y - f (x)]^{2} P r (d x, d y) \end{aligned}$ $\begin{align*} EPE(f) &= E(Y-f(X))^2 \\ &= \int [y - f(x)]^2Pr(dx, dy)\end{align*}$ lo esperado (cuadrado) error de predicción.

Entiendo completamente la configuración y la motivación. Mi primera confusión es: ¿quiere decir o ? Segundo, nunca he visto la notación . ¿Alguien que me haya explicado su significado? ¿Es solo que ? Por desgracia, mi confusión no termina ahí, $E[(Y - f(x))]^2$ $E[(Y - f(x))^2]$ $Pr(dx,dy)$ $Pr(dx) = Pr(x)dx$

Al condicionar , podemos escribir como $X$ $EPE$
$\begin{aligned} E P E (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X) \end{aligned}$ $\begin{align*}EPE(f) = E_XE_{Y|X}([Y-f(X)]^2|X)\end{align*}$

Me falta la conexión entre estos dos pasos, y no estoy familiarizado con la definición técnica de "condicionamiento". ¡Avísame si puedo aclarar algo! Creo que la mayor parte de mi confusión ha surgido de una notación desconocida; Estoy seguro de que, si alguien puede dividir esta derivación en un inglés simple, lo entenderé. Gracias estadísticas.

regression statistical-learning

— Orangutango
fuente

Para su primera confusión, debe ser Expectativa de error al cuadrado, por lo que es $E[(Y-f(x))^2].$

Para la notación de , es igual a , donde es el pdf conjunto de x e y. Y , esto puede interpretarse como la probabilidad de que x esté dentro de un pequeño intervalo de es igual al valor de pdf en el punto , es decir, veces la longitud del intervalo . $Pr(dx,dy)$ $g(x,y)\,dx\,dy$ $g(x,y)$ $Pr(dx)=f(x)\,dx$ $[x,x+dx]$ $x$ $f(x)$ $dx$

La ecuación de la EPE se deriva del teorema para cualquier par de variables aleatorias y . Puede probar esto usando la distribución condicional. La expectativa condicional es la expectativa calculada usando la distribución condicional. La distribución condicional significa la probabilidad de después de saber algo acerca de . $E(E(Y|X))=E(Y)$ $X$ $Y$ $Y|X$ $Y$ $X$

En nuestro caso, supongamos que denotamos el error al cuadrado como una función , el EPE está calculando $L(x,y)=(y-f(x))^2$

\begin{aligned} E (L (x, y)) & = \int \int L (x, y) g (x, y) d x d y \\ = \int [\int L (x, y) g (y | x) g (x) d y] d x \\ = \int [\int L (x, y) g (y | x) d y] g (x) d x \\ = \int [E_{Y | X} (L (x, y)] g (x) d x \\ = E_{X} (E_{Y | X} (L (x, y))) \end{aligned}

$\begin{equation}\begin{split}E(L(x,y))&=\int\int L(x,y)g(x,y)dx\,dy \\ &=\int\bigg[\int L(x,y)g(y|x)g(x)dy\bigg]dx \\ &=\int\bigg[\int L(x,y)g(y|x)dy\bigg]g(x)dx \\ &=\int\bigg[E_{Y|X} (L(x,y)\bigg]g(x)dx \\ &=E_X(E_{Y|X} (L(x,y)))\end{split}\end{equation}$

El resultado anterior corresponde al resultado que usted enumeró. Espero que esto pueda ayudarte un poco.

— alemán
fuente

Para el resultado final después del acondicionamiento, el libro también tiene la | X, mientras que el resultado final de esta respuesta no se encuentra. ¿Es importante?

— robertmartin8