(Esta es una adaptación de Granger & Newbold (1986) "Forecasting Economic Time Series").
Por construcción, su función de costo de error es . Esto incorpora un supuesto crítico (que la función de costo de error es simétrica alrededor de cero): una función de costo de error diferente no necesariamente tendría el valor esperado condicional como de su valor esperado. No puede minimizar su función de costo de error porque contiene cantidades desconocidas. Por lo tanto, decide minimizar su valor esperado. Entonces tu función objetivo se convierte argmín.[ Y- g( X) ]2argmin
mi[ Y- g( X) ]2= ∫∞- ∞[ y- g( X) ]2FYEl | X( yEl | x)dy
que creo que responde también a tu segunda pregunta. Es intuitivo que el valor esperado será de condicionada a , ya que estamos tratando de estimar / pronosticar basado en . Descomponer el cuadrado para obtenerX Y XYXYX
mi[ Y- g( X) ]2= ∫∞- ∞y2FYEl | X( yEl | x)dy- 2 g( X) ∫∞- ∞yFYEl | X( yEl | x)dy+ [ g( X) ]2∫∞- ∞FYEl | X( yEl | x)dy
El primer término no contiene por lo que no afecta a la minimización y puede ignorarse. La integral en el segundo término es igual al valor condicional esperado de dado , y la integral en el último término es igual a la unidad. EntoncesY Xsol( X)YX
argminsol( x )mi[ Y- g( X) ]2= argminsol( x ){ -2g( X) E( Y∣ X) + [ g( X) ]2}
La primera derivada wrt es conduce a la condición de primer orden para la minimización mientras que la segunda derivada es igual a que es suficiente para un mínimo.- 2 E ( Y ∣ X ) + 2 g ( X ) g ( X ) = E ( Y ∣ X ) 2 > 0sol( X)- 2 E( Y∣ X) + 2 g( X)sol( X) = E( Y∣ X)2 > 0
APÉNDICE: La lógica del enfoque de prueba "sumar y restar".
El OP está desconcertado por el enfoque planteado en la pregunta, porque parece tautológico. No lo es, porque si bien la táctica de sumar y restar hace que una parte específica de la función objetivo sea cero para una elección arbitraria del término que se suma y resta, NO iguala la función de valor , es decir, el valor del objetivo función evaluada en el candidato minimizador.
Para la opción tenemos la función de valor
Para la elección arbitraria tenemos la función de valor .V ( E ( Y ∣ X ) ) = E [ ( Y - E ( Y ∣ X ) ) 2 ∣ X ] g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (sol( X) = E( Y∣ X)V( E( Y∣ X) ) = E[ ( Y- E( Y∣ X) )2∣ X]sol( X) = h ( X)V( h ( X) ) = E[ ( Y- h ( X) )2∣ X]
Afirmo que
⇒ E ( Y 2 ∣ X ) - 2 E [ ( Y E ( Y ∣ X ) ) ∣ X ] + E [ ( E ( Y ∣ X ) ) 2 ∣ X ]
V( E( Y∣ X) ) ≤ V( h ( X) )
⇒ E( Y2∣ X) - 2 E[ ( Ymi( Y∣ X) ) ∣ X] +E[ ( E( Y∣ X) )2∣ X]≤ E( Y2∣ X) - 2 E[ ( Yh ( X) ) ∣ X] +E[ (h(X) )2∣ X]
El primer término del LHS y el RHS se cancelan. También tenga en cuenta que la expectativa exterior está condicionada a . Por las propiedades de las expectativas condicionales terminamos conX
. . . ⇒ - 2 E( Y∣ X) ⋅ E( Y∣ X) + [ E( Y∣ X) ]2≤ - 2 E( Y∣ X) h ( X) + [ h ( X) ]2
⇒ 0 ≤ [ E( Y∣ X) ]2- 2 E( Y∣ X) h ( X) + [ h ( X) ]2
⇒ 0 ≤ [ E( Y∣ X) - h ( x ) ]2
que se mantiene con estricta desigualdad si . Entonces es el minimizador global y único.
h ( x ) ≠ E( Y∣ X)mi( Y∣ X)
Pero esto también dice que el enfoque de "sumar y restar" no es la forma más ilustrativa de prueba aquí.