Derivación de la transformación de normalización para GLM


15

¿Cómo es la transformación normalizadora A ( ) = d uV 1 / 3 ( μ )A()=duV1/3(μ) para la familia exponencial ¿derivado?

Más específicamente : intenté seguir el boceto de expansión de Taylor en la página 3, diapositiva 1 aquí, pero tengo varias preguntas. Con XX de una familia exponencial, la transformación h ( X )h(X) y κ iκi denotando el acumulado i t hith , las diapositivas sostienen que: κ 3 ( h ( ˉ X ) ) h ( μ ) 3 κ 3 ( ˉ X )N 2 +3h(μ)2h(μ)σ4N +O(N-3),

κ3(h(X¯))h(μ)3κ3(X¯)N2+3h(μ)2h′′(μ)σ4N+O(N3),
y queda por encontrar simplemente h ( X )h(X) modo que lo anterior se evalúe a 0.
  1. Mi primera pregunta es sobre aritmética: mi expansión Taylor tiene diferentes coeficientes, y no puedo justificar que hayan eliminado muchos de los términos.

    Desde  h ( x )h ( μ ) + h ( μ ) ( x - μ ) + h ( x )2 (x-μ)2, tenemos:h( ˉ X )-h(u)h ( u ) ) ( ˉ X - μ ) + h ( x )2 ( ˉ X -μ)2E(h( ˉ X )-h(u))3h ( μ ) 3 E ( ˉ X - μ ) 3 + 32 h(μ)2h(μ)E( ˉ X - μ ) 4 +34 h(μ)h(μ)2E( ˉ X -μ)5+18h(μ)3E(ˉXμ)6.

    Since h(x)h(X¯)h(u)E(h(X¯)h(u))3h(μ)+h(μ)(xμ)+h′′(x)2(xμ)2, we have:h(u))(X¯μ)+h′′(x)2(X¯μ)2h(μ)3E(X¯μ)3+32h(μ)2h′′(μ)E(X¯μ)4+34h(μ)h′′(μ)2E(X¯μ)5+18h′′(μ)3E(X¯μ)6.

    Puedo llegar a algo similar al reemplazar los momentos centrales por sus equivalentes acumulativos, pero aún así no cuadra.

  2. La segunda pregunta: ¿por qué el análisis comienza con ˉXX¯ lugar de XX , la cantidad que realmente nos importa?


que parecen tener uu varias veces en que usted se refiere a μμ
Glen_b -Reinstate Monica

Respuestas:


2

Las diapositivas a las que enlaza son algo confusas, omiten pasos y hacen algunos errores tipográficos, pero en última instancia son correctas. Ayudará a responder la pregunta 2 primero, luego 1, y finalmente derivar la transformación simétrica .A(u)=u1[V(θ)]1/3dθA(u)=u1[V(θ)]1/3dθ

Pregunta 2. Estamos analizando ya que es la media de una muestra de tamaño de las variables aleatorias iid . Esta es una cantidad importante porque tomar muestras de la misma distribución y tomar la media ocurre todo el tiempo en la ciencia. Queremos saber qué tan cerca está de la verdadera media . El teorema del límite central dice que convergerá a como pero nos gustaría saber la varianza y asimetría deˉXX¯NNX1,...,XNX1,...,XNˉXX¯μμμμNNˉXX¯ .

Pregunta 1. La aproximación de su serie Taylor no es incorrecta, pero debemos tener cuidado al hacer un seguimiento de vs. y las potencias de para llegar a la misma conclusión que las diapositivas. Comenzaremos con las definiciones de y los momentos centrales de y la fórmula para :ˉXX¯XiXiNNˉXX¯XiXiκ3(h(ˉX))κ3(h(X¯))

ˉX=1NNi=1XiX¯=1NNi=1Xi

E[Xi]=μE[Xi]=μ

V(Xi)=E[(Xiμ)2]=σ2V(Xi)=E[(Xiμ)2]=σ2

κ3(Xi)=E[(Xiμ)3]κ3(Xi)=E[(Xiμ)3]

Ahora, los momentos centrales de :ˉXX¯

E[ˉX]=1NNi=1E[Xi]=1N(Nμ)=μE[X¯]=1NNi=1E[Xi]=1N(Nμ)=μ

V(ˉX)=E[(ˉXμ)2]=E[((1NNi=1Xi)μ)2]=E[(1NNi=1(Xiμ))2]=1N2(NE[(Xiμ)2]+N(N1)E[Xiμ]E[Xjμ])=1Nσ2V(X¯)=E[(X¯μ)2]=E[((1Ni=1NXi)μ)2]=E[(1Ni=1N(Xiμ))2]=1N2(NE[(Xiμ)2]+N(N1)E[Xiμ]E[Xjμ])=1Nσ2

El último paso sigue desde , y . Puede que esta no haya sido la derivación más fácil de , pero es el mismo proceso que debemos hacer para encontrar y , donde separamos un producto de una suma y contamos el número de términos con potencias de diferentes variables. En el caso anterior, había términos que tenían la forma y términos de la forma .E[Xiμ]=0E[Xiμ]=0E[(Xiμ)2]=σ2E[(Xiμ)2]=σ2V(ˉX)V(X¯)κ3(ˉX)κ3(X¯)κ3(h(ˉX))κ3(h(X¯))NN(Xiμ)2(Xiμ)2N(N1)N(N1)(Xiμ)(Xjμ)(Xiμ)(Xjμ)

κ3(ˉX)=E[(ˉXμ)3)]=E[((1NNi=1Xi)μ)3]=E[(1NNi=1(Xiμ))3]=1N3(NE[(Xiμ)3]+3N(N1)E[(Xiμ)E[(Xjμ)2]+N(N1)(N2)E[(Xiμ)]E[(Xjμ)]E[(Xkμ)]=1N2E[(Xiμ)3]=κ3(Xi)N2κ3(X¯)=E[(X¯μ)3)]=E[((1Ni=1NXi)μ)3]=E[(1Ni=1N(Xiμ))3]=1N3(NE[(Xiμ)3]+3N(N1)E[(Xiμ)E[(Xjμ)2]+N(N1)(N2)E[(Xiμ)]E[(Xjμ)]E[(Xkμ)]=1N2E[(Xiμ)3]=κ3(Xi)N2

A continuación, expandiremos en una serie de Taylor como usted tiene:h(ˉX)h(X¯)

h(ˉX)=h(μ)+h(μ)(ˉXμ)+12h(μ)(ˉXμ)2+13h(μ)(ˉXμ)3+...h(X¯)=h(μ)+h(μ)(X¯μ)+12h′′(μ)(X¯μ)2+13h′′′(μ)(X¯μ)3+...

E[h(ˉX)]=h(μ)+h(μ)E[ˉXμ]+12h(μ)E[(ˉXμ)2]+13h(μ)E[(ˉXμ)3]+...=h(μ)+12h(μ)σ2N+13h(μ)κ3(Xi)N2+...E[h(X¯)]=h(μ)+h(μ)E[X¯μ]+12h′′(μ)E[(X¯μ)2]+13h′′′(μ)E[(X¯μ)3]+...=h(μ)+12h′′(μ)σ2N+13h′′′(μ)κ3(Xi)N2+...

Con un poco más de esfuerzo, podría probar que el resto de los términos son . Finalmente, dado que , (que no es lo mismo queO(N3)O(N3)κ3(h(ˉX))=E[(h(ˉX)E[h(ˉX)])3]κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]E[(h(ˉX)h(μ))3]E[(h(X¯)h(μ))3] ), nuevamente hacemos un cálculo similar:

κ3(h(ˉX))=E[(h(ˉX)E[h(ˉX)])3]=E[(h(μ)+h(μ)(ˉXμ)+12h(μ)(ˉXμ)2+O((ˉXμ)3)h(μ)12h(μ)σ2NO(N2))3]κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]=E[(h(μ)+h(μ)(X¯μ)+12h′′(μ)(X¯μ)2+O((X¯μ)3)h(μ)12h′′(μ)σ2NO(N2))3]

Solo nos interesan los términos que dan como resultado el orden , y con un trabajo adicional puede demostrar que no necesita los términos " "o" "antes de tomar la tercera potencia, ya que solo darán como resultado el ordenO(N2)O(N2)O((ˉXμ)3)O((X¯μ)3)O(N2)O(N2)O(N3)O(N3) . Entonces, simplificando, obtenemos

κ3(h(ˉX))=E[(h(μ)(ˉXμ)+12h(μ)(ˉXμ)212h(μ)σ2N))3]=E[h(μ)3(ˉXμ)3+18h(μ)3(ˉXμ)618h(μ)3σ6N3+32h(μ)2h(μ)(ˉXμ)4+34h(μ)h(μ)(ˉXμ)532h(μ)2h(μ)(ˉXμ)2σ2N+O(N3)]κ3(h(X¯))=E[(h(μ)(X¯μ)+12h′′(μ)(X¯μ)212h′′(μ)σ2N))3]=E[h(μ)3(X¯μ)3+18h′′(μ)3(X¯μ)618h′′(μ)3σ6N3+32h(μ)2h′′(μ)(X¯μ)4+34h(μ)h′′(μ)(X¯μ)532h(μ)2h′′(μ)(X¯μ)2σ2N+O(N3)]

Dejé algunos términos que obviamente eran en este producto. Tendrá que convencerse de que los términos y son también. Sin embargo,O(N3)O(N3)E[(ˉXμ)5]E[(X¯μ)5]E[(ˉXμ)6]E[(X¯μ)6]O(N3)O(N3)

E[(ˉXμ)4]=E[1N4(Ni=1(ˉXμ))4]=1N4(NE[(Xiμ)4]+3N(N1)E[(Xiμ)2]E[(Xjμ)2]+0)=3N2σ4+O(N3)E[(X¯μ)4]=E[1N4(i=1N(X¯μ))4]=1N4(NE[(Xiμ)4]+3N(N1)E[(Xiμ)2]E[(Xjμ)2]+0)=3N2σ4+O(N3)

Luego distribuyendo la expectativa en nuestra ecuación paraκ3(h(ˉX))κ3(h(X¯)) , tenemos

κ3(h(ˉX))=h(μ)3E[(ˉXμ)3]+32h(μ)2h(μ)E[(ˉXμ)4]32h(μ)2h(μ)E[(ˉXμ)2]σ2N+O(N3)=h(μ)3κ3(Xi)N2+92h(μ)2h(μ)σ4N232h(μ)2h(μ)σ4N2+O(N3)=h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2+O(N3)κ3(h(X¯))=h(μ)3E[(X¯μ)3]+32h(μ)2h′′(μ)E[(X¯μ)4]32h(μ)2h′′(μ)E[(X¯μ)2]σ2N+O(N3)=h(μ)3κ3(Xi)N2+92h(μ)2h′′(μ)σ4N232h(μ)2h′′(μ)σ4N2+O(N3)=h(μ)3κ3(Xi)N2+3h(μ)2h′′(μ)σ4N2+O(N3)

Esto concluye la derivación de . Ahora, por fin, derivaremos la transformación simétrica .κ3(h(ˉX))κ3(h(X¯))A(u)=u1[V(θ)]1/3dθA(u)=u1[V(θ)]1/3dθ

Para esta transformación, es importante que sea ​​de una distribución familiar exponencial, y en particular una familia exponencial natural (o se haya transformado en esta distribución), de la formaXiXifXi(x;θ)=h(x)exp(θxb(θ))fXi(x;θ)=h(x)exp(θxb(θ))

En este caso, los acumulantes de la distribución están dados por . Entonces, , y . Podemos escribir el parámetro en función de simplemente tomando el inverso de , escribiendoκk=b(k)(θ)κk=b(k)(θ)μ=b(θ)μ=b(θ)σ2=V(θ)=b(θ)σ2=V(θ)=b′′(θ)κ3=b(θ)κ3=b′′′(θ)θθμμbbθ(μ)=(b)1(μ)θ(μ)=(b)1(μ) . Luego

θ(μ)=1b((b)1(μ))=1b(θ))=1σ2θ(μ)=1b′′((b)1(μ))=1b′′(θ))=1σ2

A continuación, podemos escribir la varianza como una función de , y llamar a esta función :μμˉVV¯

ˉV(μ)=V(θ(μ))=b(θ(μ))V¯(μ)=V(θ(μ))=b′′(θ(μ))

Luego

ddμˉV(μ)=V(θ(μ))θ(μ)=b(θ)1σ2=κ3σ2ddμV¯(μ)=V(θ(μ))θ(μ)=b′′′(θ)1σ2=κ3σ2

Entonces, en función de , .μμκ3(μ)=ˉV(μ)ˉV(μ)κ3(μ)=V¯(μ)V¯(μ)

Ahora, para la transformación simétrica, queremos reducir el sesgo de haciendo para que sea . Por lo tanto, queremosh(ˉX)h(X¯)h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2=0h(μ)3κ3(Xi)N2+3h(μ)2h′′(μ)σ4N2=0h(ˉX)h(X¯)O(N3)O(N3)

h(μ)3κ3(Xi)+3h(μ)2h(μ)σ4=0h(μ)3κ3(Xi)+3h(μ)2h′′(μ)σ4=0

Sustituyendo nuestras expresiones por y como funciones de , tenemos:σ2σ2κ3κ3μμ

h(μ)3ˉV(μ)ˉV(μ)+3h(μ)2h(μ)ˉV(μ)2=0h(μ)3V¯(μ)V¯(μ)+3h(μ)2h′′(μ)V¯(μ)2=0

Entonces , lo que lleva a .h(μ)3ˉV(μ)+3h(μ)2h(μ)ˉV(μ)=0h(μ)3V¯(μ)+3h(μ)2h′′(μ)V¯(μ)=0ddμ(h(μ)3ˉV(μ))=0ddμ(h(μ)3V¯(μ))=0

Una solución a esta ecuación diferencial es:

h(μ)3ˉV(μ)=1h(μ)3V¯(μ)=1 ,

h(μ)=1[ˉV(μ)]1/3h(μ)=1[V¯(μ)]1/3

Entonces, , para cualquier constante, . Esto nos da la transformación simétrica , donde es la varianza como una función de la media en una familia exponencial natural.h(μ)=μc1[ˉV(θ)]1/3dθcA(u)=u1[V(θ)]1/3dθV


1

1. ¿ qué no puedo obtener el mismo resultado al aproximarme en términos de momentos no centrales y luego calcular los momentos centrales usando los momentos no centrales aproximados?EˉXkE(ˉXEˉX)k

Porque cambia la derivación arbitrariamente y elimina el término de residuo que es importante. Si no está familiarizado con la notación O grande y los resultados relevantes, una buena referencia es [Casella & Lehmann].

h(ˉX)h(u)h(u)(ˉXμ)+h(x)2(ˉXμ)2+O[(ˉXμ)3]

E[h(ˉX)h(u)]h(u)E(ˉXμ)+h(x)2E(ˉXμ)2+(?)

Pero incluso si no deja caer el residuo argumentando que siempre está haciendo (que no es legal ...), el siguiente paso: dice queN\E(h(ˉX)h(u))3h(μ)3\E(ˉXμ)3+32h(μ)2h(μ)\E(ˉXμ)4+34h(μ)h(μ)2\E(ˉXμ)5+18h(μ)3\E(ˉXμ)6.(1)

[h(x)h(x0)]3dx=[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3dx=(1)

si esto aún no está claro, podemos ver que el álgebra de expandir el integrando funciona como

[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3(2)

Dejar , ,A=h(x0)(xx0)B=12h(x0)(xx0)2C=O((xx0)3) (2)=[A+B+C]3 [A3+3A2B+3AB2+B3]=[A+B]3=(1)

Su error es omitir el residuo antes de la expansión, que es un error "clásico" en la notación O grande y luego se convirtió en una crítica del uso de la notación O grande.

2. ¿Por qué el análisis comienza con lugar deˉXX , la cantidad que realmente nos importa?

Porque queremos basar nuestro análisis en las estadísticas suficientes del modelo exponencial que estamos introduciendo. Si tiene una muestra de tamaño 1, no hay diferencia si analiza con OˉX=1nni=1XiX1 .

Esta es una buena lección en notación O grande, aunque no es relevante para GLM ...

Referencia [Casella y Lehmann] Lehmann, Erich Leo y George Casella. Teoría de la estimación puntual. Springer Science & Business Media, 2006.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.