¿Por qué GLM es diferente de un LM con variable transformada?


16

Como se explica en este folleto del curso (página 1) , se puede escribir un modelo lineal en la forma:

y=β1x1++βpxp+εi,

donde es la variable de respuesta y es la variable explicativa .yxiith

A menudo, con el objetivo de cumplir con los supuestos de la prueba, se puede transformar la variable de respuesta. Por ejemplo, aplicamos la función de registro en cada . Transformar una variable de respuesta NO equivale a hacer un GLM.yi

Se puede escribir un GLM en el siguiente formulario (del folleto del curso nuevamente (página 3) )

g(u)=β1x1++βpxp+εi,

donde es solo otro símbolo para como entiendo de la página 2 en el folleto del curso.uyg() se llama la función de enlace.

Realmente no entiendo la diferencia entre un GLM y un LM con una variable transformada de las diapositivas en el curso. ¿Me puede ayudar con eso?


2
Puede resultarle esclarecedor considerar el hecho de que todas las transformaciones de un resultado binario son afines, lo que lo limitaría a una regresión de mínimos cuadrados ordinarios. Obviamente, esto no es lo que está logrando la regresión logística (un GLM estándar para respuestas binarias). (Prueba: deje que los valores de resultado se codifiquen como e y 1 y deje que ϕ sea ​​cualquier transformación. Al escribir z 0 = ϕ ( y 0 ) y z 1 = ϕ ( y 1 ) encontramos que ϕ concuerda en { yy0y1ϕz0=ϕ(y0)z1=ϕ(y1)ϕ con y λ y + μ (que es una transformación afín de y ) donde λ = ( z 1 - z 0 ) / ( y 1 - y 0 ) y μ = z 0 - λ y 0. ){y0,y1}yλy+μyλ=(z1z0)/(y1y0)μ=z0λy0
whuber

Respuestas:


15

Transformar la respuesta antes de hacer una regresión lineal es hacer esto:

E(g(Y))β0+β1x1++βpxp

donde es una función dada, y suponemos que g ( Y ) tiene una distribución dada (generalmente normal).gg(Y)

Un modelo lineal generalizado está haciendo esto:

g(E(Y))β0+β1x1++βpxp

donde es igual que antes, y suponemos que Y tiene una distribución dada (generalmente no es normal).gY


¿Qué es E en tu ecuación?
user1406647

1
es la notación estándar para el valor esperado de X . E(X)X
Marcus PS


22

No estoy seguro de si esto constituirá una respuesta completa para usted, pero puede ayudar a liberar el logjam conceptual.

Parece que hay dos conceptos erróneos en su cuenta:

  1. Tenga en cuenta que la regresión de mínimos cuadrados ordinarios (MCO - 'lineal') es un caso especial del modelo lineal generalizado. Por lo tanto, cuando dice "[t] ransformar una variable de respuesta NO equivale a hacer un GLM", esto es incorrecto. Ajustar un modelo lineal o transformar la variable de respuesta y luego ajustar un modelo lineal, ambos constituyen 'hacer un GLM'.

  2. uμXuyYyiYiy

    (No me refiero a insistir en los errores, solo sospecho que pueden estar causando confusión).

  3. También hay otro aspecto del modelo lineal generalizado que no veo mencionar. Es decir, especificamos una distribución de respuesta. En el caso de la regresión OLS, la distribución de respuesta es gaussiana (normal) y la función de enlace es la función de identidad. En el caso de, por ejemplo, la regresión logística (que puede ser lo que las personas piensan primero cuando piensan en GLM), la distribución de la respuesta es el Bernoulli (/ binomial) y la función de enlace es el logit. Cuando se utilizan transformaciones para garantizar que se cumplan los supuestos de OLS, a menudo intentamos que la distribución de respuesta condicional sea aceptablemente normal. Sin embargo, tal transformación no hará que la distribución de Bernoulli sea aceptablemente normal.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.