Ventajas relativas de la imputación múltiple y la maximización de expectativas (EM)


8

Tengo un problema donde

y=a+b

Observo y, pero ni ni . Quiero estimarab

b=f(x)+ϵ

Puedo estimar , usando algún tipo de modelo de regresión. Esto me da . Entonces podría estimarab^

b^=f(x)+ϵ

Primer problema: un modelo de regresión para predecir podría llevar a ser negativo, lo que no tendría ningún sentido. No estoy seguro de cómo solucionar esto (no es el tipo de problema con el que he lidiado mucho), pero parece ser el tipo de cosas con las que los demás tratan habitualmente. ¿Algún tipo de GLM no gaussiano?ab^

El principal problema es cómo explicar la incertidumbre en el modelo principal que proviene de la estimación de . He usado imputación múltiple antes para covariables faltantes. Pero este es un "parámetro latente" que falta. Alternativamente, son los datos de resultados, lo que parece correcto imputar . Sin embargo, a menudo escucho sobre EM usado para parámetros "latentes". No estoy seguro de por qué, ni sé si EM es mejor en estos contextos. MI es intuitivo tanto para comprender, implementar y comunicarse. EM es intuitivo de entender, pero parece más difícil de implementar (y no lo he hecho). b^

¿Es EM superior para el tipo de problema que tengo arriba? Si es así, ¿por qué? En segundo lugar, ¿cómo se implementa en R para un modelo lineal o para un modelo semiparamétrico (GAM)?


Una idea es usar la distribución beta a modelo y a continuación, establecerc=ayb^=y(1c^)
probabilityislogic

Respuestas:


1

Si tiene sentido o no usar GLM depende de la distribución de . Me inclinaría a usar un modelo de mínimos cuadrados no lineales para todo.y

Entonces, si su modelo de regresión es donde son los predictores y son los parámetros en el modelo de regresión para , y su modelo para es pero donde está restringido a ser no negativo, podría escribir y ajustar un modelo como este:a=Zα+νZαabb=f(x)+ϵf(x)f(x)=exp(ψ(x))

y=Zα+exp(ψ(x))+η

donde es la suma de los dos términos de ruido individuales. (Si realmente tiene la intención de que sin ningún error en absoluto, debe hacerlo de manera diferente; eso no es realmente un problema de estadísticas tanto como un problema de aproximación y probablemente desee ver las normas de infinito en ese momento).ηy=a+b

Si pone una spline de regresión cúbica para esa sería una manera fácil de obtener alguna función general suave. Ese modelo podría ajustarse mediante mínimos cuadrados no lineales. (De hecho, algunos algoritmos pueden aprovechar la linealidad de para simplificar y acelerar el cálculo).ψa

Dependiendo de lo que se asume sobre o , hay otras cosas que usted puede hacer en su lugar.yf

Eso realmente no aborda el problema de imputación todavía. Sin embargo, este tipo de marco modelo se puede insertar en algo como su sugerencia de usar EM.


Gracias por el comentario. De hecho, y = a + b sin error (o más precisamente, el error es ignorable e ignorado). Aún más precisamente, y, a y b están todos indefinidos por debajo de cero. Entonces, mi regresión donde modelo a no puede darme que tenga elementos menores que cero. He estado evitando esto codificando los valores ajustados (y la codificación superior para que no conduzcan b -> <0), pero esto es un truco y puede haber soluciones más elegantes. a^
generic_user

Creo que es mucha información pertinente que debería explicarse en su pregunta.
Glen_b -Reinstale a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.