Para calcular las predicciones promediadas por el modelo en la escala de respuesta de un GLM, ¿cuál es "correcto" y por qué?
- Calcule la predicción promedio del modelo en la escala del enlace y luego vuelva a transformar a la escala de respuesta, o
- Transforme las predicciones a la escala de respuesta y luego calcule el promedio del modelo
Las predicciones son cercanas pero no iguales si el modelo es un GLM. Los diferentes paquetes R ofrecen opciones para ambos (con diferentes valores predeterminados). Varios colegas han argumentado vociferantemente que # 1 está mal porque "todos hacen # 2". Mi intuición dice que el n. ° 1 es "correcto", ya que mantiene todas las matemáticas lineales (el n. ° 2 promedia las cosas que no están en una escala lineal). Una simulación simple descubre que el n. ° 2 tiene un MSE muy (¡muy!) Ligeramente más pequeño que el n. ° 1. Si el número 2 es correcto, ¿cuál es el motivo? Y, si el número 2 es correcto, ¿por qué mi razón (mantener lineal la matemática lineal) es un razonamiento deficiente?
Edición 1: Calcular medios marginales sobre los niveles de otro factor en un GLM es un problema similar a la pregunta que estoy haciendo más arriba. Russell Lenth calcula medios marginales de los modelos GLM utilizando el "tiempo" (sus palabras) del n. ° 1 (en el paquete emmeans) y su argumento es similar a mi intuición.
Edición 2: estoy usando el promedio de modelos para referirme a la alternativa a la selección de modelos donde una predicción (o un coeficiente) se estima como el promedio ponderado sobre todos o un subconjunto de "mejores" modelos anidados (ver referencias y paquetes R a continuación) .
Dados los modelos anidados, donde es la predicción lineal (en el espacio del enlace) para el individuo para el modelo , y es el peso para el modelo , la predicción promediada del modelo usando el n. ° 1 anterior (promedio en el enlace escala y luego volver a transformar a la escala de respuesta) es:η m i i m w m m
y la predicción promediada por el modelo usando el n. ° 2 anterior (transforma de nuevo todas las predicciones y luego el promedio en la escala de respuesta) es:
Algunos métodos bayesianos y frecuentes de promediación de modelos son:
Hoeting, JA, Madigan, D., Raftery, AE y Volinsky, CT, 1999. Promedio de modelos bayesianos: un tutorial. Ciencia estadística, pp.382-401.
Burnham, KP y Anderson, DR, 2003. Selección de modelos e inferencia multimodelo: un enfoque práctico teórico de la información. Springer Science & Business Media.
Hansen, BE, 2007. Promedio del modelo de mínimos cuadrados. Econometrica, 75 (4), pp.1175-1189.
Claeskens, G. y Hjort, NL, 2008. Selección y promedio de modelos. Cambridge Books.
Los paquetes R incluyen BMA , MuMIn , BAS y AICcmodavg . (Nota: esta no es una pregunta sobre la sabiduría de promediar modelos en general).