Al modelar datos de recuento de reclamos en un entorno de seguro, comencé con Poisson pero luego noté una sobredispersión. Un Cuasi-Poisson mejor modeló la mayor relación media-varianza que el Poisson básico, pero noté que los coeficientes eran idénticos en los modelos Poisson y Cuasi-Poisson.
Si esto no es un error, ¿por qué sucede esto? ¿Cuál es el beneficio de usar Quasi-Poisson sobre Poisson?
Cosas a tener en cuenta:
- Las pérdidas subyacentes son excesivas, lo que (creo) impidió que Tweedie funcionara, pero fue la primera distribución que probé. También examiné los modelos NB, ZIP, ZINB y Hurdle, pero aún encontré que el Cuasi-Poisson era el que mejor se ajustaba.
- Probé la sobredispersión a través de la prueba de dispersión en el paquete AER. Mi parámetro de dispersión fue aproximadamente 8.4, con valor p en la magnitud 10 ^ -16.
- Estoy usando glm () con family = poisson o quasipoisson y un enlace de registro para el código.
- Cuando ejecuto el código de Poisson, salgo con advertencias de "In dpois (y, mu, log = TRUE): non-integer x = ...".
Hilos SE útiles según la orientación de Ben:
¿No sería una distribución Tweedie una mejor idea?
—
duffymo
Intenté Tweedie desde el primer momento, pero nuestros datos de pérdidas no se basan en nada, sino en forma excesiva. También probé modelos de binomio negativo, ZIP y obstáculo para abordar la dispersión del conteo.
—
Frank H.
¿Puedes explicar un poco más acerca de dónde provienen los valores no enteros en tus datos?
—
Ben Bolker
no debe modelar frecuencias / tasas calculando relaciones de
—
Ben Bolker
counts/exposure
. Por el contrario, debe agregar un offset(log(exposure))
término offset ( ) a sus modelos.
Es práctico, aunque más importante cuando se realiza el modelado de Poisson (no cuasi-Poisson). No sé de una buena referencia de improviso; Si no puede encontrar una respuesta relevante aquí en CrossValidated, sería una buena pregunta de seguimiento.
—
Ben Bolker