¿Cuándo utilizar errores estándar robustos en la regresión de Poisson?

Estoy usando un modelo de regresión de Poisson para los datos de conteo y me pregunto si hay razones para no usar el error estándar robusto para las estimaciones de los parámetros. Estoy particularmente preocupado ya que algunas de mis estimaciones sin robustez no son significativas (p. Ej., P = 0.13) pero con robustez son significativas (p <0.01).

En SAS esto está disponible mediante el uso de la declaración repetida en proc genmod(por ejemplo, repeated subject=patid;). He estado usando http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm como un ejemplo que cita un artículo de Cameron y Trivedi (2009) en apoyo del uso de errores estándar robustos.

poisson-distribution robust

— kara
fuente

Respuestas:

En general, si sospecha que sus errores son heteroscedasticos, debe usar errores estándar robustos. El hecho de que sus estimaciones se vuelvan insignificantes cuando no utiliza SE robustos sugiere (pero no prueba) la necesidad de SE robustos. Estos SE son "robustos" al sesgo que la heterocedasticidad puede causar en un modelo lineal generalizado.

Sin embargo, esta situación es un poco diferente, ya que los está superponiendo sobre la regresión de Poisson.

Poisson tiene una propiedad bien conocida de que obliga a la dispersión a ser igual a la media, ya sea que los datos lo respalden o no. Antes de considerar los errores estándar robustos, probaría una regresión binomial negativa, que no sufre este problema. Hay una prueba (vea el comentario) para ayudar a determinar si el cambio resultante en los errores estándar es significativo.

No sé con certeza si el cambio que está viendo (pasar a un SE robusto reduce el CI) implica una baja dispersión, pero parece probable. Eche un vistazo al modelo apropiado (creo que es un binomio negativo, pero una búsqueda rápida en Google también sugiere cuasi-Poisson para la dispersión insuficiente) y vea qué obtiene en ese entorno.

— Ari B. Friedman
fuente

¡Buena respuesta! Típicamente en OLS la heteroscedasticidad no causa que los parámetros sean insesgados (simplemente ineficientes). Sin embargo, esto no es cierto para los modelos lineales generalizados, vea esta publicación de Dave Giles al respecto para obtener referencias. Sin embargo, no creo que haya visto la prueba de Vuong recomendada para esto (para las comparaciones de modelos inflados con cero no anidados, lo he visto sugerido). Poisson está anidado dentro del Neg. Modelo binomial, por lo que se puede usar una prueba de razón de probabilidad para el parámetro de dispersión.

— Andy W

Gracias por tu respuesta Intenté la regresión binomial negativa pero encontré la advertencia: "El criterio de convergencia relativa de Hesse de 0.0046138565 es mayor que el límite de 0.0001. La convergencia es cuestionable". Tenga en cuenta que mi variable de respuesta es un recuento con valores que van de 0 a 4. ¿Existe una transformación de la variable dependiente o independiente que ayudaría a la convergencia? ¿O qué hace uno en este caso?

— kara

Además, en relación con que los SE no robustos son más pequeños, en mi análisis veo que son los SE robustos los que son más pequeños y aquí es donde radica la importancia (no en los resultados no robustos). Esta es la razón por la que quiero ser cuidadoso acerca de si informar o no los resultados robustos. ¡No quiero elegir este método solo debido a valores importantes! ¡Gracias de nuevo!

— kara

@AndyW Revisé mis notas y Vuong es de hecho para ZI vs Poisson. Publicación actualizada kara me perdí la inversión. Podría tener datos poco dispersos, en cuyo caso el NBD también es potencialmente la solución :-)

— Ari B. Friedman

@kara Es difícil diagnosticar su problema de no convergencia en los comentarios. Intentaría una nueva pregunta solo con esa información con la mayor cantidad de información posible.

— Ari B. Friedman

Diferenciaré los análisis usando errores estándar basados en modelos versus robustos al referirme a estos últimos como "GEE", que de hecho es una definición intercambiable. Además de la fantástica explicación de Scortchi:

Los GEE pueden estar "sesgados" en muestras pequeñas, es decir, 10-50 sujetos: (Lipsitz, Laird y Harrington, 1990; Emrich y Piedmonte, 1992; Sharples y Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte y Williams, 1994; Gunsolley, Getchell y Chinchilli, 1995; Sherman y le Cessie, 1997.) Cuando digo que los GEE están sesgados, lo que quiero decir es que la estimación del error estándar puede ser conservadora o anticonservativa debido a recuentos de células pequeñas o nulas. , dependiendo de qué valores ajustados exhiban este comportamiento y cuán consistentes sean con la tendencia general del modelo de regresión.

En general, cuando el modelo paramétrico se especifica correctamente, aún se obtienen estimaciones de error estándar correctas de los CI basados en el modelo, pero el objetivo de utilizar GEE es acomodar ese gran "si". Los GEE permiten que el estadístico simplemente especifique un modelo de probabilidad de trabajo para los datos, y los parámetros (en lugar de ser interpretados en el marco estrictamente paramétrico) se consideran un tipo de "tamiz" que puede generar valores reproducibles independientemente de la generación subyacente de datos desconocidos. mecanismo. Este es el corazón y el alma del análisis semiparamétrico, del cual un GEE es un ejemplo.

Los GEE también manejan fuentes de covarianza no medidas en los datos, incluso con la especificación de una matriz de correlación independiente. Esto se debe al uso de una matriz de covarianza empírica en lugar de modelo. En el modelado de Poisson, por ejemplo, podría estar interesado en las tasas de fertilidad del salmón muestreado de varias corrientes. Los óvulos cosechados de peces hembra pueden tener una distribución subyacente de Poisson, pero la variación genética que forma parte de la heretibilidad compartida y los recursos disponibles en corrientes específicas podría hacer que los peces dentro de esas corrientes sean más similares que entre otras corrientes. El GEE proporcionará estimaciones correctas del error estándar de la población siempre que la tasa de muestreo sea coherente con su proporción de población (o esté estratificada de otras maneras).

— AdamO
fuente

Hace una prueba de nulo de equidispersión. Es una simple regresión auxiliar de OLS. Hay una descripción en la página 670 de Cameron y Trivedi. Con una gran sobredispersión, los errores estándar están muy desinflados, por lo que desconfiaría de cualquier resultado que dependa de un VCE no robusto cuando hay una sobredispersión. Con la subdispersión, lo contrario será cierto, lo que suena como el escenario en el que te encuentras.

— Dimitriy V. Masterov
fuente