¿Qué diagnóstico puede validar el uso de una familia particular de GLM?


19

Esto parece muy elemental, pero siempre me atoro en este punto ...

La mayoría de los datos con los que trato no son normales, y la mayoría de los análisis se basan en una estructura GLM. Para mi análisis actual, tengo una variable de respuesta que es "velocidad de marcha" (metros / minuto). ¡Es fácil para mí identificar que no puedo usar OLS, pero tengo una gran incertidumbre al decidir qué familia (Gamma, Weibull, etc.) es apropiada!

Uso Stata y miro diagnósticos como residuos y heterocedasticidad, residuos versus valores ajustados, etc.

Soy consciente de que los datos de recuento pueden tomar la forma de una tasa (p. Ej., Tasas de incidencia) y han utilizado gamma (el análogo a los modelos binomiales negativos discretos sobredispersados), pero me gustaría que una "pistola humeante" dijera SÍ, TIENE EL DERECHO FAMILIA. ¿Es la observación de los residuos estandarizados versus los valores ajustados la única y mejor manera de hacer esto? También me gustaría usar un modelo mixto para dar cuenta de cierta jerarquía en los datos, pero primero necesito resolver qué familia describe mejor mi variable de respuesta.

Cualquier ayuda apreciada. Lenguaje Stata especialmente apreciado!


44
" Me gustaría que una" pistola humeante "dijera SÍ, TIENES LA FAMILIA CORRECTA ", nada te dirá esto. Lo mejor que puede esperar es una familia que no esté claramente equivocada. Hay muchas formas de elegir una familia distribucional, pero en general tiende a involucrar una combinación de consideraciones a priori o teóricas y las indicaciones de los datos en sí.
Glen_b -Reinstate Monica

Respuestas:


14

Tengo algunos consejos:

(1) Cómo los residuos deberían compararse con los ajustes no siempre es tan obvio, por lo que es bueno estar familiarizado con los diagnósticos para modelos particulares. En los modelos de regresión logística, por ejemplo, la estadística de Hosmer-Lemeshow se usa para evaluar la bondad del ajuste; los valores de apalancamiento tienden a ser pequeños cuando las probabilidades estimadas son muy grandes, muy pequeñas o casi iguales; & pronto.

(2) A veces, una familia de modelos puede verse como un caso especial de otro, por lo que puede usar una prueba de hipótesis en un parámetro para ayudarlo a elegir. Exponencial vs Weibull, por ejemplo.

(3) El Criterio de información de Akaike es útil para elegir entre diferentes modelos, lo que incluye elegir entre diferentes familias.

(4) El conocimiento teórico / empírico sobre lo que está modelando reduce el campo de los modelos plausibles.

Pero no hay una forma automática de encontrar la familia 'correcta'; Los datos de la vida real pueden provenir de distribuciones tan complicadas como desee, y la complejidad de los modelos que vale la pena intentar ajustar aumenta con la cantidad de datos que tiene. Esto forma parte del dictamen de Box de que ningún modelo es verdadero pero que algunos son útiles.

Comentario de Re @ gung: parece que la prueba de Hosmer-Lemeshow comúnmente utilizada es (a) sorprendentemente sensible a la elección de los contenedores, y (b) generalmente menos poderosa que algunas otras pruebas contra algunas clases relevantes de hipótesis alternativas. Eso no resta valor al punto (1): también es bueno estar actualizado.


¡Gracias! Sus sugerencias son breves y precisas. Estoy limitado en las familias que puedo usar debido a la estructura de mi variable de respuesta (positiva, continua, pero muy sesgada). Entre la familia exponencial, parece que gamma es realmente la única opción. Mientras tanto, he encontrado algunas herramientas útiles de NJ Cox como aparece en Stata Jounal 5 (2): 259-273 - gammafit (estima los parámetros de forma y escala) y dpplot permite la superposición del gráfico de probabilidad de densidad y mi variable de respuesta (puede ser hecho con muchas distribuciones y me permite relacionar la mejor familia con mis datos). ¡Gracias por otras sugerencias también!
RLang

1
Tenga en cuenta que se ha demostrado que la prueba Hosmer-Lemeshow GoF depende del binning utilizado / no es confiable.
gung - Restablece a Monica

@Gung, claramente depende de la agrupación utilizada, no es ideal, pero no estoy seguro de que sea un gran problema a menos que comience a jugar con los complementos para tratar de obtener el resultado que desea. ¿Cómo es poco confiable y qué otras pruebas son mejores?
Scortchi - Restablece a Monica


1
Tienes razón en que "inválido" es demasiado fuerte; Sin embargo, solo dije "poco confiable" y Harrell usa "obsoleto".
gung - Restablece a Monica

8

Puede que le resulte interesante leer la viñeta (manual introductorio) para el paquete R fitdistrplus. Reconozco que prefiere trabajar en Stata, pero creo que la viñeta se explicará lo suficiente como para que pueda obtener algunas ideas sobre el proceso de inferir familias distribucionales a partir de los datos. Probablemente podrá implementar algunas de las ideas en Stata a través de su propio código. En particular, creo que el gráfico de Cullen y Frey, si se implementa / podría implementarse en Stata, puede ser útil para usted.


He revisado este problema nuevamente, he cambiado a R y estoy usando Zuur e Ieno como guía. Todavía hay muchos problemas, pero en general creo que al usar varIdent, los diagnósticos de mi modelo parecen tener 'heterogeneidad menor'. El trazado de los residuos frente a los ajustados se ve bien, los residuos frente a cada covariable proporcionan algunos resultados originales para una de las variables de mi modelo (elevación), principalmente una función del tamaño de la muestra pequeña a alta elevación. Gracias por tu comentario en fitdistrplus. Ahora que estoy usando R y Rstudio (¡me encanta!) ¡Esto será útil!
RLang

1
El enlace está roto. ¿Es este el manual de introducción del que hablaba? cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf ¿ O fue este: cran.r-project.org/web/packages/fitdistrplus/vignettes/…
emschorsch

El último enlace parece ser una versión diferente de la viñeta a la que me refería.
gung - Restablece a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.