Diagnóstico para modelos lineales (mixtos) generalizados (específicamente residuos)

25

Actualmente estoy luchando por encontrar el modelo correcto para datos de recuento difíciles (variable dependiente). He probado varios modelos diferentes (los modelos de efectos mixtos son necesarios para mi tipo de datos) como lmery lme4(con una transformación logarítmica), así como modelos de efectos mixtos lineales generalizados con varias familias, como el binomio gaussiano o negativo.

Sin embargo, no estoy seguro de cómo diagnosticar correctamente los ajustes resultantes. Encontré muchas opiniones diferentes sobre ese tema en la Web. Creo que el diagnóstico de regresión lineal (mixta) es bastante sencillo. Puede continuar y analizar los residuos (normalidad), así como estudiar la heterocedasticidad trazando los valores ajustados en comparación con los residuos.

Sin embargo, ¿cómo haces eso correctamente para la versión generalizada? Centrémonos en una regresión binomial negativa (mixta) por ahora. He visto declaraciones bastante opuestas con respecto a los residuos aquí:

Al verificar la normalidad de los residuos en los modelos lineales generalizados , en la primera respuesta se señala que los residuos simples no se distribuyen normalmente para un GLM; Creo que esto está claro. Sin embargo, se señala que tampoco se supone que los residuos de Pearson y de desviación sean normales. Sin embargo, la segunda respuesta establece que los residuos de desviación deben distribuirse normalmente (combinados con una referencia).
Sin embargo, los residuales de desviación que deberían distribuirse normalmente se insinúan en la documentación de ? Glm.diag.plots (del bootpaquete de R ).
En esta publicación de blog , el autor primero estudió la normalidad de lo que supongo que son residuos de Pearson para un modelo de regresión de efectos mixtos NB. Como era de esperar (en mi sincera opinión), los residuos no mostraron ser normales y el autor asumió que este modelo no encajaba bien. Sin embargo, como se indica en los comentarios, los residuos deben distribuirse de acuerdo con una distribución binomial negativa. En mi opinión, esto se acerca más a la verdad, ya que los residuos de GLM pueden tener otras distribuciones que la normal. ¿Es esto correcto? ¿Cómo verificar cosas como la heterocedasticidad aquí?
El último punto (graficando los residuos contra los cuantiles de la distribución estimada) se enfatiza en Ben y Yohai (2004) . Actualmente, este parece ser el camino a seguir para mí.

En pocas palabras: ¿Cómo estudias adecuadamente los ajustes del modelo de los modelos de regresión lineal (mixta) generalizados específicamente con un enfoque en los residuos?

— fsociety
fuente

1

Los residuos para GLM no son en general normales (ver aquí ), pero tenga en cuenta que hay muchos tipos de residuos para GLM. Por ejemplo, glm.diag.plotsdice que es para la desviación residual de navaja (sospecho que la distinción es importante). Además, supongo que tiene datos de conteo ; es posible que desee centrarse en ese hecho. Por ejemplo, se supone que los recuentos (en cierto sentido) son heterocedásticos. Las gráficas de diagnóstico para la regresión de conteo deberían ser útiles para usted (aunque no abordan el aspecto de efectos mixtos).

— gung - Restablecer Monica

Estoy familiarizado con la publicación que mencionaste. Sin embargo, también hay una declaración que sugiere que los residuos (de desviación) deberían ser normales "vemos residuos muy grandes y una desviación sustancial de los residuos de desviación de lo normal (todos hablando en contra del Poisson)".

— fsociety

19

Esta respuesta no se basa en mi conocimiento, sino que cita lo que Bolker et al. (2009) escribió en un artículo influyente en la revista Trends in Ecology and Evolution . Dado que el artículo no es de acceso abierto (aunque buscarlo en Google Scholar puede ser exitoso, pensé en citar pasajes importantes que pueden ser útiles para abordar partes de las preguntas. De nuevo, no es lo que se me ocurrió, pero creo representa la mejor información condensada sobre GLMM (incluidos los diagnósticos) en un estilo de escritura muy sencillo y fácil de entender. Si de alguna manera esta respuesta no es adecuada por cualquier razón, simplemente la eliminaré. Cosas que encuentro útil con respecto a las preguntas sobre diagnósticos se destacan ennegrita .

Page 127:

Los investigadores que se enfrentan a datos no normales a menudo prueban atajos, como transformar los datos para lograr la normalidad y la homogeneidad de la varianza, utilizando pruebas no paramétricas o confiando en la solidez del ANOVA clásico a la no normalidad para diseños equilibrados [15]. Pueden ignorar los efectos aleatorios por completo (por lo tanto, cometer pseudoreplicación) o tratarlos como factores fijos [16]. Sin embargo, estos accesos directos pueden fallar (por ejemplo, los datos de conteo con muchos valores cero no se pueden normalizar mediante transformación). Incluso cuando tienen éxito, pueden violar suposiciones estadísticas (incluso las pruebas no paramétricas hacen suposiciones, por ejemplo, de homogeneidad de varianza entre grupos) o limitan el alcance de la inferencia (no se pueden extrapolar estimaciones de efectos fijos a nuevos grupos). En lugar de calzar sus datos en marcos estadísticos clásicos, Los investigadores deben utilizar enfoques estadísticos que coincidan con sus datos. Los modelos lineales mixtos generalizados (GLMM) combinan las propiedades de dos marcos estadísticos que se utilizan ampliamente en ecología y evolución, modelos lineales mixtos (que incorporan efectos aleatorios) y modelos lineales generalizados (que manejan datos no normales mediante el uso de funciones de enlace y familia exponencial [p. Ej. distribuciones normales, de Poisson o binomiales]. Los GLMM son la mejor herramienta para analizar datos no normales que involucran efectos aleatorios: todo lo que uno tiene que hacer, en principio, es especificar una distribución, función de enlace y estructura de los efectos aleatorios. modelos lineales mixtos (que incorporan efectos aleatorios) y modelos lineales generalizados (que manejan datos no normales mediante el uso de funciones de enlace y distribuciones exponenciales de familia [por ejemplo, normal, Poisson o binomial]). Los GLMM son la mejor herramienta para analizar datos no normales que involucran efectos aleatorios: todo lo que uno tiene que hacer, en principio, es especificar una distribución, función de enlace y estructura de los efectos aleatorios. modelos lineales mixtos (que incorporan efectos aleatorios) y modelos lineales generalizados (que manejan datos no normales mediante el uso de funciones de enlace y distribuciones exponenciales de familia [por ejemplo, normal, Poisson o binomial]). Los GLMM son la mejor herramienta para analizar datos no normales que involucran efectos aleatorios: todo lo que uno tiene que hacer, en principio, es especificar una distribución, función de enlace y estructura de los efectos aleatorios.

Página 129, casilla 1:

Los residuos indicaron una dispersión excesiva , por lo que reajustamos los datos con un modelo cuasi-Poisson. A pesar del gran parámetro de escala estimada (10.8), los gráficos exploratorios no encontraron evidencia de valores atípicos a nivel de individuos, genotipos o poblaciones. Utilizamos cuasi-AIC (QAIC), utilizando un grado de libertad para los efectos aleatorios [49], para el efecto aleatorio y luego para la selección del modelo de efectos fijos.

Página 133, recuadro 4:

Aquí describimos un marco general para construir un modelo completo (el más complejo), el primer paso en el análisis GLMM. Siguiendo este proceso, uno puede evaluar los parámetros y comparar los submodelos como se describe en el texto principal y en la Figura 1.

Especifique efectos fijos (tratamientos o covariables) y aleatorios (bloques experimentales, espaciales o temporales, individuos, etc.). Incluya solo interacciones importantes. Restrinja el modelo a priori a un nivel de complejidad factible, basado en reglas generales (> 5-6 niveles de efectos aleatorios por efecto aleatorio y> 10-20 muestras por nivel de tratamiento o unidad experimental) y conocimiento de tamaños de muestra adecuados obtenidos de estudios previos [64,65].

Elija una distribución de error y una función de enlace (por ejemplo, distribución de Poisson y enlace de registro para datos de conteo, distribución binomial y enlace de logit para datos de proporción).

Comprobación gráfica : ¿las variaciones de datos (transformadas por la función de enlace) son homogéneas en todas las categorías? ¿Las respuestas de los datos transformados son lineales con respecto a los predictores continuos? ¿Hay individuos o grupos atípicos? ¿Las distribuciones dentro de los grupos coinciden con la distribución asumida?

Ajuste los GLM de efectos fijos tanto al conjunto de datos completo (agrupado) como a cada nivel de los factores aleatorios [28,50]. Los parámetros estimados deben distribuirse aproximadamente de manera normal entre los grupos (los parámetros a nivel de grupo pueden tener grandes incertidumbres, especialmente para grupos con tamaños de muestra pequeños). Ajuste el modelo según sea necesario (por ejemplo, cambie la función de enlace o agregue covariables).

Montar el GLMM completo. Memoria de la computadora insuficiente o demasiado lenta: reduzca la complejidad del modelo. Si la estimación tiene éxito en un subconjunto de datos, pruebe con un algoritmo de estimación más eficiente (por ejemplo, PQL, si corresponde). No convergencia (advertencias o errores): reduzca la complejidad del modelo o cambie la configuración de optimización (asegúrese de que las respuestas resultantes tengan sentido). Pruebe otros algoritmos de estimación. Componentes de la varianza cero o singularidad (advertencias o errores): verifique que el modelo esté correctamente definido e identificable (es decir, todos los componentes pueden estimarse teóricamente). Reduce la complejidad del modelo. Agregar información al modelo (covariables adicionales o nuevas agrupaciones para efectos aleatorios) puede aliviar los problemas, al igual que centrar las covariables continuas restando su media [50]. Si es necesario, elimine los efectos aleatorios del modelo completo, caída de (i) términos de interés biológico menos intrínseco, (ii) términos con variaciones estimadas muy pequeñas y / o gran incertidumbre, o (iii) términos de interacción. (Los errores de convergencia o las variaciones cero podrían indicar datos insuficientes).

Vuelva a verificar los supuestos para el modelo final (como en el paso 3) y verifique que las estimaciones de los parámetros y los intervalos de confianza sean razonables (los intervalos de confianza gigantescos podrían indicar problemas de ajuste). La magnitud de los residuos estandarizados debe ser independiente de los valores ajustados. Evaluar la sobredispersión (la suma de los residuos de Pearson al cuadrado debe estar [66,67]). Si es necesario, cambie las distribuciones o estime un parámetro de escala. $\chi^2$ Compruebe que un modelo completo que incluye efectos aleatorios descartados con pequeñas desviaciones estándar proporciona resultados similares al modelo final. Si modelos diferentes conducen a estimaciones de parámetros sustancialmente diferentes, considere el promedio del modelo.

Las parcelas de residuos deben usarse para evaluar la dispersión excesiva y las variaciones transformadas deben ser homogéneas en todas las categorías. En ninguna parte del artículo se mencionó que se supone que los residuos se distribuyen normalmente.

Creo que la razón por la que hay declaraciones contrastantes refleja que los GLMM (páginas 127-128) ...

... son sorprendentemente difíciles de usar incluso para los estadísticos. Aunque varios paquetes de software pueden manejar GLMM (Tabla 1), pocos ecologistas y biólogos evolutivos son conscientes del rango de opciones o de las posibles dificultades. Al revisar documentos en ecología y evolución desde 2005 encontrados por Google Scholar, 311 de 537 análisis GLMM (58%) utilizaron estas herramientas de manera inapropiada de alguna manera (ver material complementario en línea).

Y aquí hay algunos ejemplos completos que funcionan con GLMM, incluidos los diagnósticos.

Me doy cuenta de que esta respuesta es más como un comentario y debe tratarse como tal. Pero la sección de comentarios no me permite agregar un comentario tan largo. Además, dado que creo que este documento es valioso para esta discusión (pero desafortunadamente detrás de un muro de pago), pensé que sería útil citar pasajes importantes aquí.

Papeles citados:

[15] - GP Quinn, MJ Keough (2002): Diseño experimental y análisis de datos para biólogos, Cambridge University Press.

[16] - MJ Crawley (2002): Computación estadística: una introducción al análisis de datos utilizando S-PLUS, John Wiley & Sons.

[28] - JC Pinheiro, DM Bates (2000): Modelos de efectos mixtos en S y S-PLUS, Springer.

[49] - F. Vaida, S. Blanchard (2005): información de Akaike condicional para modelos de efectos mixtos. Biometrika, 92, pp. 351-370.

[50] - A. Gelman, J. Hill (2006): Análisis de datos utilizando regresión y modelos multinivel / jerárquicos, Cambridge University Press.

[64] - NJ Gotelli, AM Ellison (2004): Una cartilla de estadísticas ecológicas, Sinauer Associates.

[65] - FJ Harrell (2001): Estrategias de modelado de regresión, Springer.

[66] - JK Lindsey (1997): Aplicación de modelos lineales generalizados, Springer.

[67] - W. Venables, BD Ripley (2002): Modern Applied Statistics con S, Springer.

— Stefan
fuente

Gracias, eso es realmente útil, conocía los ejemplos de codificación de Bolker, pero no el documento real de alguna manera. Sin embargo, todavía me pregunto cómo se aplica la verificación gráfica a datos a gran escala con miles de grupos. Los pocos documentos (como ese) que intentan dar algunas pautas sobre cómo verificar adecuadamente sus modelos, solo se aplican a datos a muy pequeña escala. Entonces, es mucho más fácil elegir, por ejemplo, los grupos y visualizar algo. Realmente creo que se puede hacer una buena contribución científica si alguien pasa por un ejemplo más complejo en el futuro.

— fsociety

1

¡Me alegra que esto haya sido útil! Creo que los ejemplos presentados ya son bastante complejos (al menos para mí). Supongo que el problema más grande es que conjuntos de datos más grandes y modelos más complejos pueden volverse computacionalmente inviables como se menciona en el texto: "[...] para encontrar estimaciones de ML, uno debe integrar las probabilidades sobre todos los valores posibles de los efectos aleatorios. Para GLMMs este cálculo es, en el mejor de los casos, lento y en el peor de los casos (por ejemplo, para un gran número de efectos aleatorios) computacionalmente inviable ". Sin embargo, lo que me parece sorprendente, y lo que debería tenerse en cuenta, es que estamos utilizando herramientas que están bajo investigación activa.

— Stefan

9

Esta es una pregunta antigua, pero pensé que sería útil agregar que la opción 4 sugerida por el OP ahora está disponible en el paquete DHARMa R (disponible en CRAN, ver aquí ).

El paquete hace que las verificaciones residuales visuales sugeridas por la respuesta aceptada sean mucho más confiables / fáciles.

De la descripción del paquete:

El paquete DHARMa utiliza un enfoque basado en simulación para crear residuos escalados fácilmente interpretables a partir de modelos mixtos lineales generalizados ajustados. Actualmente se admiten todas las clases 'merMod' de 'lme4' ('lmerMod', 'glmerMod'), 'glm' (incluyendo 'negbin' de 'MASS', pero excluyendo las clases de modelos de cuasi-distribuciones) y 'lm'. Alternativamente, también se pueden procesar simulaciones creadas externamente, por ejemplo, simulaciones predictivas posteriores de software bayesiano como 'JAGS', 'STAN' o 'BUGS'. Los residuos resultantes están estandarizados a valores entre 0 y 1 y pueden interpretarse de manera intuitiva como residuos de una regresión lineal. El paquete también proporciona una serie de funciones de trazado y prueba para problemas típicos de especificación incorrecta de modelos,

— Florian Hartig
fuente

1

Muy buena adición a este hilo!

— Stefan