Esta respuesta no se basa en mi conocimiento, sino que cita lo que Bolker et al. (2009) escribió en un artículo influyente en la revista Trends in Ecology and Evolution . Dado que el artículo no es de acceso abierto (aunque buscarlo en Google Scholar puede ser exitoso, pensé en citar pasajes importantes que pueden ser útiles para abordar partes de las preguntas. De nuevo, no es lo que se me ocurrió, pero creo representa la mejor información condensada sobre GLMM (incluidos los diagnósticos) en un estilo de escritura muy sencillo y fácil de entender. Si de alguna manera esta respuesta no es adecuada por cualquier razón, simplemente la eliminaré. Cosas que encuentro útil con respecto a las preguntas sobre diagnósticos se destacan ennegrita .
Page 127:
Los investigadores que se enfrentan a datos no normales a menudo prueban atajos, como transformar los datos para lograr la normalidad y la homogeneidad de la varianza, utilizando pruebas no paramétricas o confiando en la solidez del ANOVA clásico a la no normalidad para diseños equilibrados [15]. Pueden ignorar los efectos aleatorios por completo (por lo tanto, cometer pseudoreplicación) o tratarlos como factores fijos [16]. Sin embargo, estos accesos directos pueden fallar (por ejemplo, los datos de conteo con muchos valores cero no se pueden normalizar mediante transformación). Incluso cuando tienen éxito, pueden violar suposiciones estadísticas (incluso las pruebas no paramétricas hacen suposiciones, por ejemplo, de homogeneidad de varianza entre grupos) o limitan el alcance de la inferencia (no se pueden extrapolar estimaciones de efectos fijos a nuevos grupos). En lugar de calzar sus datos en marcos estadísticos clásicos, Los investigadores deben utilizar enfoques estadísticos que coincidan con sus datos. Los modelos lineales mixtos generalizados (GLMM) combinan las propiedades de dos marcos estadísticos que se utilizan ampliamente en ecología y evolución, modelos lineales mixtos (que incorporan efectos aleatorios) y modelos lineales generalizados (que manejan datos no normales mediante el uso de funciones de enlace y familia exponencial [p. Ej. distribuciones normales, de Poisson o binomiales]. Los GLMM son la mejor herramienta para analizar datos no normales que involucran efectos aleatorios: todo lo que uno tiene que hacer, en principio, es especificar una distribución, función de enlace y estructura de los efectos aleatorios. modelos lineales mixtos (que incorporan efectos aleatorios) y modelos lineales generalizados (que manejan datos no normales mediante el uso de funciones de enlace y distribuciones exponenciales de familia [por ejemplo, normal, Poisson o binomial]). Los GLMM son la mejor herramienta para analizar datos no normales que involucran efectos aleatorios: todo lo que uno tiene que hacer, en principio, es especificar una distribución, función de enlace y estructura de los efectos aleatorios. modelos lineales mixtos (que incorporan efectos aleatorios) y modelos lineales generalizados (que manejan datos no normales mediante el uso de funciones de enlace y distribuciones exponenciales de familia [por ejemplo, normal, Poisson o binomial]). Los GLMM son la mejor herramienta para analizar datos no normales que involucran efectos aleatorios: todo lo que uno tiene que hacer, en principio, es especificar una distribución, función de enlace y estructura de los efectos aleatorios.
Página 129, casilla 1:
Los residuos indicaron una dispersión excesiva , por lo que reajustamos los datos con un modelo cuasi-Poisson. A pesar del gran parámetro de escala estimada (10.8), los gráficos exploratorios no encontraron evidencia de valores atípicos a nivel de individuos, genotipos o poblaciones. Utilizamos cuasi-AIC (QAIC), utilizando un grado de libertad para los efectos aleatorios [49], para el efecto aleatorio y luego para la selección del modelo de efectos fijos.
Página 133, recuadro 4:
Aquí describimos un marco general para construir un modelo completo (el más complejo), el primer paso en el análisis GLMM. Siguiendo este proceso, uno puede evaluar los parámetros y comparar los submodelos como se describe en el texto principal y en la Figura 1.
Especifique efectos fijos (tratamientos o covariables) y aleatorios (bloques experimentales, espaciales o temporales, individuos, etc.). Incluya solo interacciones importantes. Restrinja el modelo a priori a un nivel de complejidad factible, basado en reglas generales (> 5-6 niveles de efectos aleatorios por efecto aleatorio y> 10-20 muestras por nivel de tratamiento o unidad experimental) y conocimiento de tamaños de muestra adecuados obtenidos de estudios previos [64,65].
Elija una distribución de error y una función de enlace (por ejemplo, distribución de Poisson y enlace de registro para datos de conteo, distribución binomial y enlace de logit para datos de proporción).
Comprobación gráfica : ¿las variaciones de datos (transformadas por la función de enlace) son homogéneas en todas las categorías? ¿Las respuestas de los datos transformados son lineales con respecto a los predictores continuos? ¿Hay individuos o grupos atípicos? ¿Las distribuciones dentro de los grupos coinciden con la distribución asumida?
Ajuste los GLM de efectos fijos tanto al conjunto de datos completo (agrupado) como a cada nivel de los factores aleatorios [28,50]. Los parámetros estimados deben distribuirse aproximadamente de manera normal entre los grupos (los parámetros a nivel de grupo pueden tener grandes incertidumbres, especialmente para grupos con tamaños de muestra pequeños). Ajuste el modelo según sea necesario (por ejemplo, cambie la función de enlace o agregue covariables).
Montar el GLMM completo. Memoria de la computadora insuficiente o demasiado lenta: reduzca la complejidad del modelo. Si la estimación tiene éxito en un subconjunto de datos, pruebe con un algoritmo de estimación más eficiente (por ejemplo, PQL, si corresponde). No convergencia (advertencias o errores): reduzca la complejidad del modelo o cambie la configuración de optimización (asegúrese de que las respuestas resultantes tengan sentido). Pruebe otros algoritmos de estimación. Componentes de la varianza cero o singularidad (advertencias o errores): verifique que el modelo esté correctamente definido e identificable (es decir, todos los componentes pueden estimarse teóricamente). Reduce la complejidad del modelo. Agregar información al modelo (covariables adicionales o nuevas agrupaciones para efectos aleatorios) puede aliviar los problemas, al igual que centrar las covariables continuas restando su media [50]. Si es necesario, elimine los efectos aleatorios del modelo completo, caída de (i) términos de interés biológico menos intrínseco, (ii) términos con variaciones estimadas muy pequeñas y / o gran incertidumbre, o (iii) términos de interacción. (Los errores de convergencia o las variaciones cero podrían indicar datos insuficientes).
Vuelva a verificar los supuestos para el modelo final (como en el paso 3) y verifique que las estimaciones de los parámetros y los intervalos de confianza sean razonables (los intervalos de confianza gigantescos podrían indicar problemas de ajuste). La magnitud de los residuos estandarizados debe ser independiente de los valores ajustados. Evaluar la sobredispersión (la suma de los residuos de Pearson al cuadrado debe estar [66,67]). Si es necesario, cambie las distribuciones o estime un parámetro de escala. χ2Compruebe que un modelo completo que incluye efectos aleatorios descartados con pequeñas desviaciones estándar proporciona resultados similares al modelo final. Si modelos diferentes conducen a estimaciones de parámetros sustancialmente diferentes, considere el promedio del modelo.
Las parcelas de residuos deben usarse para evaluar la dispersión excesiva y las variaciones transformadas deben ser homogéneas en todas las categorías. En ninguna parte del artículo se mencionó que se supone que los residuos se distribuyen normalmente.
Creo que la razón por la que hay declaraciones contrastantes refleja que los GLMM (páginas 127-128) ...
... son sorprendentemente difíciles de usar incluso para los estadísticos. Aunque varios paquetes de software pueden manejar GLMM (Tabla 1), pocos ecologistas y biólogos evolutivos son conscientes del rango de opciones o de las posibles dificultades. Al revisar documentos en ecología y evolución desde 2005 encontrados por Google Scholar, 311 de 537 análisis GLMM (58%) utilizaron estas herramientas de manera inapropiada de alguna manera (ver material complementario en línea).
Y aquí hay algunos ejemplos completos que funcionan con GLMM, incluidos los diagnósticos.
Me doy cuenta de que esta respuesta es más como un comentario y debe tratarse como tal. Pero la sección de comentarios no me permite agregar un comentario tan largo. Además, dado que creo que este documento es valioso para esta discusión (pero desafortunadamente detrás de un muro de pago), pensé que sería útil citar pasajes importantes aquí.
Papeles citados:
[15] - GP Quinn, MJ Keough (2002): Diseño experimental y análisis de datos para biólogos, Cambridge University Press.
[16] - MJ Crawley (2002): Computación estadística: una introducción al análisis de datos utilizando S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Modelos de efectos mixtos en S y S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): información de Akaike condicional para modelos de efectos mixtos. Biometrika, 92, pp. 351-370.
[50] - A. Gelman, J. Hill (2006): Análisis de datos utilizando regresión y modelos multinivel / jerárquicos, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Una cartilla de estadísticas ecológicas, Sinauer Associates.
[65] - FJ Harrell (2001): Estrategias de modelado de regresión, Springer.
[66] - JK Lindsey (1997): Aplicación de modelos lineales generalizados, Springer.
[67] - W. Venables, BD Ripley (2002): Modern Applied Statistics con S, Springer.
glm.diag.plots
dice que es para la desviación residual de navaja (sospecho que la distinción es importante). Además, supongo que tiene datos de conteo ; es posible que desee centrarse en ese hecho. Por ejemplo, se supone que los recuentos (en cierto sentido) son heterocedásticos. Las gráficas de diagnóstico para la regresión de conteo deberían ser útiles para usted (aunque no abordan el aspecto de efectos mixtos).