GEE: elegir la estructura de correlación de trabajo adecuada


19

Soy un epidemiólogo que intenta comprender los GEE para analizar adecuadamente un estudio de cohorte (usando la regresión de Poisson con un enlace de registro, para estimar el riesgo relativo). Tengo algunas preguntas sobre la "correlación de trabajo" que me gustaría que alguien más conocedor aclare:

(1) Si tengo mediciones repetidas en el mismo individuo, ¿es generalmente más razonable asumir una estructura intercambiable? (¿O un autorregresivo si las mediciones muestran una tendencia)? ¿Qué pasa con la independencia? ¿Hay casos en los que uno podría asumir independencia para las mediciones en el mismo individuo?

(2) ¿Hay alguna forma (razonablemente simple) de evaluar la estructura adecuada mediante el examen de los datos?

(3) Noté que, al elegir una estructura de independencia, obtengo las mismas estimaciones puntuales (pero errores estándar más bajos) que cuando ejecuto una regresión de Poisson simple (usando R, función glm()y geeglm()del paquete geepack). ¿Por qué está pasando esto? Entiendo que con GEE usted estima un modelo promediado por la población (en contraste con el tema específico), por lo que debe obtener las mismas estimaciones puntuales solo en el caso de regresión lineal.

(4) Si mi cohorte está en varios sitios de ubicación (pero una medición por persona), ¿debería elegir una independencia o una correlación de trabajo intercambiable, y por qué? Quiero decir, las personas en cada sitio aún son independientes entre sí, ¿verdad? Por lo tanto, para un modelo específico de sujeto, por ejemplo, yo especificaría el sitio como un efecto aleatorio. Sin embargo, con GEE, la independencia y el intercambio dan estimaciones diferentes y no estoy seguro de cuál es mejor en términos de supuestos subyacentes.

(5) ¿Puede GEE manejar una agrupación jerárquica de 2 niveles, es decir, una cohorte multisitio con medidas repetidas por individuo? En caso afirmativo, ¿qué debo especificar como una variable de agrupación geeglm()y cuál debería ser la correlación de trabajo si se supone, por ejemplo, "independencia" para el primer nivel (sitio) e "intercambiable" o "autorregresivo" para el segundo nivel (individual)?

Entiendo que estas son bastantes preguntas, y algunas de ellas pueden ser bastante básicas, pero aún así son muy difíciles para mí (¿y quizás para otros novatos?). Por lo tanto, cualquier ayuda es enorme y sinceramente apreciada, y para mostrar esto, he comenzado una recompensa.

Respuestas:


12
  1. No necesariamente. Con pequeños grupos, diseño desequilibrado y ajuste de confusión incompleto dentro del grupo, la correlación intercambiable puede ser más ineficiente y sesgada en relación con la independencia de GEE. Esos supuestos también pueden ser bastante fuertes. Sin embargo, cuando se cumplen esos supuestos, obtienes una inferencia más eficiente con lo intercambiable. Nunca he encontrado una instancia en la que las estructuras de correlación AR-1 tengan sentido, ya que es poco común tener mediciones equilibradas en el tiempo (trabajo con datos de sujetos humanos).

  2. Bueno, explorar la correlación es bueno y debe hacerse en el análisis de datos. Sin embargo, realmente no debería guiar la toma de decisiones. Puede usar variogramas y lorellogramas para visualizar la correlación en estudios longitudinales y de panel. La correlación intragrupo es una buena medida del grado de correlación dentro de los grupos.

  3. La estructura de correlación en GEE, a diferencia de los modelos mixtos, no afecta las estimaciones de parámetros marginales (que está estimando con GEE). Sin embargo, sí afecta las estimaciones de error estándar. Esto es independiente de cualquier función de enlace. La función de enlace en el GEE es para el modelo marginal.

  4. Los sitios pueden ser fuentes de variación no medida, como dientes dentro de la boca o estudiantes dentro de un distrito escolar. Existe la posibilidad de que se produzcan factores de confusión a nivel de conglomerado en estos datos, como la propensión genética a la caries dental o la financiación de la educación comunitaria, por lo que, por esa razón, obtendrá mejores estimaciones de error estándar mediante el uso de una estructura de correlación intercambiable.

  5. El cálculo de los efectos marginales en un GEE es complicado cuando no están anidados, pero se puede hacer . Anidar es fácil y haces lo que has dicho.


(Con respecto al n. ° 5) Entonces, en el caso de agrupación anidada, uno simplemente selecciona la variable de agrupación de nivel superior y ¿eso es todo?
Theodore Lytras

No, puede crear una estructura jerárquica de correlación intercambiable de dos niveles y estimar consistentemente los dos parámetros de correlación separados para la correlación utilizando un algoritmo EM de 3 pasos. De esa manera, sabría que los niños dentro de las comunidades están correlacionados, pero no tanto como los niños de un hogar.
AdamO

Lo siento, no entiendo esto. ¿Podría indicarme algún código, preferiblemente en R o Stata? Supongo que eso debería ayudar.
Theodore Lytras

1
@TheodoreLytras lo siento, me equivoqué. Su afirmación previa es correcta. Desde el mismo artículo que vinculé, "Además, si varios grupos están perfectamente anidados, la agrupación de GEE en el grupo de nivel superior representa la estructura de correlación multinivel a través del estimador de varianza sandwich".
AdamO

1
Quizás quiera decir algo más, pero cuando dice "La estructura de correlación en GEE, a diferencia de los modelos mixtos, no afecta las estimaciones de parámetros marginales", creo que esto no es cierto. Al menos, si quiere decir que los coeficientes no cambian al elegir una matriz de correlación de trabajo diferente, esto no es lo que sucede: la matriz de correlación funciona en la matriz de ponderación y afecta tanto a la matriz de covarianza como a los coeficientes.
Nick

6

(1) Probablemente necesitará algún tipo de estructura autorregresiva, simplemente porque esperamos que las mediciones tomadas más separadas estén menos correlacionadas que las tomadas más juntas. Intercambiable supondría que todos están igualmente correlacionados. Pero como con todo lo demás, depende.

(2) Creo que este tipo de decisión se reduce a pensar en cómo se generaron los datos, en lugar de ver cómo se ven.

(4) depende. Por ejemplo, los niños anidados en las escuelas no deberían, en la mayoría de los casos, ser tratados como independientes. Debido a los patrones sociales, etc., si sé algo sobre un niño en una escuela determinada, entonces probablemente sé al menos un poco sobre otros niños en las escuelas. Una vez utilicé GEE para analizar las relaciones entre los diferentes indicadores sociales y económicos y la prevalencia de la obesidad en una cohorte de nacimientos donde los participantes estaban anidados en vecindarios. Usé una estructura intercambiable. Puede encontrar el documento aquí y consultar algunas de las referencias, incluidas 2 de revistas epi.

(5) Aparentemente sí (por ejemplo, vea este ejemplo ), pero no puedo ayudar con las especificaciones R de hacer esto.

Zeger SL, Liang KY, Albert PS. Modelos para datos longitudinales: un enfoque de ecuación de estimación generalizada. Biometría 1988; 44: 1049–60.

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. Para GEE o no para GEE: comparando la función de estimación y los métodos basados ​​en la probabilidad para estimar las asociaciones entre vecindarios y salud. Epidemiología. 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Análisis estadístico de datos correlacionados utilizando ecuaciones de estimación generalizadas: una orientación. Soy J Epidemiol. 2003; 157: 364.


Esto es realmente útil, pero me hace preguntarme por qué alguien usaría una estructura de independencia, porque la agrupación per se implica un grado de similitud entre las observaciones. Sin embargo, tengo la impresión de que en el caso de las escuelas la similitud está en relación con otras escuelas , y dentro de cada escuela los alumnos serían independientes. Así que todavía no lo tengo muy claro.
Theodore Lytras

Sí, si restringió su muestra y modelado subsecuente a una sola escuela, no se preocupe. En este caso, sería más justificable asumir que los errores son iid. Pero una vez que comience a combinar niños de diferentes escuelas en la misma muestra / modelo, esa suposición se vuelve tenue, a menos que tenga en cuenta la escuela en el modelo, es decir, para que se asuman los errores condicionales a la escuela.
DL Dahly

También vale la pena señalar que las personas podrían ser más útiles para usted si pudiera proporcionar algunos detalles sobre el tamaño de la muestra, el número y el momento de las medidas repetidas, el número de grupos, etc.
DL Dahly

2
@DLDahly su punto en (1) no es algo que a menudo encuentro en los análisis de paneles bioestadísticos. Una de las suposiciones detrás de las estructuras de correlación AR-N es que, dado el tiempo suficiente entre ellas, dos mediciones en el mismo individuo no estarán tan correlacionadas como dos mediciones entre individuos diferentes. Sin embargo, los principales factores de confusión subyacentes entre grupos a menudo no son covariables que varían con el tiempo (como los marcadores genéticos), y suponer lo contrario es muy difícil (si no imposible) de evaluar. Sin embargo, un lorrelograma es un muy buen lugar para comenzar.
AdamO

1

(0) Comentarios generales: la mayoría de los modelos que veo en validación cruzada son demasiado complicados. Simplifica si es posible. A menudo vale la pena modelar con GEE y un modelo mixto para comparar resultados.
(1) Sí Elija intercambiable. Mi respuesta inequívoca se basa en el beneficio más ampliamente promocionado de GEE: la resistencia de las estimaciones a los supuestos formulados.
Si observa los estudios en su campo, debería ver que exch es la opción predeterminada. No significa que sea el mejor, pero debería ser el primero en considerar. Asesorar a exch será el mejor consejo sin tener un conocimiento detallado de sus datos.
(2) Sí, existen enfoques basados ​​en datos como "QIC". Este es un ejemplo de Stata, pero ampliamente aceptado como una opción razonable, aunque muy rara vez se utiliza en la práctica:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Las estimaciones puntuales nunca son exactamente iguales (a menos que esté utilizando una estructura de correlación indep), pero generalmente son bastante cercanas. Puede encontrar muchos artículos que comparan estimaciones del modelo de efectos simples / gee / mixtos para tener una idea de esto ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) La mayoría de los libros de texto también tienen una tabla o dos por esto. Para una estructura de correlación independiente, esencialmente está ejecutando el modelo de Poisson con SE robustas. Entonces las estimaciones serán exactamente las mismas. Los SE suelen ser más grandes. Pero a veces, los SE robustos son más pequeños (es decir, la vida de Google proporciona una explicación sin dolor si está interesado)
(4) Ver (1) y (2) arriba.
(5) No. O mejor dicho, puedes hacer cualquier cosa si pones suficiente esfuerzo en ello, pero rara vez vale la pena.


0

Estás usando el enfoque equivocado con un gee para hacer lo que estás haciendo porque no conoces la estructura y tus resultados probablemente se confundirán. Consulte a Jamie Robinson esto. Necesitas usar mucho tiempo. TMLE (mark van der laan) o quizás un gee con pesos iptw. No tener en cuenta la correlación subestima la varianza. Solo piense que si todas las medidas repetidas estuvieran 100% correlacionadas, entonces efectivamente tendría muchas menos observaciones (esencialmente solo n para sus n sujetos) y n menor significa mayor varianza.


Si tiene un tipo de resultado que no es de supervivencia, puede usar el enfoque gee con una estructura de corr independiente y pesos iptw como se sugiere para estimaciones imparciales, suponiendo que obtenga el puntaje de propensión correcto. TMLE es mejor prácticamente en todos los casos, supervivencia o no, porque puede usar el aprendizaje conjunto para predecir puntajes de propensión y regresiones secuenciales y aún así obtener inferencia eficiente. Su enfoque seguramente estará sesgado y dará una inferencia incorrecta y cuanto mayor sea el tamaño de su muestra, si no hay ningún efecto, ¡probablemente identificará un efecto significativo incorrecto!
Jonathan Levy el

Esto podría usar más detalles. ¿Qué es Janie Robinson? ¿Qué papel de van der Laan?
mdewey

@mdewey lo siento, error tipográfico, se refería a Jamie Robins. Pruebe los modelos estructurales marginales de Robins, Hernan, Babette 2000 y la inferencia causal: un gran método para obtener resultados que no sean de supervivencia, incluida la forma de hacer msm con modificadores de efectos. Para laan, consulte el libro, aprendizaje dirigido. Como dije, laan es probablemente el mejor, pero requiere más para entender. El paquete R Ltmle hace esta metodología, pero toma algo de tiempo aprenderlo.
Jonathan Levy
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.