Efectos aleatorios cruzados y datos no balanceados

Estoy modelando algunos datos donde creo que tengo dos efectos aleatorios cruzados. Pero el conjunto de datos no está equilibrado, y no estoy seguro de qué se debe hacer para tenerlo en cuenta.

Mis datos son un conjunto de eventos. Un evento ocurre cuando un cliente se reúne con un proveedor para realizar una tarea, que tiene éxito o no. Hay miles de clientes y proveedores, y cada cliente y proveedor participa en un número variable de eventos (aproximadamente de 5 a 500). Cada cliente y proveedor tiene un nivel de habilidad, y la posibilidad de que la tarea sea exitosa es una función de las habilidades de ambos participantes. No hay superposición entre clientes y proveedores.

Estoy interesado en las variaciones respectivas de la población de clientes y proveedores, para que podamos saber qué fuente tiene un mayor efecto en la tasa de éxito. También quiero conocer los valores específicos de las habilidades entre el cliente y los proveedores para los que realmente tenemos datos, para identificar los mejores / peores clientes o proveedores.

Inicialmente, quiero suponer que la probabilidad de éxito se debe únicamente a los niveles combinados de habilidad del cliente y el proveedor, sin otros efectos fijos. Entonces, suponiendo que x es un factor para el cliente ey es un factor para el proveedor, luego en R (usando el paquete lme4) tengo un modelo especificado como:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Un problema es que los clientes no están distribuidos de manera uniforme entre los proveedores. Los clientes con habilidades más altas tienen más probabilidades de ser emparejados con proveedores de habilidades más altas. Tengo entendido que un efecto aleatorio no tiene que estar correlacionado con ningún otro predictor en el modelo, pero no estoy seguro de cómo explicarlo.

Además, algunos clientes y proveedores tienen muy pocos eventos (menos de 10), mientras que otros tienen muchos (hasta 500), por lo que hay una amplia difusión en la cantidad de datos que tenemos sobre cada participante. Idealmente, esto se reflejaría en un "intervalo de confianza" alrededor de la estimación de habilidad de cada participante (aunque creo que el término intervalo de confianza no es del todo correcto aquí).

¿Los efectos aleatorios cruzados serán problemáticos debido a los datos desequilibrados? Si es así, ¿cuáles son algunos otros enfoques que debería considerar?

r mixed-model random-effects-model logistic

— coronel.triq
fuente

En cuanto a los datos no balanceados, glmer puede manejar grupos no balanceados: ese fue realmente el punto de desarrollar enfoques de modelos mixtos en comparación con los ANOVA de medidas repetidas que están restringidos a diseños balanceados. Incluir clientes o proveedores con pocos eventos (incluso solo uno) es aún mejor que omitirlos, ya que mejora la estimación de la varianza residual (ver Martin et al. 2011 ).

Si desea utilizar BLUP ( ranef(model)) como un proxy de habilidades, tendrá que estimar la incertidumbre en torno a sus predicciones de puntos. Esto se puede hacer en un marco frecuentista utilizando ranef(model, postVar=TRUE)o mediante la distribución posterior en un marco bayesiano. Sin embargo, no debe usar BLUP como variable de respuesta en modelos de regresión adicionales: consulte Hadfield et al. (2010) para ejemplos de mal uso de BLUP y diferentes métodos para tener en cuenta adecuadamente su incertidumbre.

En cuanto a la correlación de habilidades entre clientes y proveedores, este desequilibrio podría ser problemático si es muy fuerte, ya que evitaría estimar correctamente la variación debido a cada efecto aleatorio. No parece haber un marco de modelos mixtos que pueda manejar fácilmente la correlación entre las intercepciones aleatorias (vea aquí una expresión formal de su problema). ¿Podrías precisar qué tan correlacionados están los éxitos promedio de clientes y proveedores?

— Charlotte R
fuente

Muchas gracias por abordar una de mis viejas preguntas. La respuesta sigue siendo relevante y se agradece la orientación y las referencias. Lo siento, me tomó tanto tiempo notar que estaba allí. Lo he marcado resuelto.

— coronel.triq