Estoy modelando algunos datos donde creo que tengo dos efectos aleatorios cruzados. Pero el conjunto de datos no está equilibrado, y no estoy seguro de qué se debe hacer para tenerlo en cuenta.
Mis datos son un conjunto de eventos. Un evento ocurre cuando un cliente se reúne con un proveedor para realizar una tarea, que tiene éxito o no. Hay miles de clientes y proveedores, y cada cliente y proveedor participa en un número variable de eventos (aproximadamente de 5 a 500). Cada cliente y proveedor tiene un nivel de habilidad, y la posibilidad de que la tarea sea exitosa es una función de las habilidades de ambos participantes. No hay superposición entre clientes y proveedores.
Estoy interesado en las variaciones respectivas de la población de clientes y proveedores, para que podamos saber qué fuente tiene un mayor efecto en la tasa de éxito. También quiero conocer los valores específicos de las habilidades entre el cliente y los proveedores para los que realmente tenemos datos, para identificar los mejores / peores clientes o proveedores.
Inicialmente, quiero suponer que la probabilidad de éxito se debe únicamente a los niveles combinados de habilidad del cliente y el proveedor, sin otros efectos fijos. Entonces, suponiendo que x es un factor para el cliente ey es un factor para el proveedor, luego en R (usando el paquete lme4) tengo un modelo especificado como:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Un problema es que los clientes no están distribuidos de manera uniforme entre los proveedores. Los clientes con habilidades más altas tienen más probabilidades de ser emparejados con proveedores de habilidades más altas. Tengo entendido que un efecto aleatorio no tiene que estar correlacionado con ningún otro predictor en el modelo, pero no estoy seguro de cómo explicarlo.
Además, algunos clientes y proveedores tienen muy pocos eventos (menos de 10), mientras que otros tienen muchos (hasta 500), por lo que hay una amplia difusión en la cantidad de datos que tenemos sobre cada participante. Idealmente, esto se reflejaría en un "intervalo de confianza" alrededor de la estimación de habilidad de cada participante (aunque creo que el término intervalo de confianza no es del todo correcto aquí).
¿Los efectos aleatorios cruzados serán problemáticos debido a los datos desequilibrados? Si es así, ¿cuáles son algunos otros enfoques que debería considerar?