Hoy tengo una pregunta sobre la regresión binomial / logística, se basa en un análisis que un grupo de mi departamento ha realizado y que estaba buscando comentarios. Hice el siguiente ejemplo para proteger su anonimato, pero estaban ansiosos por ver las respuestas.
En primer lugar, el análisis comenzó con una respuesta binomial simple de 1 o 0 (por ejemplo, supervivencia de una temporada de reproducción a la siguiente) y el objetivo era modelar esta respuesta en función de algunas covariables.
Sin embargo, múltiples mediciones de algunas covariables estaban disponibles para algunos individuos, pero no para otros. Por ejemplo, imagine que la variable x es una medida de la tasa metabólica durante el trabajo de parto y los individuos varían en la cantidad de descendencia que tienen (por ejemplo, la variable x se midió 3 veces para el individuo A, pero solo una vez para el individuo B). Este desequilibrio no se debe a la estrategia de muestreo de los investigadores per se, sino que refleja las características de la población de la que estaban tomando muestras; algunos individuos tienen más descendencia que otros.
También debo señalar que no fue posible medir la respuesta binomial 0 \ 1 entre eventos laborales porque el intervalo entre estos eventos fue bastante corto. Nuevamente, imagine que la especie en cuestión tiene una corta temporada de reproducción, pero puede dar a luz a más de una descendencia durante la temporada.
Los investigadores optaron por ejecutar un modelo en el que utilizaron la media de la variable x como una covariable y el número de descendientes que un individuo dio a luz como otra covariable.
Ahora, no estaba interesado en este enfoque por varias razones
1) Tomar el promedio de x significa perder información en la variabilidad individual de x.
2) La media es en sí misma una estadística, por lo que al ponerla en el modelo terminamos haciendo estadísticas sobre estadísticas.
3) El número de descendientes que tenía un individuo está en el modelo, pero también se usa para calcular la media de la variable x, que creo que podría causar problemas.
Entonces, mi pregunta es ¿cómo haría la gente para modelar este tipo de datos?
En este momento, probablemente ejecutaría modelos separados para individuos que tuvieron una descendencia, luego para individuos que tuvieron dos descendientes, etc. Además, no usaría la media de la variable x y solo usaría los datos en bruto para cada nacimiento, pero estoy No estoy convencido de que esto sea mucho mejor tampoco.
Gracias por tu tiempo
(PD: Pido disculpas porque es una pregunta bastante larga, y espero que el ejemplo sea claro)