Discutir regresión binomial y estrategias de modelado

8

Hoy tengo una pregunta sobre la regresión binomial / logística, se basa en un análisis que un grupo de mi departamento ha realizado y que estaba buscando comentarios. Hice el siguiente ejemplo para proteger su anonimato, pero estaban ansiosos por ver las respuestas.

En primer lugar, el análisis comenzó con una respuesta binomial simple de 1 o 0 (por ejemplo, supervivencia de una temporada de reproducción a la siguiente) y el objetivo era modelar esta respuesta en función de algunas covariables.

Sin embargo, múltiples mediciones de algunas covariables estaban disponibles para algunos individuos, pero no para otros. Por ejemplo, imagine que la variable x es una medida de la tasa metabólica durante el trabajo de parto y los individuos varían en la cantidad de descendencia que tienen (por ejemplo, la variable x se midió 3 veces para el individuo A, pero solo una vez para el individuo B). Este desequilibrio no se debe a la estrategia de muestreo de los investigadores per se, sino que refleja las características de la población de la que estaban tomando muestras; algunos individuos tienen más descendencia que otros.

También debo señalar que no fue posible medir la respuesta binomial 0 \ 1 entre eventos laborales porque el intervalo entre estos eventos fue bastante corto. Nuevamente, imagine que la especie en cuestión tiene una corta temporada de reproducción, pero puede dar a luz a más de una descendencia durante la temporada.

Los investigadores optaron por ejecutar un modelo en el que utilizaron la media de la variable x como una covariable y el número de descendientes que un individuo dio a luz como otra covariable.

Ahora, no estaba interesado en este enfoque por varias razones

1) Tomar el promedio de x significa perder información en la variabilidad individual de x.

2) La media es en sí misma una estadística, por lo que al ponerla en el modelo terminamos haciendo estadísticas sobre estadísticas.

3) El número de descendientes que tenía un individuo está en el modelo, pero también se usa para calcular la media de la variable x, que creo que podría causar problemas.

Entonces, mi pregunta es ¿cómo haría la gente para modelar este tipo de datos?

En este momento, probablemente ejecutaría modelos separados para individuos que tuvieron una descendencia, luego para individuos que tuvieron dos descendientes, etc. Además, no usaría la media de la variable x y solo usaría los datos en bruto para cada nacimiento, pero estoy No estoy convencido de que esto sea mucho mejor tampoco.

Gracias por tu tiempo

(PD: Pido disculpas porque es una pregunta bastante larga, y espero que el ejemplo sea claro)

— usuario3136
fuente

¿Están estrictamente interesados en la supervivencia de una temporada a la siguiente, o preferirían modelar la supervivencia con el tiempo?

— Matt Parker

3

Suena como si estuviera en un pequeño dilema porque solo tiene 1 variable de respuesta para cada medición individual. Inicialmente iba a recomendar un enfoque multinivel. Pero para que eso funcione, debe observar la respuesta en el nivel más bajo, lo que no hace, observa su respuesta en el nivel individual (que sería el nivel 2 en un MLM)

1) Tomar el promedio de x significa perder información en la variabilidad individual de x.

Está perdiendo la variabilidad de la covariable x, pero esto solo importa si la otra información contenida en X está relacionada con la respuesta. Tampoco hay nada que le impida poner la varianza de X como covariable.

2) La media es en sí misma una estadística, así que al ponerla en el modelo terminamos haciendo estadísticas sobre estadísticas.

Una estadística es una función de los datos observados. Entonces, cualquier covariable es una "estadística". Entonces ya está haciendo "estadísticas sobre estadísticas", le guste o no. Sin embargo, hace una diferencia en cómo debe interpretar el coeficiente de pendiente, como un valor promedio y no un valor en el nacimiento individual. Si no te importan los nacimientos individuales, entonces esto importa poco. Si lo hace, entonces este enfoque puede ser engañoso.

3) El número de descendientes que tenía un individuo está en el modelo, pero también se usa para calcular la media de la variable x, que creo que podría causar problemas.

Solo importaría si la media de X estuviera funcional / determinísticamente relacionada con el número de descendientes. Una forma en que esto puede suceder es si el valor de X es el mismo para cada individuo que tuvo el mismo número de nacimientos. Por lo general, este no es el caso.

Puede especificar un modelo que incluya cada valor de X como una covariable. Pero esto probablemente implicaría una nueva investigación metodológica de su parte, me imagino. Su función de probabilidad sería diferente para diferentes individuos, debido a la diferente cantidad de mediciones dentro de los individuos. No creo que el modelado multinivel se aplique en este caso conceptualmente . Esto es simplemente porque los nacimientos no son un subconjunto o muestra dentro de los individuos. Aunque las matemáticas pueden ser las mismas.

Una forma de incorporar esta estructura es crear un modelo como:

(Y_{i j} | x_{i j}) \sim B i n (Y_{i j} | n_{i j}, p_{i j})

$(Y_{ij}|x_{ij}) \sim Bin(Y_{ij}|n_{ij},p_{ij})$

$Y_{ij}$ $i$ $j$ $x_{ij}$ $n_{ij}$ $p_{ij}$

g (p_{i j}) = x_{i j}^{T} β

$g(p_{ij}) = x_{ij}^{T}\beta$

$g(.)$ $x_{ij}$ $j$

L = L (β) = \sum_{j \in B} [\sum_{i = 1}^{N_{j}} l o g [B i n (Y_{i j} | n_{i j}, g^{- 1} (x_{i j}^{T} β))]]

$L=L(\beta)=\sum_{j\in B}\Bigg[\sum_{i=1}^{N_{j}} log[Bin(Y_{ij}|n_{ij},g^{-1}(x_{ij}^{T}\beta))]\Bigg]$

$B$

$j$

En resumen, su intuición es acertada cuando sugiere que se está perdiendo algo. Sin embargo, el precio de la "pureza" podría ser alto, especialmente si necesita escribir su propio algoritmo para obtener sus estimaciones.

— probabilidadislogica
fuente

2

Creo que podrías explorar un modelo mixto no lineal; Esto debería permitirle utilizar los datos que tiene efectivamente. Pero si relativamente pocos sujetos tienen múltiples medidas, no importará mucho y puede que no funcione bien (creo que podría haber problemas de convergencia).

Si está utilizando SAS, podría usar PROC GLIMMIX; si usa RI, creo que lme4 debería ser útil.

— Peter Flom
fuente