Me gustaría emplear los datos de conteo como covariables al ajustar un modelo de regresión logística. Mi pregunta es:
- ¿Violo alguna suposición de los modelos logísticos (y, más en general, de los lineales generalizados) al emplear el conteo, las variables enteras no negativas como variables independientes?
Encontré muchas referencias en la literatura con respecto a los datos de recuento calientes para usar como resultado, pero no como covariables; véase, por ejemplo, el documento muy claro: "NE Breslow (1996) Modelos lineales generalizados: comprobación de supuestos y fortalecimiento de conclusiones, Congreso Nacional Social de Biometria, Cortona, junio de 1995", disponible en http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Hablando en términos generales, parece que los supuestos de glm pueden expresarse de la siguiente manera:
- iid residuales;
- la función de enlace debe representar correctamente la relación entre variables dependientes e independientes;
- ausencia de valores atípicos
¿Todos saben si existe algún otro supuesto / problema técnico que pueda sugerir el uso de algún otro tipo de modelo para tratar con covariables de conteo?
Finalmente, tenga en cuenta que mis datos contienen relativamente pocas muestras (<100) y que los rangos de las variables de recuento pueden variar dentro de un orden de magnitud de 3-4 (es decir, algunas variables tienen un valor en el rango de 0-10, mientras que otras variables pueden tener valores dentro de 0-10000).
Sigue un código de ejemplo R simple:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################