Para una regresión lineal con múltiples grupos (grupos naturales definidos a priori), ¿es aceptable ejecutar dos modelos diferentes en el mismo conjunto de datos para responder las siguientes dos preguntas?
¿Cada grupo tiene una pendiente distinta de cero y una intersección distinta de cero y cuáles son los parámetros para cada regresión dentro del grupo?
¿Existe, independientemente de la pertenencia a un grupo, una tendencia no nula y una intercepción no nula y cuáles son los parámetros para esta regresión entre grupos?
En R, el primer modelo sería lm(y ~ group + x:group - 1)
, de modo que los coeficientes estimados podrían interpretarse directamente como la intersección y la pendiente para cada grupo. El segundo modelo seríalm(y ~ x + 1)
.
La alternativa sería lm(y ~ x + group + x:group + 1)
, lo que da como resultado una complicada tabla resumen de coeficientes, con las pendientes e intersecciones dentro del grupo que deben calcularse a partir de las diferencias en las pendientes e intersecciones de alguna referencia. También debe reordenar los grupos y ejecutar el modelo por segunda vez de todos modos para obtener un valor p para la última diferencia de grupo (a veces).
¿Esto usando dos modelos separados afecta negativamente la inferencia de alguna manera o esta práctica estándar?
Para poner esto en contexto, considere x como una dosis de droga y los grupos como razas diferentes. Puede ser interesante conocer la relación dosis-respuesta para una raza en particular para un médico, o para qué carreras funciona el medicamento, pero también puede ser interesante a veces conocer la relación dosis-respuesta para toda la población (humana) independientemente de la raza para un funcionario de salud pública. Este es solo un ejemplo de cómo uno podría estar interesado tanto en el grupo como en las regresiones grupales por separado. Si una relación dosis-respuesta debe ser lineal no es importante.