Estoy tratando de ajustar un modelo logarítmico lineal a una gran cantidad de variables de los datos de la encuesta. Hay algunas razones por las que podría ser preferible ajustar las regresiones logísticas a esos datos. Varias autoridades sugieren que estos son equivalentes. Sin embargo, tengo algunas razones para dudar de esto.
- Los modelos log-lineales tratan todas las variables de manera equivalente, mientras que la regresión logística requiere que una variable se identifique como la variable de respuesta.
En el contexto de mínimos cuadrados, generalmente no se da el caso de que para Y = a + bX + ε versus X = c + dY + ε el parámetro d sea aproximadamente igual a 1 / b. Esto se debe a que la primera ecuación minimiza el error vertical, mientras que la segunda minimiza el error horizontal. Estos serán iguales solo si los errores son simétricos alrededor de la línea estimada. Por lo tanto, me preocupa que esto también sea cierto para la regresión logística. (2) es en realidad solo una forma específica de (1), es decir, una posible asimetría en el formato de regresión a partir de la elección de una variable particular como respuesta.
Si todas las variables en el modelo log-lineal están involucradas en uno o más términos de interacción, no veo cómo una regresión logística puede ser equivalente. ¿Cómo expresaría las interacciones en las que la variable respuesta está involucrada en el contexto de una regresión logística?
En respuesta a Bill Huber, estoy usando el término modelo log-lineal en un sentido considerablemente más restringido que Wikipedia. Me refiero a modelos de datos de recuento categórico u ordinal, organizados en tablas, donde los coeficientes son el recuento total de tablas, los recuentos marginales para cada factor dividido por el recuento total de tablas (que sirven como indicadores de probabilidades) y varios términos de interacción. Este es el sentido utilizado en Agresti, "Análisis de datos categóricos", entre otros.