Regresión logarítmica lineal versus regresión logística

21

¿Alguien puede proporcionar una lista clara de las diferencias entre la regresión log-lineal y la regresión logística? Entiendo que el primero es un modelo de regresión lineal simple, pero no tengo claro cuándo se debe usar cada uno.

— usuario38133
fuente

19

El nombre es un poco inapropiado. Los modelos log-lineales se utilizaron tradicionalmente para el análisis de datos en un formato de tabla de contingencia. Si bien los "datos de conteo" no necesariamente tienen que seguir una distribución de Poisson, el modelo log-lineal es en realidad solo un modelo de regresión de Poisson. De ahí el nombre "log" (los modelos de regresión de Poisson contienen una función de enlace "log").

Una "variable de resultado transformada logarítmicamente" en un modelo de regresión lineal no es un modelo logarítmico lineal (tampoco es una variable de resultado exponencial, como sugeriría "logarítmica lineal"). Tanto los modelos log-lineales como las regresiones logísticas son ejemplos de modelos lineales generalizados , en los cuales la relación entre un predictor lineal (como log-odds o log-rates) es lineal en las variables del modelo. No son "modelos de regresión lineal simple" (o modelos que usan el formato habitual ). $E[Y|X] = a + bX$

A pesar de todo eso, es posible obtener una inferencia equivalente en las asociaciones entre variables categóricas utilizando la regresión logística y la regresión de Poisson. Es solo que en el modelo de Poisson, las variables de resultado se tratan como covariables. Curiosamente, puede configurar algunos modelos que toman prestada información entre grupos de una manera muy similar a un modelo de probabilidades proporcionales, pero esto no se entiende bien y rara vez se usa.

Ejemplos de obtención de inferencia equivalente en modelos de regresión logística y de Poisson usando R ilustrado a continuación:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

Interesante, la falta de asociación entre y significa que la razón de posibilidades es 1 en el modelo de regresión logística y, del mismo modo, el término de interacción es 0 en el modelo loglineal. Le da una idea de cómo medimos la independencia condicional en los datos de la tabla de contingencia. $y$ $x$

— AdamO
fuente

De nuevo, esto probablemente muestra mi inexperiencia, pero ¿podría proporcionar una definición para las tablas de contingencia? También puede ayudar a otros que se encuentran con esta pregunta.

— user38133

Las tablas de contingencia son (generalmente) tablas bidimensionales que enumeran todas las respuestas posibles de dos variables y muestran la frecuencia de las observaciones en las celdas. Por ejemplo, puede tener una tabla de contingencia de 2 por 2 que muestra el estado de fumar (nunca versus actual) y el cáncer (cáncer de pulmón frente a ningún cáncer) que usaría para estimar la asociación entre fumar y el riesgo de cáncer.

— AdamO

15

No creo que llamaría a ninguno de ellos un "modelo de regresión lineal simple". Aunque es posible usar las transformaciones log o logit como la función de enlace para varios modelos diferentes, se entiende que estos se refieren a modelos específicos. Por ejemplo, se entiende por "regresión logística" un modelo lineal generalizado (GLiM) para situaciones en las que la variable de respuesta se distribuye como un binomio . Además, se entiende por "regresión logarítmica lineal" un Poisson GLiM aplicado a tablas de contingencia de múltiples vías.. En otras palabras, más allá del hecho de que ambos son modelos de regresión / GLiM, no los veo necesariamente como muy similares (hay algunas conexiones entre ellos, como señala @AdamO, pero los usos típicos son bastante distintos). La mayor diferencia sería que la regresión logística supone que la respuesta se distribuye como un binomio y la regresión logarítmica lineal supone que la respuesta se distribuye como Poisson . De hecho, la regresión lineal logarítmica es bastante diferente de la mayoría de los modelos de regresión en que la variable de respuesta no es realmente una de sus variables (en el sentido habitual), sino el conjunto de conteos de frecuencia asociados con las combinaciones de sus variables en la tabla de contingencia multidireccional.

— gung - Restablece a Monica
fuente

¡Gracias! Supongo que mi pregunta de seguimiento natural, una que probablemente muestra mi falta de experiencia, es sobre cómo determinar cuál es la distribución correcta para modelar un problema dado. Creo que tendré que leer un poco más para asegurarme de que siempre puedo elegir correctamente.

— user38133

2

{0, 1}

$\{0,\ 1\}$

0

Para aclarar, una regresión logística "binaria" tiene una variable dependiente con dos resultados. Tengo entendido que también existe la opción de utilizar una regresión logística "multinomial" si su variable de resultado dependiente tiene más de 2 categorías. Ver aquí .

— M. Phipps
fuente