¿Cuál es la diferencia entre regresión lineal y regresión logística?


122

¿Cuál es la diferencia entre regresión lineal y regresión logística?

¿Cuándo usarías cada uno?


28
En el modelo de regresión lineal, la variable dependiente y se considera continua, mientras que en la regresión logística es categórica, es decir, discreta. En la aplicación, el primero se usa en configuraciones de regresión, mientras que el segundo se usa para clasificación binaria o clasificación de varias clases (donde se llama regresión logística multinomial).
Pardis

Aunque está escrito en un contexto diferente, puede ayudarte leer mi respuesta aquí: Diferencia entre modelos logit y probit , que contiene mucha información sobre lo que está sucediendo en la regresión logística que puede ayudarte a entenderlos mejor.
gung

2
Todas las respuestas anteriores son correctas, pero hay razones por las que podría favorecer un modelo de regresión lineal incluso cuando su resultado sea una dicotomía. He escrito sobre estas razones aquí: statisticshorizons.com/linear-vs-logistic
Paul von Hippel

Respuestas:


111

Y=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

Y

Y=1

P(Y=1)=11+e(b0+(biXi))

XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOddsOdds(Xi+1)Odds(Xi)Y=1ebiXi

Ejemplo: si quisiera ver cómo el índice de masa corporal predice el colesterol en la sangre (una medida continua), usaría la regresión lineal como se describe en la parte superior de mi respuesta. Si quisiera ver cómo el IMC predice las probabilidades de ser diabético (un diagnóstico binario), usaría la regresión logística.


1
ϵi

Me parece que Bill tenía la intención de escribir, es decir (abreviatura latina para eso es) en lugar de ei
Michael Chernick

1
Pero el εi en la suma del exponente no debería estar allí. Parece que el término de ruido en el modelo fue llevado accidentalmente allí. La única suma debe ser sobre el bis que representa los coeficientes p para las covariables p.
Michael Chernick

99
P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}

3
La regresión logística de @samthebrand no es binaria per se. Se puede usar para modelar datos con una respuesta binaria a través de probabilidades que oscilan entre 0 y 1. Ir a conectar descaradamente mi publicación de blog sobre esto, lo que debería aclarar su confusión.
Ben

34

La regresión lineal se utiliza para establecer una relación entre las variables dependientes e independientes, lo cual es útil para estimar la variable dependiente resultante en caso de cambio de variable independiente. Por ejemplo:

Usando una regresión lineal, se encuentra que la relación entre Rain (R) y Umbrella Sales (U) es - U = 2R + 5000

Esta ecuación dice que por cada 1 mm de lluvia, hay una demanda de 5002 paraguas. Entonces, usando la regresión simple, puede estimar el valor de su variable.

La regresión logística, por otro lado, se utiliza para determinar la probabilidad de un evento. Y este evento se captura en formato binario, es decir, 0 o 1.

Ejemplo: quiero determinar si un cliente comprará mi producto o no. Para esto, ejecutaría una Regresión logística en los datos (relevantes) y mi variable dependiente sería una variable binaria (1 = Sí; 0 = No).

En términos de representación gráfica, la regresión lineal proporciona una línea lineal como salida, una vez que los valores se trazan en el gráfico. Mientras que, la regresión logística da una línea en forma de S

Referencia de Mohit Khurana.


8
Re: "La regresión lineal se usa para establecer una relación entre las variables dependientes e independientes" - esto también es cierto sobre la regresión logística - es solo que la variable dependiente es binaria.
Macro

3
La regresión logística no es solo para predecir un evento binario ( clases). Se puede generalizar a clases (regresión logística multinomial)2k
tgy

27

DocBuckets y Pardis han resuelto las diferencias, pero quiero agregar una forma de comparar su rendimiento no mencionado.

La regresión lineal generalmente se resuelve minimizando el error de mínimos cuadrados del modelo a los datos, por lo tanto, los errores grandes se penalizan de forma cuadrática. La regresión logística es todo lo contrario. El uso de la función de pérdida logística hace que grandes errores sean penalizados a una asintóticamente constante.

Considere la regresión lineal en resultados categóricos {0,1} para ver por qué esto es un problema. Si su modelo predice que el resultado es 38 cuando la verdad es 1, no ha perdido nada. La regresión lineal trataría de reducir ese 38, la logística no lo haría (tanto).


¿Entonces, las situaciones / casos que son penalizados en una logística, es decir, en qué casos tendríamos un mal ajuste?
MSIS

1
Todo lo contrario: siempre que las desviaciones más grandes del ajuste realmente producen peores resultados. Por ejemplo, la regresión logística es buena para mantenerte golpeando un tablero de dardos, pero no puede hacer que una diana se vea bien. O, de manera similar, piensa que una falta cercana al tablero es lo mismo que pegar a tu vecino.
J. Abrahamson

Gran respuesta. ¿Se ha realizado alguna investigación sobre cuánto perjudica el rendimiento del modelo? Quiero decir si se usó una regresión lineal para predecir la respuesta = {0,1} en lugar de una regresión logística.
Tagar
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.