¿Cuál es la diferencia entre regresión lineal y regresión logística?
¿Cuándo usarías cada uno?
¿Cuál es la diferencia entre regresión lineal y regresión logística?
¿Cuándo usarías cada uno?
Respuestas:
Ejemplo: si quisiera ver cómo el índice de masa corporal predice el colesterol en la sangre (una medida continua), usaría la regresión lineal como se describe en la parte superior de mi respuesta. Si quisiera ver cómo el IMC predice las probabilidades de ser diabético (un diagnóstico binario), usaría la regresión logística.
La regresión lineal se utiliza para establecer una relación entre las variables dependientes e independientes, lo cual es útil para estimar la variable dependiente resultante en caso de cambio de variable independiente. Por ejemplo:
Usando una regresión lineal, se encuentra que la relación entre Rain (R) y Umbrella Sales (U) es - U = 2R + 5000
Esta ecuación dice que por cada 1 mm de lluvia, hay una demanda de 5002 paraguas. Entonces, usando la regresión simple, puede estimar el valor de su variable.
La regresión logística, por otro lado, se utiliza para determinar la probabilidad de un evento. Y este evento se captura en formato binario, es decir, 0 o 1.
Ejemplo: quiero determinar si un cliente comprará mi producto o no. Para esto, ejecutaría una Regresión logística en los datos (relevantes) y mi variable dependiente sería una variable binaria (1 = Sí; 0 = No).
En términos de representación gráfica, la regresión lineal proporciona una línea lineal como salida, una vez que los valores se trazan en el gráfico. Mientras que, la regresión logística da una línea en forma de S
Referencia de Mohit Khurana.
DocBuckets y Pardis han resuelto las diferencias, pero quiero agregar una forma de comparar su rendimiento no mencionado.
La regresión lineal generalmente se resuelve minimizando el error de mínimos cuadrados del modelo a los datos, por lo tanto, los errores grandes se penalizan de forma cuadrática. La regresión logística es todo lo contrario. El uso de la función de pérdida logística hace que grandes errores sean penalizados a una asintóticamente constante.
Considere la regresión lineal en resultados categóricos {0,1} para ver por qué esto es un problema. Si su modelo predice que el resultado es 38 cuando la verdad es 1, no ha perdido nada. La regresión lineal trataría de reducir ese 38, la logística no lo haría (tanto).