¿La regresión logística es realmente un algoritmo de regresión?

11

La definición habitual de regresión (que yo sepa) es predecir una variable de salida continua a partir de un conjunto dado de variables de entrada .

La regresión logística es un algoritmo de clasificación binaria, por lo que produce una salida categórica.

¿Es realmente un algoritmo de regresión? Si es así, ¿por qué?

algorithms logistic-regression

— joews
fuente

23

La regresión logística es la regresión, ante todo. Se convierte en un clasificador al agregar una regla de decisión. Daré un ejemplo que va hacia atrás. Es decir, en lugar de tomar datos y ajustar un modelo, voy a comenzar con el modelo para mostrar cómo este es realmente un problema de regresión.

En la regresión logística, estamos modelando las probabilidades de registro, o logit, de que ocurra un evento, que es una cantidad continua. Si la probabilidad de que ocurra el evento es , las probabilidades son: $A$ $P(A)$

\frac{PAGS (UN)}{1 - PAGS (UN)}

$\frac{P(A)}{1 - P(A)}$

Las probabilidades de registro, entonces, son:

Iniciar sesión (\frac{PAGS (UN)}{1 - PAGS (UN)})

$\log \left( \frac{P(A)}{1 - P(A)}\right)$

Como en la regresión lineal, modelamos esto con una combinación lineal de coeficientes y predictores:

logit = {si}_{0 0} + {si}_{1} X_{1} + {si}_{2} X_{2} + \dots

$\operatorname{logit} = b_0 + b_1x_1 + b_2x_2 + \cdots$

Imagine que se nos da un modelo de si una persona tiene canas. Nuestro modelo usa la edad como el único predictor. Aquí, nuestro evento A = una persona tiene canas:

probabilidades de registro de canas = -10 + 0.25 * edad

...¡Regresión! Aquí hay un código de Python y una trama:

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

x = np.linspace(0, 100, 100)

def log_odds(x):
    return -10 + .25 * x

plt.plot(x, log_odds(x))
plt.xlabel("age")
plt.ylabel("log odds of gray hair")

gráfico de las probabilidades de registro para nuestro ejemplo de juguete

$P(A)$

PAGS (UN) = \frac{1}{1 + Exp (- probabilidades de registro))}

$P(A) = \frac1{1 + \exp(-\text{log odds}))}$

Aquí está el código:

plt.plot(x, 1 / (1 + np.exp(-log_odds(x))))
plt.xlabel("age")
plt.ylabel("probability of gray hair")

gráfico de la probabilidad de canas para nuestro ejemplo de juguete

$P(A) > 0.5$

La regresión logística también funciona muy bien como clasificador en ejemplos más realistas, pero antes de que pueda ser un clasificador, ¡debe ser una técnica de regresión!

— Ben
fuente

Aunque en la práctica las personas usan la regresión logística como sinónimo de regresión logística + clasificador binario.

— jinawee

10

Respuesta corta

Sí, la regresión logística es un algoritmo de regresión y predice un resultado continuo: la probabilidad de un evento. Que lo usemos como clasificador binario se debe a la interpretación del resultado.

Detalle

La regresión logística es un tipo de modelo de regresión lineal generalizado.

En un modelo de regresión lineal ordinario, un resultado continuo y, se modela como la suma del producto de predictores y su efecto:

y = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

donde eesta el error

Los modelos lineales generalizados no modelan ydirectamente. En cambio, usan transformaciones para expandir el dominio de ytodos los números reales. Esta transformación se llama función de enlace. Para la regresión logística, la función de enlace es la función logit (generalmente, vea la nota a continuación).

La función logit se define como

ln(y/(1 + y))

Así, la forma de regresión logística es:

ln(y/(1 + y)) = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

donde yes la probabilidad de un evento

El hecho de que lo usemos como clasificador binario se debe a la interpretación del resultado.

Nota: probit es otra función de enlace utilizada para la regresión logística, pero logit es la más utilizada.

— Christopher Louden
fuente

1

Mientras discute la definición de regresión está prediciendo una variable continua. La regresión logística es un clasificador binario. La regresión logística es la aplicación de una función logit en la salida de un enfoque de regresión habitual. La función Logit convierte (-inf, + inf) en [0,1]. Creo que es solo por razones históricas que mantiene ese nombre.

Al decir algo como "Hice una regresión para clasificar las imágenes. En particular, usé regresión logística". Está Mal.

— iliasfl
fuente

2

La regresión logística se puede usar como un clasificador binario, pero no es inherentemente uno. Podría estar usándolo para estimar probabilidades o determinar la relación de una variable predictora con el resultado.

— MattBagg

0

En pocas palabras, cualquier función hipotética $f$ hace para el algoritmo de regresión si $f:X\rightarrow \mathbb{R}$ . Por lo tanto, la función logística que es $P(Y=1|\lambda, x)=\dfrac{1}{1+e^{-\lambda^Tx}} \in [0,1]$ hace un algoritmo de regresión. aquí $\lambda$ es el coeficiente o hiperplano encontrado de conjuntos de datos entrenados y $x$ Es un punto de datos. Aquí, $sign(P(Y=1|\lambda, x))$ Se toma como clase.

— Sr. Sigma.
fuente