¿Por qué la regresión logística es un clasificador lineal?

Dado que estamos utilizando la función logística para transformar una combinación lineal de la entrada en una salida no lineal, ¿cómo se puede considerar la regresión logística como un clasificador lineal?

La regresión lineal es como una red neuronal sin la capa oculta, entonces, ¿por qué las redes neuronales se consideran clasificadores no lineales y la regresión logística es lineal?

logistic classification neural-networks

— Jack Twain
fuente

La transformación de "una combinación lineal de la entrada en una salida no lineal" es una parte básica de la definición de un clasificador lineal . Eso reduce esta pregunta a la segunda parte, lo que equivale a demostrar que las redes neuronales generalmente no pueden expresarse como clasificadores lineales.

— whuber

@whuber: ¿Cómo explica el hecho de que un modelo de regresión logística puede tomar variables predictoras polinómicas (por ejemplo, ) para producir un límite de decisión no lineal? ¿Sigue siendo un clasificador lineal?

w_{1} \cdot x_{1}^{2} + w_{2} \cdot x_{2}^{3}

$w_1 \cdot x_1^2 + w_2 \cdot x_2^3$

— stackoverflowuser2010

@Stack El concepto de "clasificador lineal" parece originarse con el concepto de un modelo lineal. La "linealidad" en un modelo puede adoptar varias formas, como se describe en stats.stackexchange.com/a/148713 . Si aceptamos la caracterización de Wikipedia de los clasificadores lineales , su ejemplo polinomial se consideraría no lineal en términos de las "características" y pero sería lineal en términos de las características y . Esta distinción proporciona una forma útil de explotar las propiedades de linealidad.

x_{1}

$x_1$

x_{2}

$x_2$

x_{1}^{2}

$x_1^2$

x_{2}^{3}

$x_2^3$

— whuber

Todavía estoy un poco confundido acerca de la pregunta: ¿el límite de decisión de un clasificador logístico es lineal? Seguí el curso de aprendizaje automático Andrew Ng en Coursera y mencionó lo siguiente :! [ Ingrese la descripción de la imagen aquí ] ( i.stack.imgur.com/gHxfr.png ) Así que en realidad me parece que no hay nadie que responda depende de la linealidad o no linealidad del límite de decisión, eso depende de la función Hipótesis definida como Htheta (X) donde X es la entrada y Theta son las variables de nuestro problema. ¿Tiene sentido para ti?

— brokensword

Respuestas:

La regresión logística es lineal en el sentido de que las predicciones se pueden escribir como Por lo tanto, la predicción se puede escribir en términos de , que es una función lineal de . (Más precisamente, el log-odds predicho es una función lineal de ).

\hat{p} = \frac{1}{1 + e^{- \hat{μ}}}, where \hat{μ} = \hat{θ} \cdot x .

$\hat{p} = \frac{1}{1 + e^{-\hat{\mu}}}, \text{ where } \hat{\mu} = \hat{\theta} \cdot x.$

\hat{μ}

$\hat{\mu}$

x

$x$

x

$x$

Por el contrario, no hay forma de resumir la salida de una red neuronal en términos de una función lineal de , y es por eso que las redes neuronales se denominan no lineales. $x$

Además, para la regresión logística, el límite de decisión es lineal: es la solución a . El límite de decisión de una red neuronal en general no es lineal. $\{x:\hat{p} = 0.5\}$ $\hat{\theta} \cdot x = 0$

— Stefan Wager
fuente

Su respuesta es la más clara y sencilla para mí hasta ahora. Pero estoy un poco confundido. Algunas personas dicen que el log-odds predicado es una función lineal de y otros dicen que es una función lineal de . ¡¿Entonces?!

x

$x$

θ

$\theta$

— Jack Twain

entonces también por tu explicación. ¿Podemos decir que la predicción de la red neuronal es una función lineal de las activaciones de la última capa oculta?

— Jack Twain

Las probabilidades de registro predichas son lineales tanto en como en . Pero generalmente estamos más interesados en el hecho de que las probabilidades de registro son lineales en , porque esto implica que el límite de decisión es lineal en espacio.

\hat{θ} \cdot x

$\hat{\theta} \cdot x$

\hat{θ}

$\hat{\theta}$

x

$x$

x

$x$

x

$x$

— Stefan Wager

He estado usando la definición de que un clasificador es lineal si su límite de decisión es lineal en espacio. Esto no es lo mismo que las probabilidades predichas siendo lineales en (lo que sería imposible aparte de casos triviales, ya que las probabilidades deben estar entre 0 y 1).

x

$x$

x

$x$

— Stefan Wager

@Pegah Sé que esto es viejo, pero: la regresión logística tiene un límite de decisión lineal. La salida en sí misma no es lineal, por supuesto, es logística. Dependiendo de qué lado de la línea cae un punto, la salida total se acercará (pero nunca alcanzará) 0 o 1 respectivamente. Y para agregar a la respuesta de Stefan Wagners: la última oración no es totalmente correcta, una red neuronal no es lineal cuando contiene activaciones no lineales o funciones de salida. Pero también puede ser lineal (en caso de que no se hayan agregado no linealidades).

— Chris

Como señala Stefan Wagner, el límite de decisión para un clasificador logístico es lineal. (El clasificador necesita que las entradas sean linealmente separables). Quería ampliar las matemáticas para esto en caso de que no sea obvio.

\frac{1}{1 + e^{- θ \cdot x}} = 0.5

${1 \over {1 + e^{-{\theta \cdot x}}}} = 0.5$

1 = e^{- θ \cdot x}

${1 = e^{-{\theta \cdot x}}}$

y, tomando el registro natural de ambos lados,

0 = - θ \cdot x = - \sum_{i = 0}^{n} θ_{i} x_{i}

$0 = -\theta \cdot x = -\sum\limits_{i=0}^{n} \theta_i x_i$

entonces el límite de decisión es lineal.

La razón por la cual el límite de decisión para una red neuronal no es lineal es porque hay dos capas de funciones sigmoideas en la red neuronal: una en cada uno de los nodos de salida más una función sigmoide adicional para combinar y umbralizar los resultados de cada nodo de salida.

— Phil Bogle
fuente

En realidad, puede obtener un límite de decisión no lineal con solo una capa que tiene una activación. Vea el ejemplo estándar de un XOR con una red de alimentación de 2 capas.

— James Hirschorn el

$C_{0}$ $C_{1}$

P (C_{0} | x) = \frac{P (x | C_{0}) P (C_{0})}{P (x)}

$P(C_{0}|x) = \frac{P(x|C_{0})P(C_{0})}{P(x)}$

P (C_{0} | x) = \frac{P (x | C_{0}) P (C_{0})}{P (x | C_{0}) P (C_{0}) + P (x | C_{1}) P (C_{1})} = \frac{1}{1 + \exp (- \log \frac{P (x | C_{0})}{P (x | C_{1})} - \log \frac{P (C_{0})}{P (C_{1})})}

$P(C_{0}|x) = \frac{P(x|C_{0})P(C_{0})}{P(x|C_{0})P(C_{0})+P(x|C_{1})P(C_{1})} = \frac{1}{1+ \exp\left(-\log\frac{P(x|C_{0})}{P(x|C_{1})}-\log \frac{P(C_{0})}{P(C_{1})}\right)}$

1 + e^{ω x}

$1+e^{\omega x}$

P (x | C_{i}) = \exp (\frac{θ_{i} x - b (θ_{i})}{a (ϕ)} + c (x, ϕ))

$P(x|C_{i}) = \exp \left(\frac{\theta_{i} x -b(\theta_{i})}{a(\phi)}+c(x,\phi)\right)$

\log \frac{P (x | C_{0})}{P (x | C_{1})} = [(θ_{0} - θ_{1}) x - b (θ_{0}) + b (θ_{1})] / a (ϕ)

$\log\frac{P(x|C_{0})}{P(x|C_{1})} = \left[ (\theta_{0}-\theta_{1})x - b(\theta_{0})+b(\theta_{1}) \right]/a(\phi)$

Tenga en cuenta que suponemos que ambas distribuciones pertenecen a la misma familia y tienen los mismos parámetros de dispersión. Pero, bajo ese supuesto, la regresión logística puede modelar las probabilidades para toda la familia de distribuciones exponenciales.

— jpmuc
fuente