Siempre me gusta pensar en la regresión logística como lo que sucede si aplica una decisión binaria a un modelo lineal. Es decir, supongamos que hay alguna relación subyacente que sigue el modelo lineal:
y= Xβ+ ε
dónde
X es tu variable independiente y
β el coeficiente (o pendiente) en esa variable, y
εEs ruido aleatorio. Y luego digamos que aplicamos una función a la variable continua
y que lo mapea en un resultado binario:
F( y) = {0 , si y⩽ θ1 , si y> θ
dónde
θEs un umbral. ¿Cuál es la probabilidad de que esta función regrese?
1, dado un cierto valor de
X? Si suponemos que
ε se distribuye normalmente con media
0 0 y varianza
σ2, entonces podemos calcular esta probabilidad como:
p ( f(y) = 1 |X) = p ( y> θ |X) =∫∞θnorte(y;Xβ,σ2) dy
En otras palabras, esto es calcular el área bajo la distribución Normal que está a la derecha del umbral. Tenga en cuenta que esta probabilidad es esencialmente lo que un modelo de regresión logística intenta describir. Y de hecho, si trazas esta probabilidad en función deX, obtienes algo bastante parecido a la función logística (de hecho, la función logística a menudo se usa como una aproximación conveniente a la distribución normal acumulativa).
Para valores de Xβ cerca del umbral, la probabilidad de que y estará por encima del umbral está cerca 0,5porque el ruido εpuede influir en el resultado de cualquier manera. A medida que aumentaX, Xβ se alejará de θ y F(y) = 1se vuelve más probable. Crucialmente, qué tan rápidop ( f(y) = 1 |X) aumenta con X depende de dos cosas: la pendiente β y la varianza del ruido σ2. Más precisamente, depende de la relaciónβσ. Es esta relación (señal a ruido) la que determina el coeficiente (esperado) que se obtiene de una regresión logística. En otras palabras, puede pensar en los coeficientes en una regresión logística como el control de cuánto debe cambiar cada variable independiente en relación con el ruido en los datos para aumentar la probabilidad de un determinado resultado en cierta cantidad.
Ahora para responder a su pregunta: está preguntando si es posible eliminar toda aleatoriedad, es decir, no tener ruido. Esto significaría queσ es igual 0 0, y por lo tanto βσsería indefinido (o "infinito"). Esto explica lo que encontró, que no puede estimar los coeficientes cuando no hay ruido. De hecho, puede pensar que la separación perfecta que logra sin ruido corresponde a un coeficiente infinito en su variable independiente, ya que (paraXβ cerca del umbral θ) solo necesitas cambiar X una cantidad infinitesimal para ir desde p ( y> θ |X) = 0 a p ( y> θ |X) = 1.
Editar: en realidad, una cosa que podría hacer es en lugar de extraer muestras de una distribución binomial para simular sus datos, reemplazar estas muestras por sus expectativas, es decir, la probabilidad predicha por la función logística simulada. De esa manera, está eliminando la aleatoriedad que se deriva de simular una muestra limitada (es decir, la variabilidad del muestreo), y por lo tanto, sus estimaciones de coeficientes deberían ser iguales a la verdad básica (ya que hay una función logística que se ajusta exactamente a estos valores).