Actualmente me estoy enseñando cómo hacer la clasificación, y específicamente estoy mirando tres métodos: máquinas de vectores de soporte, redes neuronales y regresión logística. Lo que intento entender es por qué la regresión logística funcionaría mejor que las otras dos.
Desde mi comprensión de la regresión logística, la idea es ajustar una función logística a todos los datos. Entonces, si mis datos son binarios, todos mis datos con la etiqueta 0 deben asignarse al valor 0 (o cerca de él), y todos mis datos con el valor 1 deben asignarse al valor 1 (o cerca de él). Ahora, debido a que la función logística es continua y suave, realizar esta regresión requiere que todos mis datos se ajusten a la curva; no se aplica mayor importancia a los puntos de datos cerca del límite de decisión, y todos los puntos de datos contribuyen a la pérdida en diferentes cantidades.
Sin embargo, con máquinas de vectores de soporte y redes neuronales, solo aquellos puntos de datos cercanos al límite de decisión son importantes; Mientras un punto de datos permanezca en el mismo lado del límite de decisión, contribuirá con la misma pérdida.
Por lo tanto, ¿por qué la regresión logística podría superar a las máquinas de vectores de soporte o las redes neuronales, dado que "desperdicia recursos" al tratar de ajustar una curva a muchos datos sin importancia (fácilmente clasificables), en lugar de centrarse solo en los datos difíciles en torno a la decisión ¿Perímetro?