"... enfoque el problema de clasificación a través de la regresión ..." por "regresión" Asumiré que se refiere a la regresión lineal, y compararé este enfoque con el enfoque de "clasificación" de ajustar un modelo de regresión logística.
Antes de hacer esto, es importante aclarar la distinción entre los modelos de regresión y clasificación. Los modelos de regresión predicen una variable continua, como la cantidad de lluvia o la intensidad de la luz solar. También pueden predecir probabilidades, como la probabilidad de que una imagen contenga un gato. Se puede usar un modelo de regresión de predicción de probabilidad como parte de un clasificador imponiendo una regla de decisión; por ejemplo, si la probabilidad es del 50% o más, decida que es un gato.
La regresión logística predice las probabilidades y, por lo tanto, es un algoritmo de regresión. Sin embargo, se describe comúnmente como un método de clasificación en la literatura de aprendizaje automático, porque puede usarse (y a menudo) para hacer clasificadores. También hay algoritmos de clasificación "verdaderos", como SVM, que solo predicen un resultado y no proporcionan una probabilidad. No discutiremos este tipo de algoritmo aquí.
Regresión lineal versus regresión logística en problemas de clasificación
Como lo explica Andrew Ng , con la regresión lineal, usted ajusta un polinomio a través de los datos; por ejemplo, como en el ejemplo a continuación, ajustamos una línea recta a través del conjunto de muestras {tamaño de tumor, tipo de tumor} :
Arriba, los tumores malignos obtienen y los no malignos obtienen , y la línea verde es nuestra hipótesis . Para hacer predicciones, podemos decir que para cualquier tamaño de tumor dado , si es mayor que10 0h ( x )Xh ( x )0.5 0.5 , predecimos tumor maligno, de lo contrario, predecimos benigno.
Parece de esta manera que podríamos predecir correctamente cada muestra de conjunto de entrenamiento, pero ahora cambiemos un poco la tarea.
Intuitivamente, está claro que todos los tumores que superan cierto umbral son malignos. Así que agreguemos otra muestra con un tamaño de tumor enorme y volvamos a realizar una regresión lineal:
h ( x ) > 0.5 → m a l i gn a n th ( x ) > 0.2 o algo así, pero no es así como debería funcionar el algoritmo.
No podemos cambiar la hipótesis cada vez que llega una nueva muestra. En cambio, deberíamos aprenderlo de los datos del conjunto de entrenamiento, y luego (usando la hipótesis que hemos aprendido) hacer predicciones correctas para los datos que no hemos visto antes.
Espero que esto explique por qué la regresión lineal no es la mejor opción para los problemas de clasificación. Además, es posible que desee ver VI. Regresión logística. Video de clasificación en ml-class.org que explica la idea con más detalle.
EDITAR
Probableislogic preguntó qué haría un buen clasificador. En este ejemplo en particular, probablemente usaría una regresión logística que podría aprender una hipótesis como esta (solo estoy inventando esto):
Tenga en cuenta que tanto la regresión lineal y regresión logística le dará una línea recta (o un polinomio de orden superior), pero esas líneas tienen un significado diferente:
- h ( x )XX
- h ( x )Xh ( x ) > 0.5 , obtendrá un clasificador, y en muchos casos esto es lo que se hace con la salida de un modelo de regresión logística. Esto es equivalente a poner una línea en la gráfica: todos los puntos que se encuentran por encima de la línea del clasificador pertenecen a una clase, mientras que los puntos a continuación pertenecen a la otra clase.
Entonces, la conclusión es que en el escenario de clasificación usamos un razonamiento completamente diferente y un algoritmo completamente diferente que en el escenario de regresión.