Vladimir Vapnik (co-inventor de la máquina de vectores de soporte y teórico líder en aprendizaje computacional) aboga por tratar de resolver el problema directamente, en lugar de resolver un problema más general y luego descartar parte de la información proporcionada por la solución. Generalmente estoy de acuerdo con esto, por lo que sugeriría un enfoque de clasificación para el problema tal como se plantea actualmente. La razón de esto es que si solo estamos interesados en clasificar un proyecto como rentable o no rentable, entonces realmente solo estamos interesados en la región donde la rentabilidad es alrededor de cero. Si formamos un modelo de clasificación, ahí es donde concentraremos nuestros recursos de modelado. Si adoptamos un enfoque de regresión, es posible que estemos desperdiciando recursos de modelado para realizar pequeñas mejoras en el rendimiento de proyectos que serán muy rentables o no rentables, potencialmente a expensas de mejorar el rendimiento de los proyectos límite.
Ahora, la razón por la que dije "como se plantea actualmente", es que muy pocos problemas en realidad implican una clasificación binaria simple y dura (el reconocimiento óptico de caracteres probablemente sería uno). En general, los diferentes tipos de clasificación errónea tienen costos diferentes, o las frecuencias de clase operativa pueden ser desconocidas, o variables, etc. En tales casos, es mejor tener un clasificador probabilístico, como la regresión logística, en lugar de un SVM. Si me parece que para una aplicación financiera, lo haremos mejor si conocemos la probabilidad de que el proyecto sea rentable, y cuán rentable o probable sea. Es muy posible que estemos dispuestos a financiar un proyecto que tiene una pequeña posibilidad de ser rentable, pero masivamente rentable en caso de tener éxito, pero no un proyecto que esté casi garantizado como exitoso, pero que tendrá un margen de beneficio tan pequeño que seríamos es mejor meter el dinero en una cuenta de ahorros.
¡Entonces Frank y Omri374 tienen razón! (+1; o)
EDITAR: Para aclarar por qué la regresión podría no ser siempre un buen enfoque para resolver un problema de clasificación, aquí hay un ejemplo. Digamos que tenemos tres proyectos, con rentabilidad , y para cada proyecto, tenemos una variable explicativa que esperamos sea indicativa de rentabilidad, . Si tomamos un enfoque de regresión (con desplazamiento), obtenemos coeficientes de regresión y (¡siempre que haya hecho las sumas correctamente!). Luego, el modelo predice que los proyectos generarán ganancias , yy⃗ =(−$1000,+$1,+$1000)x⃗ =(1,2,10)β0=−800.8288β1=184.8836y^1≈−$616y^2≈−$431y^3≈$1048. Tenga en cuenta que el segundo proyecto se predice incorrectamente como no rentable. Si, por otro lado, tomamos un enfoque de clasificación y retrocedemos en su lugar en , obtenemos coeficientes de regresión y , que puntúa los tres proyectos de la siguiente manera: , y . Entonces, un enfoque de clasificación clasifica correctamente el proyecto 1 como no rentable y los otros dos como rentables.t⃗ =2∗(y>=0)−1β0=−0.2603β1=0.1370t^1=−0.1233t^2=0.0137t^3=1.1096
La razón por la que esto sucede es que un enfoque de regresión intenta igualmente minimizar la suma de los errores al cuadrado para cada uno de los puntos de datos. En este caso, se obtiene un SSE más bajo al permitir que el proyecto dos caiga en el lado incorrecto del límite de decisión, a fin de lograr errores más bajos en los otros dos puntos.
Por lo tanto, Frank tiene razón al decir que un enfoque de regresión probablemente sea un buen enfoque en la práctica, pero si la clasificación es realmente el objetivo final, hay situaciones en las que puede funcionar mal y un enfoque de clasificación funcionará mejor.