Clasificación versus regresión para la predicción del signo de una variable de respuesta continua

8

Digamos que quiero predecir si un proyecto será rentable o no. En mis datos de muestra, la variable de respuesta es en realidad una variable continua: el $ beneficio / pérdida del proyecto.

Debido a que mi objetivo final es solo una clasificación binaria (proyecto rentable o proyecto no rentable), ¿debería usar una técnica de clasificación? ¿O debería usar la regresión para no tirar la información adicional que proporciona una variable de respuesta continua?

regression classification predictive-models

— usuario2303
fuente

10

No puedo pensar en un ejemplo en el que recomendaría una técnica de clasificación cuando la variable es continua u ordinal. Después de ajustar eficientemente un modelo continuo, puede usar ese modelo para estimar la probabilidad de que exceda cualquier nivel de interés. Si el modelo es gaussiano, esta probabilidad es una función de la media pronosticada y la desviación estándar residual. $Y$

— Frank Harrell
fuente

44

Un ejemplo (como se indica a continuación) es si el costo de la predicción incorrecta es el mismo para todos los niveles de rentabilidad. Es decir. cuando tiene una variable continua, pero realmente solo le interesan los valores discretos. Una spline con n nudos regresados a la variable continua puede poner muchos nudos en los valores extremos para modelar con precisión la forma de los datos allí, mientras que una spline optimizada para la clasificación puede poner todos sus nudos alrededor de 0.

— Peter

9

Vladimir Vapnik (co-inventor de la máquina de vectores de soporte y teórico líder en aprendizaje computacional) aboga por tratar de resolver el problema directamente, en lugar de resolver un problema más general y luego descartar parte de la información proporcionada por la solución. Generalmente estoy de acuerdo con esto, por lo que sugeriría un enfoque de clasificación para el problema tal como se plantea actualmente. La razón de esto es que si solo estamos interesados en clasificar un proyecto como rentable o no rentable, entonces realmente solo estamos interesados en la región donde la rentabilidad es alrededor de cero. Si formamos un modelo de clasificación, ahí es donde concentraremos nuestros recursos de modelado. Si adoptamos un enfoque de regresión, es posible que estemos desperdiciando recursos de modelado para realizar pequeñas mejoras en el rendimiento de proyectos que serán muy rentables o no rentables, potencialmente a expensas de mejorar el rendimiento de los proyectos límite.

Ahora, la razón por la que dije "como se plantea actualmente", es que muy pocos problemas en realidad implican una clasificación binaria simple y dura (el reconocimiento óptico de caracteres probablemente sería uno). En general, los diferentes tipos de clasificación errónea tienen costos diferentes, o las frecuencias de clase operativa pueden ser desconocidas, o variables, etc. En tales casos, es mejor tener un clasificador probabilístico, como la regresión logística, en lugar de un SVM. Si me parece que para una aplicación financiera, lo haremos mejor si conocemos la probabilidad de que el proyecto sea rentable, y cuán rentable o probable sea. Es muy posible que estemos dispuestos a financiar un proyecto que tiene una pequeña posibilidad de ser rentable, pero masivamente rentable en caso de tener éxito, pero no un proyecto que esté casi garantizado como exitoso, pero que tendrá un margen de beneficio tan pequeño que seríamos es mejor meter el dinero en una cuenta de ahorros.

¡Entonces Frank y Omri374 tienen razón! (+1; o)

EDITAR: Para aclarar por qué la regresión podría no ser siempre un buen enfoque para resolver un problema de clasificación, aquí hay un ejemplo. Digamos que tenemos tres proyectos, con rentabilidad , y para cada proyecto, tenemos una variable explicativa que esperamos sea indicativa de rentabilidad, . Si tomamos un enfoque de regresión (con desplazamiento), obtenemos coeficientes de regresión y (¡siempre que haya hecho las sumas correctamente!). Luego, el modelo predice que los proyectos generarán ganancias , y $\vec{y} = (-\$1000,+\$1, +\$1000)$ $\vec{x} = (1, 2, 10)$ $\beta_0 = -800.8288$ $\beta_1 = 184.8836$ $\hat{y}_1 \approx -\$616$ $\hat{y}_2 \approx -\$431$ $\hat{y}_3 \approx \$1048$ . Tenga en cuenta que el segundo proyecto se predice incorrectamente como no rentable. Si, por otro lado, tomamos un enfoque de clasificación y retrocedemos en su lugar en , obtenemos coeficientes de regresión y , que puntúa los tres proyectos de la siguiente manera: , y . Entonces, un enfoque de clasificación clasifica correctamente el proyecto 1 como no rentable y los otros dos como rentables. $\vec{t} = 2*(y >= 0) - 1$ $\beta_0 = -0.2603$ $\beta_1 = 0.1370$ $\hat{t}_1 = -0.1233$ $\hat{t}_2 = 0.0137$ $\hat{t}_3 = 1.1096$

La razón por la que esto sucede es que un enfoque de regresión intenta igualmente minimizar la suma de los errores al cuadrado para cada uno de los puntos de datos. En este caso, se obtiene un SSE más bajo al permitir que el proyecto dos caiga en el lado incorrecto del límite de decisión, a fin de lograr errores más bajos en los otros dos puntos.

Por lo tanto, Frank tiene razón al decir que un enfoque de regresión probablemente sea un buen enfoque en la práctica, pero si la clasificación es realmente el objetivo final, hay situaciones en las que puede funcionar mal y un enfoque de clasificación funcionará mejor.

— Dikran Marsupial
fuente

No puedo seguir esa lógica. Un modelo de clasificación debilita las relaciones en los datos, y un modelo continuo no requiere más recursos de modelado. Un modelo continuo tiene en cuenta que una ganancia de $ 1 (aunque "rentable") es muy diferente a una ganancia de $ 1B. Un modelo de clasificación es una elección forzada donde "no hay opción" (zona gris) no es una opción. Y la ineficiencia estadística de los modelos binarios sobre los continuos es sorprendente. Siempre puede usar un modelo continuo para estimar Prob cuando haya terminado.

[Y > 0 | X]

$[Y > 0 | X]$

— Frank Harrell

El hecho de que un modelo continuo requiera más recursos que un modelo de clasificación depende del tipo de modelo que sea (por ejemplo, un modelo de red neuronal podría usar sus unidades ocultas para modelar características cerca del límite o podría usarlas para mejorar el ajuste fuera del límite) . Lo mismo es cierto en menor medida de los pesos de un modelo lineal, donde los valores ajustados pueden estar dominados por altos puntos de apalancamiento que no están cerca del límite, lo que podría ser algo malo si la clasificación simple fuera lo importante.

— Dikran Marsupial

Su segundo punto sobre la rentabilidad parece ser esencialmente la razón por la que estoy describiendo en mi segundo párrafo (el verdadero problema probablemente no sea en realidad una simple clasificación rígida), por lo que dije que tanto usted como omri374 estaban en lo correcto.

— Dikran Marsupial

"Cerca del límite" es desconocido para un clasificador al que no se le proporcionan los valores continuos .

Y

$Y$

— Frank Harrell

Los sistemas clasificadores se han utilizado para localizar el límite de decisión utilizando etiquetas discretas durante mucho tiempo. Te estás perdiendo el punto, en realidad estoy de acuerdo con lo que has escrito, con la advertencia de que el modelo puede estar sesgado por puntos de alto apalancamiento que no están cerca del límite de decisión, lo que puede reducir el rendimiento si la clasificación es realmente el objetivo ( lo cual es relativamente raro en la práctica). He visto este fenómeno en mi trabajo aplicado a lo largo de los años, pero todavía uso modelos de regresión para resolver problemas de clasificación. Pregúntale al profesor Vapnik.

— Dikran Marsupial

3

Después de leer los comentarios, creo que la siguiente distinción es lo que falta en la discusión:

Cómo modelar el problema

Esto no tiene nada que ver con qué técnica usar. Es la cuestión de cuáles son las entradas y salidas y cómo evaluar el resultado.

Si realmente solo le importa si nuestros proyectos son rentables o no, y la cantidad en la que lo son es absolutamente irrelevante, entonces debe modelar esto como un problema de clasificación. Eso significa que finalmente está optimizando la tasa esperada de clasificación correcta (precisión) o AUC. A qué se traduce esta optimización depende de la técnica que utilice.

Todas las preguntas sobre la elección del modelo y los algoritmos de búsqueda pueden abordarse de manera heurística (utilizando los argumentos que se han presentado en las otras respuestas y comentarios), pero la prueba definitiva del budín está en comer. Independientemente del modelo que tenga, lo evaluará mediante pruebas de validación cruzada para la precisión, por lo que la precisión es lo que optimiza.

Como resolver el problema

Puede usar cualquier método que desee que se ajuste al paradigma de clasificación. Como tiene una variable continua y, puede hacer una regresión sobre eso y traducirla a una clasificación binaria. Esto probablemente funcionará bien. Sin embargo, no hay garantía de que el modelo de regresión óptimo (por suma de errores al cuadrado o máxima probabilidad o lo que sea) también le brinde el modelo de clasificación óptimo (por precisión o AUC).

— Peter
fuente

+1 como máxima general, sugeriría que la primera tarea es tener una idea clara del problema a resolver, y la segunda es abordar el problema con el método que da la respuesta más directa a la pregunta que realmente es ser preguntado. Esta es una ligera generalización de la máxima de Vapnik, ¡pero solo muy leve!

— Dikran Marsupial

Plantear el problema de esa manera todavía no implica que dicotomizar sea el enfoque correcto. Como dije en otra parte, puedes calcular la probabilidad de que da estimados óptimos del coeficiente de regresión a partir de un modelo continuo.

Y

$Y$

Y > 0

$Y>0$

— Frank Harrell

Tenga en cuenta que no estoy diciendo que necesariamente deba tirar o ignorar los valores continuos y. Pero hay una diferencia entre usarlos en un clasificador y optimizar la precisión de la regresión ( modela el problema como clasificación, pero lo resuelve con regresión). Es muy posible que su mejor solución sea un método de regresión, pero debe probarlo evaluándolo como un clasificador. Y hay situaciones en las que desechar los valores continuos y solo usar los valores discretizados le dará un mejor rendimiento.

— Peter

Evaluarlo como un clasificador implica que su función de utilidad es discontinua, lo que no me parece realista. También implica que las decisiones binarias son forzadas, es decir, no hay una categoría de "sin decisiones, obtenga más datos". He creado ejemplos en los que la precisión de la clasificación disminuye después de agregar una variable muy importante al modelo. El problema no es con la variable; Es con la medida de precisión.

— Frank Harrell

Si bien es cierto que puede determinar el límite de decisión si tiene la probabilidad de que , el problema es que estimar esta probabilidad es un problema de estimación más difícil que simplemente estimar el límite de decisión. Como generalmente tenemos una cantidad finita de datos, la dificultad adicional de la estimación significa que el enfoque de dicotomización funciona mejor en la práctica. Esta es la idea que sustenta el SVM, que ha demostrado su valía en una amplia variedad de problemas de clasificación.

Y > 0

$Y >0$

— Dikran Marsupial

1

Un modelo de clasificación generalmente intenta minimizar el signo (error en términos de clase) y no el sesgo. En el caso de muchos valores atípicos, por ejemplo, preferiría usar un modelo de clasificación y no un modelo de regresión.

— Omri374
fuente

Eso no sigue, y será terriblemente ineficiente. Puede usar un modelo continuo robusto que incluye un modelo semiparamétrico como el modelo de probabilidades proporcionales.

— Frank Harrell

0

Enmarcaría el problema como el de minimizar las pérdidas. La pregunta es ¿cuál es su verdadera función de pérdida? ¿Una predicción incorrecta de rentable cuando el proyecto perdió $ 1 cuesta tanto como una predicción de rentabilidad cuando el proyecto perdió $ 1000? En ese caso, su función de pérdida es verdaderamente binaria, y es mejor que lo considere todo como un problema de clasificación. La función de regresión aún puede ser uno de sus clasificadores candidatos, pero debe optimizarla con la función de pérdida discreta en lugar de la continua. Si tiene una definición más complicada de pérdida, entonces debe intentar formalizarla y ver qué obtiene si toma la derivada.

Curiosamente, muchos métodos de aprendizaje automático realmente optimizan una función de pérdida discreta al aproximarse a una función continua, ya que una función de pérdida discreta proporciona gradientes pobres para la optimización. Por lo tanto, puede terminar convirtiéndolo en un problema de clasificación, ya que esa es su función de pérdida, pero luego aproxima esa función de pérdida con la función continua original.

— Peter
fuente

Eso no cuenta toda la historia. Con la regresión gaussiana, el estimador de máxima verosimilitud de Prob es una función de la media prevista y la varianza residual.

[Y > 0 | X]

$[Y > 0 | X]$

— Frank Harrell

Eso es interesante. Pero ML no es el objetivo final, es precisión o AUC. Si está optimizando la probabilidad (o SSE), puede terminar "gastando complejidad del modelo" en modelar artefactos de datos que no importan. Un modelo equivalente en realidad puede reducir la precisión de su modelado para enfocarse en mejorar la precisión de la clasificación.

— Peter

Depende de lo que quiere decir con "precisión", y AUC rara vez es una cantidad adecuada para optimizar debido a su función de pérdida implícita. No necesita gastar la complejidad del modelo en artefactos si realiza correctamente el modelado continuo. La proporción clasificada correcta es una regla de puntuación incorrecta que está optimizada por un modelo falso. Si 0.99 de las compañías son rentables en un buen año, sería correcto 0.99 ignorando todas las

X

$X$ datos y simplemente clasificando a todas las empresas como rentables. El uso de predictores valiosos (en cualquier sentido que no sea la clasificación) puede hacer que la precisión de la clasificación realmente disminuya.

— Frank Harrell

Estoy de acuerdo con sus dudas sobre AUC. Por precisión, me refiero a la proporción clasificada correctamente. Estoy de acuerdo en que es poco probable que el póster realmente solo esté interesado en las variables binarias, y sospecho que en realidad la cantidad de ganancia obtenida juega algún papel. Pero si la clasificación discreta es realmente la única preocupación, entonces no veo nada más que optimizar, excepto una medida de clasificación. Y si sus clases son muy sesgadas hacia la clase rentable, ignorar los datos y siempre clasificarlos como rentables será una línea de base difícil de superar.

— Peter

La proporción clasificada correctamente funciona incluso peor que el AUC. Se demostró en la literatura alemana de toma de decisiones en la década de 1970 que la precisión de la clasificación es una regla de puntuación inadecuada. Si le preocupa la clasificación discreta, puede obtenerla en el último segundo. Las decisiones óptimas de Bayes utilizan el condicionamiento total de toda la información disponible.

— Frank Harrell