Los problemas de clasificación de texto tienden a ser de dimensiones bastante altas (muchas características), y es probable que los problemas de dimensiones altas sean separables linealmente (ya que puede separar cualquier punto d + 1 en un espacio d-dimensional con un clasificador lineal, independientemente de cómo los puntos están etiquetados). Por lo tanto, es probable que los clasificadores lineales, ya sean regresión de crestas o SVM con un núcleo lineal, funcionen bien. En ambos casos, el parámetro de cresta o C para el SVM (como tdc menciona +1) controla la complejidad del clasificador y ayuda a evitar el sobreajuste al separar los patrones de cada clase por márgenes grandes (es decir, la superficie de decisión pasa por el medio de la brecha entre las dos colecciones de puntos). Sin embargo, para obtener un buen rendimiento, los parámetros de cresta / regularización deben ajustarse correctamente (utilizo la validación cruzada de dejar uno fuera, ya que es barato).
Sin embargo, la razón por la que la regresión de crestas funciona bien es que los métodos no lineales son demasiado potentes y es difícil evitar un ajuste excesivo. Puede haber un clasificador no lineal que ofrezca un mejor rendimiento de generalización que el mejor modelo lineal, pero es demasiado difícil estimar esos parámetros utilizando la muestra finita de datos de entrenamiento que tenemos. En la práctica, cuanto más simple es el modelo, menos problemas tenemos para estimar los parámetros, por lo que hay menos tendencia a un ajuste excesivo, por lo que obtenemos mejores resultados en la práctica.
Otro problema es la selección de características, la regresión de crestas evita el sobreajuste al regularizar los pesos para mantenerlos pequeños, y la selección del modelo es sencilla, ya que solo tiene que elegir el valor de un único parámetro de regresión. Si intenta evitar el sobreajuste eligiendo el conjunto óptimo de características, la selección del modelo se vuelve difícil ya que hay un grado de libertad (más o menos) para cada característica, lo que hace posible que se ajuste demasiado el criterio de selección de características y usted terminar con un conjunto de características que es óptimo para esta muestra particular de datos, pero que ofrece un rendimiento deficiente de generalización. Por lo tanto, no realizar la selección de funciones y usar la regularización a menudo puede proporcionar un mejor rendimiento predictivo.
A menudo uso Bagging (formar un comité de modelos entrenados en muestras de arranque del conjunto de entrenamiento) con modelos de regresión de cresta, que a menudo proporciona una mejora en el rendimiento, y como todos los modelos son lineales, puede combinarlos para formar un solo modelo lineal. , por lo que no hay un rendimiento afectado en la operación.