En realidad, la PNL es una de las áreas más comunes en las que se necesita volver a muestrear datos, ya que hay muchas tareas de clasificación de texto que se ocupan de un problema desequilibrado (piense en el filtrado de spam, la detección de comentarios insultantes, la clasificación de artículos, etc.). Pero SMOTE parece ser problemático aquí por algunas razones:
- SMOTE funciona en el espacio de características. Significa que la salida de SMOTE no es un dato sintético que es un representante real de un texto dentro de su espacio de características.
- Por un lado, SMOTE funciona con KNN y, por otro lado, los espacios de características para el problema de PNL son dramáticamente enormes. KNN fallará fácilmente en esas enormes dimensiones.
Entonces puedo proponerle dos enfoques:
- No me importa la representación de texto real de nuevas muestras sintéticas, que supongo que debería estar bien. Debe equilibrar la distribución para su clasificador, no para un lector de datos de texto. Por lo tanto, aplique SMOTE como tradicional (sin embargo, generalmente uso la solución 2 a continuación para no garantizar el resultado) con algún paso de Reducción de dimensionalidad.
1) Supongamos que desea hacer que sus muestras de datos de clase menor doble utilizando 3-NN. Ignore las clases principales y conserve solo las muestras de clases menores.
2) Para cada punto de muestra en el espacio de características, elija 5 vecinos más cercanos. Luego elija 3 de ellos al azar (¿no es innecesariamente complicado? Si no quisiera explicar el algoritmo original, ¡diría que solo elija 3 vecinos!)
3) Para cada dimensión, calcule la distancia entre la muestra y los vecinos y multiplíquela en un número aleatorio entre 0-1 y agréguela al valor original de la muestra en esa dimensión. (¡Este párrafo complicado simplemente significa que para cada dimensión elija un valor aleatorio entre la muestra original y ese vecino!)
- Pero generalmente hago otro sobremuestreo que está en el texto (de manera más intuitiva) y es como SMOTE.
k = 2
norte
metrometronortekk