Estoy tratando de clasificar los mensajes en diferentes categorías usando un SVM. He compilado una lista de palabras / símbolos deseables del conjunto de entrenamiento.
Para cada vector, que representa un mensaje, configuro la fila correspondiente a 1
si la palabra está presente:
"corpus" es: [Mary, little, lamb, star, twinkle]
primer mensaje: "María tenía un corderito" -> [1 1 1 0 0]
segundo mensaje: "pequeña estrella centelleante" -> [0 1 0 1 1]
Creo que esta es una configuración bastante común con SVM, pero mi pregunta es, con miles de palabras en el conjunto, ¿qué pasa si solo aparecen 1-2 palabras por mensaje? ¿La dependencia lineal de mi conjunto de vectores de entrenamiento afectará negativamente la capacidad de convergencia del algoritmo?
flexmix
embargo, ¡he tenido "Learn R" en mi calendario durante un par de años ahora!