Quiero intentar usar Support Vector Machines (SVM) en mi conjunto de datos. Sin embargo, antes de intentar el problema, me advirtieron que los SVM no funcionan bien en datos extremadamente desequilibrados. En mi caso, puedo tener tanto como 95-98% 0's y 2-5% 1's.
Traté de encontrar recursos que hablaran sobre el uso de SVM en datos dispersos / no balanceados, pero todo lo que pude encontrar fue 'sparseSVM' (que usa una pequeña cantidad de vectores de soporte).
Esperaba que alguien pudiera explicar brevemente:
- Qué tan bien se esperaría que SVM hiciera con tal conjunto de datos
- Qué modificaciones, si las hay, deben hacerse al algoritmo SVM
- ¿Qué recursos / documentos discuten esto?