Tengo un conjunto de datos de prueba altamente desequilibrado. El conjunto positivo consta de 100 casos, mientras que el conjunto negativo consta de 1500 casos. En el lado del entrenamiento, tengo un grupo de candidatos más grande: el conjunto de entrenamiento positivo tiene 1200 casos y el conjunto de entrenamiento negativo tiene 12000 casos. Para este tipo de escenario, tengo varias opciones:
1) Uso de SVM ponderado para todo el conjunto de entrenamiento (P: 1200, N: 12000)
2) Usando SVM basado en el conjunto de entrenamiento muestreado (P: 1200, N: 1200), los 1200 casos negativos se muestrean de 12000 casos.
¿Existe alguna orientación teórica para decidir qué enfoque es mejor? Dado que el conjunto de datos de prueba está altamente desequilibrado, ¿debo usar también el conjunto de entrenamiento desequilibrado?