Estoy aprendiendo la clasificación SVM y encuentro un problema. No estoy seguro de si este dilema tiene una terminología para ello.
Supongamos que nos gustaría clasificar a los pacientes por SVM a partir de las muestras de personas sanas (de ambos sexos) y personas con cáncer de hígado (de ambos sexos). Si etiquetamos la muestra de personas sanas como clase 1 y las personas con cáncer como clase 2, podemos entrenar un SVM binario y obtener un clasificador 1 para predecir cualquier paciente nuevo. Ahora, imagina otro escenario. Suponga que primero dividimos todas las muestras por género antes de la clasificación SVM. Para cada género, aún clasificamos a los pacientes sanos frente a los pacientes cancerosos en 2 clases y entrenamos un SVM binario para obtener el clasificador 2 y el clasificador 3 para muestras de mujeres y hombres, respectivamente. La pregunta es si hay una nueva paciente, ¿qué clasificador, 1 o 2, se debe utilizar para obtener una predicción más precisa? Aquí está el dilema de los argumentos que tengo.
(1) Cuando el número de muestras es grande, la predicción debería ser más precisa. Basado en este argumento, el clasificador 1 parece una buena opción.
(2) Sin embargo, si primero dividimos las muestras en grupos de hombres y mujeres, el clasificador 2 parece una mejor opción ya que el nuevo paciente (muestra de prueba desconocida) es mujer.
¿Este tipo de dilema tiene una terminología o alguien sabe más información o cómo resolver un problema como este? Ni siquiera estoy seguro de si esta es una pregunta legítima y lamento la pregunta ingenua de antemano. Gracias