Tengo un conjunto de datos que contiene como máximo 150 ejemplos (divididos en entrenamiento y prueba), con muchas características (más de 1000). Necesito comparar clasificadores y métodos de selección de características que funcionan bien en los datos. Entonces, estoy usando tres métodos de clasificación (J48, NB, SVM) y 2 métodos de selección de características (CFS, WrapperSubset) con diferentes métodos de búsqueda (Greedy, BestFirst).
Al comparar, estoy viendo la precisión del entrenamiento (plegado cruzado 5 veces) y la precisión de la prueba.
Aquí está uno de los resultados de J48 y CFS-BestFirst:
{"precisionTraining": 95.83, "precisionTest": 98.21}
Muchos resultados son así, y en el SVM hay muchos resultados que indican que la precisión de la prueba es mucho mayor que el entrenamiento (entrenamiento: 60%, prueba: 98%)
¿Cómo puedo interpretar de manera significativa este tipo de resultados? Si fuera más bajo, diría que es demasiado ajustado. ¿Hay algo que decir sobre el sesgo y la varianza en este caso al observar todos los resultados? ¿Qué puedo hacer para que esta clasificación sea significativa, como volver a seleccionar los conjuntos de entrenamiento y prueba o simplemente usar la validación cruzada en todos los datos?
Tengo 73 entrenamientos y 58 instancias de prueba. Algunas respuestas no tenían esta información cuando fueron publicadas.