Entonces, soy un novato en el campo de ML e intento hacer alguna clasificación. Mi objetivo es predecir el resultado de un evento deportivo. He reunido algunos datos históricos y ahora trato de entrenar a un clasificador. Obtuve alrededor de 1200 muestras, 0.2 de ellas las dividí para fines de prueba, otras las puse en la búsqueda de cuadrícula (validación cruzada incluida) con diferentes clasificadores. He probado SVM con núcleos lineales, rbf y polinominales y bosques aleatorios hasta el momento. Desafortunadamente, no puedo obtener una precisión significativamente mayor que 0.5 (lo mismo que la elección aleatoria de la clase). ¿Significa que no puedo predecir el resultado de un evento tan complejo? ¿O puedo obtener al menos una precisión de 0.7-0.8? Si es factible, ¿qué debo considerar a continuación?
- ¿Obtener más datos? (Puedo ampliar el conjunto de datos hasta 5 veces)
- Prueba diferentes clasificadores? (Regresión logística, kNN, etc.)
- Reevaluate my feature set? Are there any ML-tools to analyze, which features make sense and which don't? Maybe, I should reduce my feature set (currently I have 12 features)?