Me pregunto qué tipo de validación cruzada de modelo elegir para el problema de clasificación: K-fold o submuestreo aleatorio (muestreo de arranque).
Mi mejor conjetura es usar 2/3 del conjunto de datos (que es ~ 1000 artículos) para entrenamiento y 1/3 para validación.
En este caso, K-fold solo da tres iteraciones (pliegues), lo que no es suficiente para ver un error promedio estable.
Por otro lado, no me gusta la función de submuestreo aleatorio: que algunos elementos nunca se seleccionarán para capacitación / validación, y algunos se usarán más de una vez.
Algoritmos de clasificación utilizados: bosque aleatorio y regresión logística.