Parece que el error de validación cruzada k-fold es muy sensible al tipo de medida de rendimiento. También tiene un error en sí mismo porque los conjuntos de entrenamiento y validación se eligen al azar.
Creo que ha descubierto la gran variación de las medidas de rendimiento que son proporciones de recuentos de casos, como # predicciones correctas# Casos de prueba. Intenta estimar, por ejemplo, la probabilidad de que su clasificador devuelva una respuesta correcta. Desde el punto de vista estadístico, eso se describe como un ensayo de Bernoulli, que conduce a una distribución binomial. Puede calcular intervalos de confianza para distribuciones binomiales y encontrará que son muy amplias. Por supuesto, esto limita su capacidad para hacer una comparación de modelos.
Con los esquemas de validación de remuestreo, como la validación cruzada, tiene una fuente adicional de variación: la inestabilidad de sus modelos (a medida que construye k modelos sustitutos durante cada carrera de CV)
Además, cambiar el número de pliegues me da diferentes valores de parámetros óptimos.
Eso es de esperarse debido a la varianza. Puede tener un efecto adicional aquí: libSVM divide los datos solo una vez si usa su validación cruzada incorporada para el ajuste. Debido a la naturaleza de los SVM, si construyó el SVM con datos de entrenamiento idénticos y varía lentamente los parámetros, encontrará que los vectores de soporte (y, en consecuencia, la precisión) saltan: siempre que los parámetros de SVM no sean demasiado diferentes, seguirá siendo elige los mismos vectores de soporte. Solo cuando los parámetros se cambian lo suficiente, de repente resultarán diferentes vectores de soporte. Por lo tanto, evaluar la cuadrícula de parámetros SVM con exactamente las mismas divisiones de validación cruzada puede ocultar la variabilidad, que se ve entre diferentes ejecuciones.
En mi humilde opinión, el problema básico es que haces una búsqueda de cuadrícula, que es una optimización que se basa en un comportamiento razonablemente suave de tu objetivo funcional (precisión o cualquier otra cosa que uses). Debido a la gran variación de sus mediciones de rendimiento, se viola esta suposición. La dependencia "nerviosa" del modelo SVM también viola esta suposición.
Las métricas de precisión para la validación cruzada pueden ser demasiado optimistas. Por lo general, cualquier cosa que supere una validación cruzada doble me da una precisión del 100%. Además, la tasa de error se discretiza debido al pequeño tamaño de la muestra. La selección del modelo a menudo me dará la misma tasa de error en todos o la mayoría de los valores de los parámetros.
Eso es de esperar dados los problemas generales del enfoque.
Sin embargo, generalmente es posible elegir valores de parámetros realmente extremos donde el clasificador se descompone. En mi humilde opinión, el rango de parámetros donde los SVM funcionan bien es información importante.
En cualquier caso, necesita una validación externa (doble / anidada) del rendimiento del modelo que elija como 'mejor'.
Probablemente haría una serie de ejecuciones / repeticiones / iteraciones de una validación cruzada externa o una validación externa fuera de lugar y dar la distribución de
- hiperparámetros para el "mejor" modelo
- rendimiento informado de la afinación
- rendimiento observado de validación externa
La diferencia entre los dos últimos es un indicador de sobreajuste (por ejemplo, debido al "descremado" de la varianza).
Al escribir un informe, ¿cómo podría saber que una clasificación es 'buena' o 'aceptable'? En el campo, parece que no tenemos algo como una bondad de ajuste o un umbral de valor p comúnmente aceptado. Dado que estoy agregando datos de forma iterativa, me gustaría saber cuándo parar, ¿cuál es una buena N en la que el modelo no mejora significativamente?
(¿Qué está agregando? ¿Casos o variantes / características?)
En primer lugar, si realiza un modelado iterativo, debe informar que, debido a su procedimiento de ajuste, su rendimiento no debe tomarse en serio, ya que está sujeto a un sesgo optimista. La mejor alternativa es hacer una validación del modelo final. Sin embargo, los datos de la prueba deben ser independientes de todos los datos que alguna vez ingresaron a la capacitación o su proceso de decisión para el modelado (por lo que es posible que no le queden dichos datos).