Una diferencia importante en la forma habitual en que se aplican los métodos de validación cruzada y fuera de bootstrap es que la mayoría de las personas aplica la validación cruzada solo una vez (es decir, cada caso se prueba exactamente una vez), mientras que la validación fuera de bootstrap se realiza con un gran número de repeticiones / iteraciones. En esa situación, la validación cruzada está sujeta a una mayor variación debido a la inestabilidad del modelo. Sin embargo, eso puede evitarse mediante, por ejemplo, la validación cruzada repetida / repetida de pliegues. Si se hace eso, al menos para los conjuntos de datos espectroscópicos con los que he estado trabajando, el error total de ambos esquemas de remuestreo parece ser el mismo en la práctica.k
Se desaconseja la validación cruzada de dejar uno fuera, ya que no hay posibilidad de reducir la varianza del tipo de inestabilidad del modelo y hay algunos clasificadores y problemas en los que exhibe un sesgo pesimista enorme.
.632 bootstrap hace un trabajo razonable siempre que el error de remuestreo que se mezcla no esté sesgado de manera demasiado optimista. (Por ejemplo, para los datos con los que trabajo, matrices muy anchas con muchas variantes, no funciona muy bien ya que los modelos son propensos a un sobreajuste grave). Esto significa también que evitaría usar .632 bootstrap para comparar modelos de complejidad variable. Con .632+ bootstrap no tengo experiencia: si se produce un sobreajuste y se detecta correctamente, será igual a la estimación original fuera de bootstrap, por lo que me quedo con la validación cruzada iterativa / repetida para mis datos.
Literatura:
- Kohavi, R .: A Study of Cross-Validation and Bootstrap for Precision Precision and Model Selection Artificial Intelligence Proceedings 14th International Joint Joint, 20-25. Agosto de 1995, Montreal, Québec, Canadá, 1995, 1137-1145.
(Un clásico )
Dougherty y Braga-Neto tienen varias publicaciones sobre el tema , por ej.
Dougherty, ER et al. : Rendimiento de los estimadores de error para la clasificación de la bioinformática actual, 2010, 5, 53-67
Beleites, C. et al. : Reducción de la variación en la estimación del error de clasificación usando conjuntos de datos dispersos Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Tenemos una comparación de hacer validación cruzada solo una vez o iterar / repetir, y comparar eso con fuera de arranque y .632 bootstrap también para datos particularmente amplios con multicolinealidades.
Kim, J.-H .: Estimación de la tasa de error de clasificación: validación cruzada repetida, retención y arranque repetidos, Análisis de datos y estadísticas computacionales, 2009, 53, 3735 - 374
También encuentra que la validación cruzada repetida repetida y fuera de arranque tienen un rendimiento similar (en lugar de hacer la validación cruzada solo una vez).k
Elección de métrica:
la precisión (de la cual @FrankHarrell le dirá que es una mala elección ya que no es una regla de puntuación adecuada ) está sujeta a una gran variación porque cuenta cada caso como completamente correcto o completamente incorrecto, incluso si el clasificador predijo, por ejemplo, solo 60 % de probabilidad posterior de que el caso de prueba pertenezca a la clase en cuestión. Una regla de puntuación adecuada es, por ejemplo, la puntuación de Brier, que está estrechamente relacionada con el error cuadrático medio en la regresión.
Analoga de error cuadrático medio está disponible para proporciones como precisión, sensibilidad, especificidad, valores predictivos: Beleites, C. et al. : Validación de modelos de clasificación blanda utilizando membresías de clase parcial: un concepto extendido de sensibilidad & Co. aplicado a la clasificación de tejidos de astrocitoma, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (página de resumen que también proporciona un enlace a la preimpresión)
Mi objetivo final es poder decir con cierta confianza que un método de aprendizaje automático es superior a otro para un conjunto de datos en particular.
Use una prueba emparejada para evaluar eso. Para comparar proporciones, eche un vistazo a la prueba de McNemar.
La respuesta a esto se verá afectada por la elección de la métrica. Como las medidas de error de tipo regresión no tienen el paso de "endurecimiento" de cortar las decisiones con un umbral, a menudo tienen menos variación que sus contrapartes de clasificación. Las métricas como la precisión que son básicamente proporciones necesitarán un gran número de casos de prueba para establecer la superioridad de un clasificador sobre otro.
Fleiss: "Métodos estadísticos para tasas y proporciones" da ejemplos (y tablas) para la comparación no proporcional de proporciones. Para darle una idea de lo que quiero decir con "tamaños de muestra enormes", eche un vistazo a la imagen en mi respuesta a esta otra pregunta . Las pruebas pareadas como las de McNemar necesitan menos casos de prueba, pero el IIRC aún se encuentra en la mejor mitad del caso (?) Del tamaño de muestra necesario para la prueba no pareada.
Para caracterizar el rendimiento de un clasificador (endurecido), generalmente necesita una curva de trabajo de al menos dos valores, como ROC (sensibilidad frente a especificidad) o similares.
Raramente uso la precisión general o AUC, ya que mis aplicaciones generalmente tienen restricciones, por ejemplo, que la sensibilidad es más importante que la especificidad, o que se deben cumplir ciertos límites en estas medidas. Si opta por las características de suma de "número único", asegúrese de que el punto de trabajo de los modelos que está mirando esté realmente en un rango razonable.
Para obtener precisión y otras medidas de rendimiento que resumen el rendimiento de varias clases según las etiquetas de referencia, asegúrese de tener en cuenta la frecuencia relativa de las clases que encontrará en la aplicación, que no es necesariamente la misma que en su datos de entrenamiento o prueba.
Provost, F. et al. : El caso contra la estimación de precisión para comparar algoritmos de inducción en las actas de la decimoquinta conferencia internacional sobre aprendizaje automático, 1998
editar: comparar múltiples clasificadores
He estado pensando en este problema por un tiempo, pero aún no llegué a una solución (ni conocí a nadie que tuviera una solución).
Esto es lo que tengo hasta ahora:
Por el momento, decidí que "la optimización es la raíz de todo mal", y tomé un enfoque muy diferente:
decido tanto como sea posible por el conocimiento experto sobre el problema en cuestión. En realidad, eso permite reducir un poco las cosas, por lo que a menudo puedo evitar la comparación de modelos. Cuando tengo que comparar modelos, trato de ser muy abierto y claro para recordarle a la gente sobre la incertidumbre de la estimación del rendimiento y que la comparación de modelos múltiples en particular es AFAIK todavía un problema sin resolver.
Edición 2: pruebas emparejadas
norte12( n2- n )de la prueba solo se refiere al hecho de que, dado que todos los modelos se prueban con exactamente los mismos casos de prueba, puede dividir los casos en casos "fáciles" y "difíciles" por un lado, para lo cual todos los modelos llegan a una correcta (o mal) predicción. No ayudan a distinguir entre los modelos. Por otro lado, hay casos "interesantes" que algunos predicen correctamente, pero no otros modelos. Solo estos casos "interesantes" deben considerarse para juzgar la superioridad, ni los casos "fáciles" ni los "difíciles" ayudan con eso. (Así es como entiendo la idea detrás de la prueba de McNemar).
nortenorte