Comparación de distribuciones de rendimiento de generalización

Digamos que tengo dos métodos de aprendizaje para un problema de clasificación , y , y que calculo su rendimiento de generalización con algo como validación cruzada repetida o bootstrapping. De este proceso obtengo una distribución de puntajes y para cada método a través de estas repeticiones (por ejemplo, la distribución de valores ROC AUC para cada modelo). $A$ $B$ $P_A$ $P_B$

Mirando estas distribuciones, podría ser que pero que (es decir, el rendimiento de generalización esperado de es mayor que , pero que hay más incertidumbre sobre esta estimación). $\mu_A \ge \mu_B$ $\sigma_A \ge \sigma_B$ $A$ $B$

Creo que esto se llama el dilema sesgo-varianza en la regresión.

¿Qué métodos matemáticos puedo usar para comparar y y eventualmente tomar una decisión informada sobre qué modelo usar? $P_A$ $P_B$

Nota: En aras de la simplicidad, me refiero a dos métodos y aquí, pero estoy interesado en los métodos que se pueden utilizar para comparar la distribución de puntajes de ~ 1000 métodos de aprendizaje (por ejemplo, de una búsqueda de cuadrícula) y eventualmente hacer una decisión final sobre qué modelo usar. $A$ $B$

cross-validation model-selection

— Amelio Vazquez-Reina
fuente

Creo que el término compensación de sesgo-varianza no se aplica aquí, porque no está descomponiendo un error cuadrático medio en un sesgo y una varianza, y no está hablando de la varianza de un estimador sino de la varianza de una puntuación.

— Lucas

Gracias @Lucas. Estoy tratando de estimar la puntuación de mis clasificadores y en datos no vistos . Para esto, pensé que podría tomar la media de las puntuaciones en los datos vistos como mis estimadores (es decir, y para y respectivamente). ¿Es la varianza de estos estimadores diferente de la varianza de los puntajes y ?

A

$A$

B

$B$

E (P_{A})

$E(P_A)$

E (P_{B})

$E(P_B)$

A

$A$

B

$B$

P_{A}

$P_A$

P_{B}

$P_B$

— Amelio Vazquez-Reina

@ user815423426 Creo que la comparación depende de la función de pérdida que tenga. Diebold y Mariano (2002) tienen un buen artículo estudiando su pregunta. Propusieron algunas pruebas estadísticas que comparaban el rendimiento de "generalización". No sé cómo configurar un enlace en los comentarios. El artículo es: Diebold, Francis X. y Robert S. Mariano. "Comparación de la precisión predictiva". Journal of Business & Economic Statistics 20.1 (2002): 134-144.

— semibruin

Si solo hay dos métodos, A y B, calcularía la probabilidad de que, para una partición arbitraria de entrenamiento / prueba, el error (según alguna métrica de rendimiento adecuada) para el modelo A fuera menor que el error para el modelo B. Si esta probabilidad eran mayores que 0.5, elegiría el modelo A y, de lo contrario, el modelo B (cf. ¿Prueba U de Mann-Whitney?) Sin embargo, sospecho firmemente que terminará eligiendo el modelo con la media más baja a menos que las distribuciones de la estadística de rendimiento sean muy diferentes -simétrico.

Por otro lado, para la búsqueda de cuadrícula, la situación es un poco diferente, ya que en realidad no está comparando diferentes métodos, sino que ajusta los (hiper) parámetros del mismo modelo para que se ajusten a una muestra finita de datos (en este caso indirectamente a través de la cruz -validación). He descubierto que este tipo de ajuste puede ser muy propenso al sobreajuste, vea mi artículo

Gavin C. Cawley, Nicola LC Talbot, "Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento", Journal of Machine Learning Research, 11 (julio): 2079-2107, 2010. ( www )

Tengo un artículo en revisión que muestra que probablemente sea mejor usar una cuadrícula relativamente gruesa para máquinas kernel (por ejemplo, SVM) para evitar un ajuste excesivo del criterio de selección del modelo. Otro enfoque (que no he investigado, ¡así que advertencia lector!) Sería elegir el modelo con el error más alto que no sea estadísticamente inferior al mejor modelo encontrado en la búsqueda de cuadrícula (aunque puede ser un enfoque bastante pesimista, especialmente para pequeños conjuntos de datos).

Sin embargo, la solución real probablemente no sea optimizar los parámetros mediante la búsqueda de cuadrícula, sino promediar los valores de los parámetros, ya sea en un enfoque bayesiano o simplemente como un método de conjunto. Si no optimizas, ¡es más difícil ajustar demasiado!

— Dikran Marsupial
fuente

Gracias Dikran Cuando diga "average over the parameter values"Creo que entiendo cómo hacer esto a través de un método de conjunto (por ejemplo, construir la salida del conjunto como el promedio de las salidas del clasificador), pero no estoy seguro de cómo hacerlo con un enfoque bayesiano cuando se trabaja con un modelo discriminatorio. Entiendo la teoría de un enfoque completamente bayesiano (es decir, evitar estimaciones puntuales y marginar los parámetros para construir el posterior final), pero, suponiendo que mi previo en los parámetros sea uniforme, ¿no sería esto equivalente a construir el conjunto de promedios? ?

— Amelio Vazquez-Reina

En el enfoque bayesiano, los modelos se ponderarían según su probabilidad marginal (es decir, la evidencia bayesiana) y cualquier ubicación anterior sobre los hiperparámetros, por lo que sería un caso especial de promediar un conjunto con un método particular para ponderar los modelos.

— Dikran Marsupial