¿Existen estudios que examinen la deserción escolar versus otras regularizaciones?

9

¿Hay algún documento publicado que muestre diferencias en los métodos de regularización para redes neuronales, preferiblemente en diferentes dominios (o al menos diferentes conjuntos de datos)?

Lo pregunto porque actualmente tengo la sensación de que la mayoría de las personas parecen usar solo el abandono para la regularización en la visión por computadora. Me gustaría verificar si habría una razón (no) para usar diferentes formas de regularización.

— Martin Thoma
fuente

3

Dos puntos:

La deserción también se suele comparar con los conjuntos de redes neuronales. Parece que tiene algunos de los beneficios de rendimiento del entrenamiento y el promedio de varias redes neuronales.
La deserción es más fácil de calibrar que la regularización. Solo hay un hiperparámetro que es la tasa de deserción y la gente usa ampliamente 0.5 durante el entrenamiento (y luego 1.0 en la evaluación, por supuesto :)), vea, por ejemplo, este ejemplo de TensorFlow .

De todos modos, soy un poco escéptico de los estudios empíricos de redes neuronales. Hay demasiados hiperparámetros para ajustar, desde la topología de la red hasta el procedimiento de optimización de descenso de gradiente y las funciones de activación y lo que sea que esté probando como regularización. Entonces, todo es estocástico y, por lo general, las ganancias de rendimiento son tan pequeñas que apenas se pueden realizar pruebas estadísticas de las diferencias. Muchos autores ni siquiera se molestan en hacer pruebas estadísticas. Simplemente promedian la validación cruzada y declaran que cualquier modelo que tenga la mayor ganancia de punto decimal para ser el ganador.

Puede encontrar un estudio que promueva el abandono escolar solo para ser contradicho por otro que promueva la regularización.

Creo que todo se reduce a preferencias estéticas. El abandono en mi humilde opinión suena más plausible biológico que la regularización. También parece más fácil de calibrar. Por lo tanto, personalmente lo prefiero cuando uso un marco como TensorFlow. Si tenemos que usar nuestra propia red neuronal, que a menudo hacemos, usaremos la regularización porque fue más fácil de implementar.

— Ricardo Cruz
fuente

0

Seguro. El papel del Creador mismo, Geoffrey Hinton. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf léelo. Pero te animo a que veas la diferencia por ti mismo al implementarlo.

— Amanuel Negash
fuente

2

El documento no compara explícitamente entre los diferentes enfoques de regularización, excepto demostrando que el abandono mejora los resultados de vanguardia en ese momento (los resultados anteriores probablemente usaron otras formas de regularización, pero no están en la lista). También menciona las restricciones de peso maxnorm como un regularizador adicional efectivo para aumentar la deserción.

— Neil Slater