La deserción en realidad no elimina las neuronas, es solo que esas neuronas en particular no juegan ningún papel (no se activan) para el lote de datos dado.
Ejemplo: suponga que hay un camino de 8 carriles: cuando llegan los camiones, pasan por los carriles 1,2,4,6,7, cuando llegan los automóviles, pasan por los carriles 2,3,4,7,8 y cuando llegan las bicicletas , pasan por los carriles 1,2,5,8. Entonces, independientemente de cualquier vehículo, todos los carriles están allí, pero solo se usan algunos de ellos.
Del mismo modo, todas las neuronas se usan en todo el modelo, pero solo se activa un subconjunto de neuronas para un lote particular de datos. Y el modelo no se corta más tarde, la complejidad del modelo permanece como está.
¿Por qué usar la deserción escolar?
Como se da en el libro de aprendizaje profundo de Ian Goodfellow,
la deserción es más efectiva que otros regularizadores computacionalmente económicos, como la disminución de peso, las restricciones de las normas de filtro y la regularización de actividad dispersa.
Él también dice
Una ventaja del abandono es que es computacionalmente barato.
Otra ventaja significativa del abandono es que no limita significativamente el tipo de modelo o procedimiento de capacitación que se puede utilizar. Funciona bien con casi cualquier modelo que use una representación distribuida y se pueda entrenar con descenso de gradiente estocástico. Esto incluye redes neuronales de avance, modelos probabilísticos como máquinas de Boltzmann restringidas (Srivastava et al., 2014) y redes neuronales recurrentes (Bayer y Osendorfer, 2014; Pascanu et al., 2014a).
Este libro dice
La idea central es que la introducción de ruido en los valores de salida de una capa puede romper los patrones de sucesos que no son significativos, lo que la red comenzará a memorizar si no hay ruido presente.