Una unidad maxout puede aprender una función convexa lineal por partes con hasta k piezas. 1
Entonces, cuando k es 2, puede implementar ReLU, ReLU absoluta, ReLU con fugas, etc., o puede aprender a implementar una nueva función. Si k es digamos 10, incluso puede aprender aproximadamente la función convexa.
Cuando k es 2:
la neurona Maxout calcula la función . Tanto ReLU como Leaky ReLU son un caso especial de este formulario (por ejemplo, para ReLU tenemos ). Por lo tanto, la neurona Maxout disfruta de todos los beneficios de una unidad ReLU (régimen lineal de operación, sin saturación) y no tiene sus inconvenientes (ReLU moribundo).max(wT1x+b1,wT2x+b2)w1,b1=0
Sin embargo, a diferencia de las neuronas ReLU, duplica el número de parámetros para cada neurona, lo que lleva a un alto número total de parámetros. 2
Puede leer los detalles aquí:
1. Libro DL
2. http://cs231n.github.io/neural-networks-1