¿Cómo funciona exactamente DropOut con capas convolucionales?

La deserción ( papel , explicación ) establece la salida de algunas neuronas a cero. Entonces, para un MLP, podría tener la siguiente arquitectura para el conjunto de datos de flores Iris :

4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax)

Funcionaría así:

s o f t m a x (W_{3} \cdot \tanh (W_{2} \cdot mask (D, \tanh (W_{1} \cdot i n p u t_v e c t o r)))

$softmax(W_3 \cdot \tanh(W_2 \cdot \text{mask}(D, \tanh(W_1 \cdot input\_vector)))$

con , , , , (ignorando los sesgos en aras de la simplicidad). $input\_vector \in \mathbb{R}^{4 \times 1}$ $W_1 \in \mathbb{R}^{50 \times 4}$ $D \in \{0, 1\}^{50 \times 1}$ $W_2 \in \mathbb{R}^{20 \times 50}$ $W_3 \in \mathbb{R}^{20 \times 3}$

Con y $D = (d)_{ij}$

d_{i j} \sim B (1, p = 0.5)

$d_{ij} \sim B(1, p=0.5)$

donde la operación multiplica puntos con (ver producto Hadamard ). $\text{mask}(D, M)$ $D$ $M$

Por lo tanto, solo muestreamos la matriz cada vez y, por lo tanto, el abandono se convierte en una multiplicación de un nodo con 0. $D$

Pero para las CNN, no me queda claro qué se retiró exactamente. Puedo ver tres posibilidades:

Descartar mapas completos de características (de ahí un núcleo)
Descartar un elemento de un núcleo (reemplazar un elemento de un núcleo por 0)
Descartar un elemento de un mapa de características

Agregue una referencia / cita a su respuesta.

Mis pensamientos

Creo que Lasagne sí (3) (ver código ). Este podría ser el más sencillo de implementar. Sin embargo, más cerca de la idea original podría estar (1).

Parece ser similar para Caffe (ver código ). Para el flujo de tensor, el usuario tiene que decidir ( código : no estoy seguro de qué sucede cuando noise_shape=Nonese pasa).

Como debería ser

(2) y (3) no tienen mucho sentido ya que causaría que la red agregue invariancia a las posiciones espaciales, lo que probablemente no se desea. Por lo tanto (1) es la única variante que tiene sentido. Pero no estoy seguro de qué sucede si usa la implementación predeterminada.

dropout

— Martin Thoma
fuente

También hice la pregunta en el grupo de usuarios de Lasagne .

— Martin Thoma

Un amigo notó que (2) y (3) podrían no ser una buena idea porque podrían obligar a la red a difundir información espacialmente.

— Martin Thoma

Como mencionó, la matriz de la máscara se muestrea y se multiplica con las activaciones en el mapa de características en la capa para producir activaciones modificadas abandonadas que luego se enredan con el filtro en la siguiente capa . (3) $l$ $W^{(l+1)}$

Para obtener más detalles, creo que la sección 3 de este documento podría ayudarlo: Max-pooling y abandono convolucional . Específicamente 3.2.

Cuando realiza la prueba, utiliza todos los nodos de la red pero con los pesos del filtro escalados por la probabilidad de retención, como se explica en el documento.

Por favor, siéntase libre de refinar o corregir mi respuesta.

Espero que esto ayude, al menos un poco.

— Leonard Aukea
fuente