En referencia a las notas del curso de Stanford sobre Redes neuronales convolucionales para el reconocimiento visual , un párrafo dice:
"Desafortunadamente, las unidades ReLU pueden ser frágiles durante el entrenamiento y pueden" morir ". Por ejemplo, un gran gradiente que fluye a través de una neurona ReLU podría hacer que los pesos se actualicen de tal manera que la neurona nunca se active en ningún punto de datos nuevamente. Si esto sucede, entonces el gradiente que fluye a través de la unidad será para siempre cero a partir de ese momento. Es decir, las unidades ReLU pueden morir irreversiblemente durante el entrenamiento ya que pueden ser eliminadas del múltiple de datos. Por ejemplo, puede encontrar que hasta 40 El porcentaje de su red puede estar "muerto" (es decir, neuronas que nunca se activan en todo el conjunto de datos de entrenamiento) si la tasa de aprendizaje se establece demasiado alta. Con una configuración adecuada de la tasa de aprendizaje, esto es un problema con menos frecuencia ".
¿Qué significa morir de neuronas aquí?
¿Podría por favor proporcionar una explicación intuitiva en términos más simples?