A menudo se menciona que las unidades lineales rectificadas (ReLU) han reemplazado a las unidades softplus porque son lineales y más rápidas de calcular.
¿Softplus todavía tiene la ventaja de inducir la dispersión o está restringido a la ReLU?
La razón por la que pregunto es porque me pregunto sobre las consecuencias negativas de la pendiente cero de la ReLU. ¿Esta propiedad no "atrapa" a las unidades en cero donde podría ser beneficioso darles la posibilidad de reactivación?