Preguntas etiquetadas con bert

2
¿Qué es la activación de GELU?
Estaba revisando el documento BERT que usa GELU (Unidad lineal de error gaussiano) que establece la ecuación como que a su vez se aproxima aGELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) ¿Podría simplificar la ecuación y explicar cómo se ha aproximado?
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.