Tomé el curso de Andrew Ng "Machine Learning" a través de Coursera hace unos meses, sin prestar atención a la mayoría de las matemáticas / derivaciones y, en cambio, centrándome en la implementación y la practicidad. Desde entonces, he comenzado a volver a estudiar algunas de las teorías subyacentes y he revisado algunas de las conferencias del profesor Ng. Estaba leyendo su conferencia sobre "Regresión lineal regularizada" y vi que tenía la siguiente función de costo:
Luego, da el siguiente gradiente para esta función de costo:
Estoy un poco confundido acerca de cómo pasa de uno a otro. Cuando intenté hacer mi propia derivación, obtuve el siguiente resultado:
La diferencia es el signo 'más' entre la función de costo original y el parámetro de regularización en la fórmula del Prof. Ng que cambia a un signo 'menos' en su función de gradiente, mientras que eso no está sucediendo en mi resultado.
Intuitivamente entiendo por qué es negativo: estamos reduciendo el parámetro theta por la figura de gradiente, y queremos que el parámetro de regularización reduzca la cantidad que estamos cambiando el parámetro para evitar el sobreajuste. Estoy un poco atascado en el cálculo que respalda esta intuición.
Para su información, puede encontrar el mazo aquí , en las diapositivas 15 y 16.