¿El error de media cuadrática es siempre convexo en el contexto de las redes neuronales?

9

Múltiples recursos a los que me referí mencionan que MSE es excelente porque es convexo. Pero no entiendo cómo, especialmente en el contexto de las redes neuronales.

Digamos que tenemos lo siguiente:

$X$ : conjunto de datos de entrenamiento
$Y$ : objetivos
$\Theta$ : el conjunto de parámetros del modelo $f_\Theta$ (un modelo de red neuronal con no linealidades)

Entonces:

MSE (Θ) = (f_{Θ} (X) - Y)^{2}

$\operatorname{MSE}(\Theta) = (f_\Theta(X) - Y)^2$

¿Por qué esta función de pérdida siempre sería convexa? ¿Depende esto de $f_\Theta(X)$ ?

— usuario74211
fuente

1

En resumen: MSE es convexo en su entrada y parámetros por sí mismo. Pero en una red neuronal arbitraria no siempre es convexa debido a la presencia de no linealidades en forma de funciones de activación. La fuente de mi respuesta está aquí .

— áspero
fuente

1

Convexidad

Una función $f(x)$ con $x ∈ Χ$ es convexa, si, para cualquier $x_1 ∈ Χ$ , $x_2 ∈ Χ$ y para cualquier $0 ≤ λ ≤ 1$ ,
$f (λ x_{1} + (1 - λ) x_{2}) \leq λ f (x_{1}) + (1 - λ) f (x_{2}) .$ $f(λ x_1 + (1 − λ) x_2) ≤ λf(x_1) + (1 − λ) f (x_2).$

Se puede demostrar que tal $f(x)$ convexa tiene un mínimo global. Un mínimo global único elimina las trampas creadas por los mínimos locales que pueden ocurrir en algoritmos que intentan lograr la convergencia en un mínimo global, como la minimización de una función de error.

Aunque una función de error puede ser 100% confiable en todos los contextos continuos y lineales y en muchos contextos no lineales, no significa la convergencia en un mínimo global para todos los posibles contextos no lineales.

Error cuadrático medio

Dada una función $s(x)$ describe el comportamiento ideal del sistema y un modelo del sistema $a(x, p)$ (donde $p$ es el vector parámetro, matriz, cubo o hipercubo y $1 ≤ n ≤ N$ ), creado racionalmente o mediante convergencia (como en el entrenamiento de redes neuronales), la función de error cuadrático medio (MSE) se puede representar de la siguiente manera.

e (β) := N^{- 1} \sum_{n} [a (x_{n}) - s (x_{n})]^{2}

$e(β) := N^{-1} \sum_{n} [a(x_n) − s(x_n)]^2$

$a(x, p)$ $s(x)$ $x$ $e(β)$ $a(x, p)$ $s(x)$ $a(x, p)$ $s(x)$

Confundiendo el algoritmo de convergencia

Si la pregunta es si un específico $a(x, p)$ $s(x)$ $a(x, p)$

Resumen

La mejor forma de resumir es que $e(β)$ debe definirse o elegirse a partir de un conjunto de modelos de error convexo basados en el siguiente conocimiento.

Propiedades conocidas del sistema. $s(x)$
La definición del modelo de aproximación. $a(x, p)$
Tensor utilizado para generar el siguiente estado en la secuencia convergente

El conjunto de modelos de error convexo estándar ciertamente incluye el modelo MSE debido a su simplicidad y ahorro computacional.

— FauChristian
fuente

Entonces, la respuesta corta es MSE wrt Theta siempre es convexa. Aunque Feedforard (X, Theta), ¿cuál podría ser no convexo?

— user74211

Bueno, @ user74211, ese comentario en realidad no responde la pregunta. La pregunta específicamente formulada COMO error medio cuadrático siempre puede ser convexa si la función a la que se aplica no lo es. Su comentario es un subconjunto de las declaraciones en la pregunta, sin la explicación buscada.

— FauChristian