Máquina de aprendizaje extrema: ¿de qué se trata?

He estado pensando, implementando y utilizando el paradigma Extreme Learning Machine (ELM) durante más de un año, y cuanto más lo hago, más dudo de que sea realmente algo bueno. Sin embargo, mi opinión parece estar en contraste con la comunidad científica donde, cuando se usan citas y nuevas publicaciones como medida, parece ser un tema candente.

El ELM ha sido introducido por Huang et. Alabama. alrededor de 2003. La idea subyacente es bastante simple: comenzar con una red neuronal artificial de 2 capas y asignar aleatoriamente los coeficientes en la primera capa. Esto transforma el problema de optimización no lineal, que generalmente se maneja a través de la retropropagación, en un simple problema de regresión lineal. Más detallado, para , el modelo es $\mathbf x \in \mathbb R^D$

F (X) = \sum_{yo = 1}^{{norte}_{oculto}} w_{yo} σ (v_{yo 0 0} + \sum_{k = 1}^{re} v_{yo k} X_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

Ahora, solo se ajustan los (para minimizar la pérdida de error al cuadrado), mientras que los se eligen al azar. Como compensación por la pérdida en grados de libertad, la sugerencia habitual es utilizar un número bastante grande de nodos ocultos (es decir, parámetros libres ). $w_i$ $v_{ik}$ $w_i$

Desde otra perspectiva (no la que generalmente se promueve en la literatura, que proviene del lado de la red neuronal), todo el procedimiento es simplemente una regresión lineal, pero una en la que elige sus funciones al azar, por ejemplo $\phi$

ϕ_{yo} (X) = σ (v_{yo 0 0} + \sum_{k = 1}^{re} v_{yo k} X_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

(Muchas otras opciones además del sigmoide son posibles para las funciones aleatorias. Por ejemplo, el mismo principio también se ha aplicado utilizando funciones de base radial).

Desde este punto de vista, todo el método se vuelve casi demasiado simplista, y este es también el punto en el que empiezo a dudar de que el método sea realmente bueno (... mientras que su comercialización científica ciertamente lo es). Asi que aqui están mis preguntas:

La idea de rasterizar el espacio de entrada usando funciones de base aleatorias es, en mi opinión, buena para las dimensiones bajas. En las dimensiones altas, creo que no es posible encontrar una buena opción utilizando una selección aleatoria con un número razonable de funciones básicas. Por lo tanto, ¿el ELM se degrada en altas dimensiones (debido a la maldición de la dimensionalidad)?
¿Conoces los resultados experimentales que respaldan / contradicen esta opinión? En el documento vinculado solo hay un conjunto de datos de regresión de 27 dimensiones (PYRIM) en el que el método funciona de manera similar a SVM (mientras que preferiría ver una comparación con un ANN de propagación inversa)
En términos más generales, me gustaría aquí sus comentarios sobre el método ELM.

regression

— davidhigh
fuente

Vea aquí la historia completa: theanonymousemail.com/view/?msg=ZHEZJ1AJ

— davidhigh

Respuestas:

Su intuición sobre el uso de ELM para problemas de alta dimensión es correcta, tengo algunos resultados al respecto, que estoy preparando para su publicación. Para muchos problemas prácticos, los datos no son muy no lineales y el ELM funciona bastante bien, pero siempre habrá conjuntos de datos donde la maldición de la dimensionalidad significa que la posibilidad de encontrar una buena base funciona con curvatura justo donde la necesita. pequeño, incluso con muchos vectores básicos.

Personalmente, usaría algo como una máquina de vectores de soporte de mínimos cuadrados (o una red de función de base radial) e intentaría elegir los vectores de base de aquellos en el conjunto de entrenamiento de una manera codiciosa (ver, por ejemplo, mi artículo , pero hubo otros / mejor enfoques que se publicaron aproximadamente al mismo tiempo, por ejemplo, en el muy buen libro de Scholkopf y Smola sobre "Aprender con los núcleos"). Creo que es mejor calcular una solución aproximada al problema exacto, en lugar de una solución exacta a un problema aproximado, y las máquinas del núcleo tienen una mejor base teórica (para un núcleo fijo; o).

— Dikran Marsupial
fuente

+1. Nunca antes había escuchado sobre ELM, pero por la descripción en el OP parece un poco como una máquina de estado líquido (LSM): conectividad de red aleatoria y optimización solo de los pesos de lectura. Sin embargo, en LSM el "depósito" aleatorio es recurrente, mientras que en ELM es de avance. ¿Es ésa realmente la similitud y la diferencia?

— ameba dice Reinstate Monica

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

@amoeba: No conocía la máquina de estado líquido, pero por lo que dices suena muy similar ... y, por supuesto, técnicamente más general. Aún así, la recurrencia solo agrega una forma más compleja de aleatoriedad al problema, que en mi opinión no cura los problemas de la maldición de la dimensionalidad (... pero está bien, ¿quién hace esto?). ¿Se eligen esos pesos de recurrencia con cuidado o también al azar?

— davidhigh

@davidhigh para un núcleo RBF, los "teoremas del representador" muestran que no hay mejor solución que centrar una función base en cada muestra de entrenamiento (haciendo algunas suposiciones razonables sobre la función de costo regularizado). Esta es una de las buenas características de los métodos del núcleo (y las splines), por lo que no es necesario distribuirlos al azar. Por cierto, la construcción de un modelo lineal en la salida de funciones básicas seleccionadas al azar tiene una historia muy larga, mi favorito es el perceptrón de búsqueda de una sola capa ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1 pero I podría estar sesgado!

— Dikran Marsupial

@DikranMarsupial, ¿publicó o tiene alguna prepublicación disponible?

— Tom Hale

El ELM "aprende" de los datos resolviendo analíticamente los pesos de salida. Por lo tanto, cuanto más grandes sean los datos que se introducen en la red, producirá mejores resultados. Sin embargo, esto también requiere más números de nodos ocultos. Si el ELM se entrena con poco o ningún error, cuando se le da un nuevo conjunto de entrada, no puede producir la salida correcta.

La principal ventaja del ELM sobre la red neuronal tradicional como la propagación de la espalda es su rápido tiempo de entrenamiento. La mayor parte del tiempo de cálculo se dedica a resolver el peso de la capa de salida como se menciona en el documento de Huang.

— usuario62106
fuente