He estado pensando, implementando y utilizando el paradigma Extreme Learning Machine (ELM) durante más de un año, y cuanto más lo hago, más dudo de que sea realmente algo bueno. Sin embargo, mi opinión parece estar en contraste con la comunidad científica donde, cuando se usan citas y nuevas publicaciones como medida, parece ser un tema candente.
El ELM ha sido introducido por Huang et. Alabama. alrededor de 2003. La idea subyacente es bastante simple: comenzar con una red neuronal artificial de 2 capas y asignar aleatoriamente los coeficientes en la primera capa. Esto transforma el problema de optimización no lineal, que generalmente se maneja a través de la retropropagación, en un simple problema de regresión lineal. Más detallado, para , el modelo es
Ahora, solo se ajustan los (para minimizar la pérdida de error al cuadrado), mientras que los se eligen al azar. Como compensación por la pérdida en grados de libertad, la sugerencia habitual es utilizar un número bastante grande de nodos ocultos (es decir, parámetros libres ).
Desde otra perspectiva (no la que generalmente se promueve en la literatura, que proviene del lado de la red neuronal), todo el procedimiento es simplemente una regresión lineal, pero una en la que elige sus funciones al azar, por ejemplo
(Muchas otras opciones además del sigmoide son posibles para las funciones aleatorias. Por ejemplo, el mismo principio también se ha aplicado utilizando funciones de base radial).
Desde este punto de vista, todo el método se vuelve casi demasiado simplista, y este es también el punto en el que empiezo a dudar de que el método sea realmente bueno (... mientras que su comercialización científica ciertamente lo es). Asi que aqui están mis preguntas:
La idea de rasterizar el espacio de entrada usando funciones de base aleatorias es, en mi opinión, buena para las dimensiones bajas. En las dimensiones altas, creo que no es posible encontrar una buena opción utilizando una selección aleatoria con un número razonable de funciones básicas. Por lo tanto, ¿el ELM se degrada en altas dimensiones (debido a la maldición de la dimensionalidad)?
¿Conoces los resultados experimentales que respaldan / contradicen esta opinión? En el documento vinculado solo hay un conjunto de datos de regresión de 27 dimensiones (PYRIM) en el que el método funciona de manera similar a SVM (mientras que preferiría ver una comparación con un ANN de propagación inversa)
En términos más generales, me gustaría aquí sus comentarios sobre el método ELM.