Semejanza
Básicamente, ambos tipos de algoritmos se desarrollaron para responder una pregunta general en aplicaciones de aprendizaje automático:
Dados los predictores (factores) : ¿cómo incorporar las interacciones entre estos factores para aumentar el rendimiento?X1, x2, ... , xpags
Una forma es simplemente introducir nuevos predictores: Pero esto demuestra ser una mala idea debido a la gran cantidad de parámetros y el tipo muy específico de interacciones.Xp + 1= x1X2, xp + 2= x1X3, ...
Tanto el modelado multinivel como los algoritmos de aprendizaje profundo responden esta pregunta al presentar un modelo de interacciones mucho más inteligente. Y desde este punto de vista son muy similares.
Diferencia
Ahora déjame tratar de dar mi comprensión sobre cuál es la gran diferencia conceptual entre ellos. Para dar una explicación, veamos los supuestos que hacemos en cada uno de los modelos:
Modelado multinivel: capas que reflejan la estructura de datos se pueden representar como una red jerárquica bayesiana . Esta red es fija y generalmente proviene de aplicaciones de dominio.1
Aprendizaje profundo: los datos fueron generados por las interacciones de muchos factores. Se desconoce la estructura de las interacciones, pero se puede representar como una factorización en capas: las interacciones de nivel superior se obtienen transformando las representaciones de nivel inferior.2
La diferencia fundamental proviene de la frase "la estructura de las interacciones no se conoce" en Deep Learning. Podemos asumir algunos antecedentes sobre el tipo de interacción, pero el algoritmo define todas las interacciones durante el procedimiento de aprendizaje. Por otro lado, tenemos que definir la estructura de interacciones para el modelado multinivel (luego aprendemos a variar los parámetros del modelo).
Ejemplos
Por ejemplo, supongamos que se nos dan tres factores y definimos y como capas diferentes. { x 1 } { x 2 , x 3 }X1, x2, x3{ x1}{ x2, x3}
En la regresión de modelado multinivel, por ejemplo, obtendremos las interacciones y , pero nunca obtendremos la interacción . Por supuesto, en parte los resultados se verán afectados por la correlación de los errores, pero esto no es tan importante para el ejemplo.x 1 x 3 x 2 x 3X1X2X1X3X2X3
En el aprendizaje profundo, por ejemplo, en máquinas de Boltzmann restringido multicapa ( RBM ) con dos capas ocultas y función de activación lineal, tendremos todas las posibles interacciones polinomiales con un grado menor o igual a tres.
Ventajas y desventajas comunes
Modelado multinivel
(-) necesidad de definir la estructura de interacciones
(+) los resultados suelen ser más fáciles de interpretar
(+) puede aplicar métodos estadísticos (evaluar intervalos de confianza, verificar hipótesis)
Aprendizaje profundo
(-) requiere una gran cantidad de datos para entrenar (y también tiempo para entrenar)
(-) los resultados generalmente son imposibles de interpretar (siempre como un cuadro negro)
(+) no se requiere conocimiento experto
(+) una vez bien entrenado, generalmente supera a la mayoría de los otros métodos generales (no específicos de la aplicación)
¡Espero que ayude!