Lo que está oculto y lo que se observa.
Lo que está oculto en un modelo oculto de Markov es lo mismo que lo que está oculto en un modelo de mezcla discreta, así que para mayor claridad, olvídate de la dinámica del estado oculto y quédate con un modelo de mezcla finita como ejemplo. El "estado" en este modelo es la identidad del componente que causó cada observación. En esta clase de modelo, tales causas nunca se observan, por lo que 'causa oculta' se traduce estadísticamente en la afirmación de que los datos observados tienen dependencias marginales que se eliminan cuando se conoce el componente fuente. Y se estima que los componentes fuente son los que hacen que esta relación estadística sea verdadera.
Lo que está oculto en una red neuronal multicapa de avance con unidades medias sigmoideas son los estados de esas unidades, no las salidas que son el objetivo de la inferencia. Cuando la salida de la red es una clasificación, es decir, una distribución de probabilidad sobre posibles categorías de salida, estos valores de unidades ocultas definen un espacio dentro del cual las categorías son separables. El truco para aprender un modelo de este tipo es crear un espacio oculto (ajustando el mapeo de las unidades de entrada) dentro del cual el problema es lineal. En consecuencia, los límites de decisión no lineales son posibles desde el sistema en su conjunto.
Generativo versus discriminativo
El modelo de mezcla (y HMM) es un modelo del proceso de generación de datos, a veces llamado probabilidad o "modelo directo". Cuando se combina con algunas suposiciones sobre las probabilidades anteriores de cada estado, se puede inferir una distribución sobre los posibles valores del estado oculto utilizando el teorema de Bayes (un enfoque generativo). Tenga en cuenta que, aunque se llama un "previo", tanto el previo como los parámetros de probabilidad generalmente se aprenden de los datos.
En contraste con el modelo de mezcla (y HMM), la red neuronal aprende directamente una distribución posterior sobre las categorías de salida (un enfoque discriminativo). Esto es posible porque los valores de salida se observaron durante la estimación. Y como se observaron, no es necesario construir una distribución posterior a partir de un modelo anterior y específico para la probabilidad, como una mezcla. El posterior se aprende directamente de los datos, que son más eficientes y menos dependientes del modelo.
Mezclar y combinar
Para hacer las cosas más confusas, estos enfoques se pueden mezclar, por ejemplo, cuando el estado del modelo de mezcla (o HMM) a veces se observa realmente. Cuando eso es cierto, y en algunas otras circunstancias no relevantes aquí, es posible entrenar de manera discriminatoria en un modelo generativo. De manera similar, es posible reemplazar el mapeo del modelo de mezcla de un HMM con un modelo hacia adelante más flexible, por ejemplo, una red neuronal.
Las preguntas
Por lo tanto, no es del todo cierto que ambos modelos predicen el estado oculto. Los HMM se pueden usar para predecir el estado oculto, aunque solo del tipo que espera el modelo directo. Las redes neuronales se pueden usar para predecir un estado aún no observado , por ejemplo, estados futuros para los que hay predictores disponibles. Este tipo de estado no está oculto en principio, simplemente no se ha observado todavía.
¿Cuándo usarías uno en lugar del otro? Bueno, las redes neuronales hacen modelos de series de tiempo bastante incómodos en mi experiencia. También suponen que ha observado resultados. Los HMM no lo hacen, pero realmente no tienes ningún control sobre cuál es el estado oculto. Sin embargo, son modelos de series de tiempo adecuados.