En el artículo titulado Deep Learning and the Information Bottleneck Principle, los autores declaran en la sección II A) lo siguiente:
Las neuronas individuales clasifican solo entradas separables linealmente, ya que pueden implementar solo hiperplanos en su espacio de entrada . Los hiperplanes pueden clasificar de manera óptima los datos cuando las entradas son indepen- dientemente condicionales.
Para mostrar esto, derivan lo siguiente. Usando el teorema de Bayes, obtienen:
(1)
Donde es la entrada, y es la clase e y ' es la clase predicha (supongo, y ' no está definido). Continuando, afirman que:
(2)
Donde es la dimensión de entrada yn no estoy seguro (nuevamente, ambos están indefinidos). Considerando una neurona sigmoidea, con la función de activación sigmoidea σ ( u ) = 1 y preactivaciónu, después de insertar (2) en (1) obtenemos los valores de peso óptimoswj=logp(xj|y) yb=logp(y) , cuando los valores de entradahj=np(xj).
Ahora a mis preguntas. Entiendo cómo insertar (2) en (1) conduce al peso óptimo y a los valores de entrada . Sin embargo, lo que no entiendo es lo siguiente:
- ¿Cómo se deriva (1) usando el teorema de Bayes?
- ¿Cómo se deriva (2)? ¿Qué es ? ¿Cuál es el significado de eso? Supongo que tiene algo que ver con la independencia condicional.
- Incluso si las dimensiones de x son condicionalmente independientes, ¿cómo se puede afirmar que es igual a su probabilidad escalada? (es decir, ¿cómo puedes decir ?)
EDITAR: La variable es una variable de clase binaria. De esto supongo que y ′ es la clase "otra". Esto resolvería la pregunta 1. ¿Estás de acuerdo?