Antecedentes: estoy estudiando el capítulo 6 de Aprendizaje profundo de Ian Goodfellow y Yoshua Bengio y Aaron Courville. En la sección 6.2.2.2 (páginas 182 de 183 que se pueden ver aquí se motiva el uso de sigmoide para generar P (y = 1 | x) .
Para resumir parte del material, dejan que
Omitimos la dependencia de por el momento para discutir cómo definir una distribución de probabilidad sobre usando el valor . El sigmoide puede ser motivado construyendo una distribución de probabilidad no normalizada , que no suma 1. Podemos entonces dividir por una constante apropiada para obtener una distribución de probabilidad válida. Si comenzamos con el supuesto de que las probabilidades logarítmicas no normalizadas son lineales en y , podemos exponer para obtener las probabilidades no normalizadas. Luego nos normalizamos para ver que esto produce una distribución de Bernoulli controlada por una transformación sigmoidal de z:
Preguntas: Estoy confundido acerca de dos cosas, particularmente la primera:
- ¿De dónde viene la suposición inicial? ¿Por qué la probabilidad logarítmica no normalizada es lineal en y ? ¿Alguien puede darme una idea de cómo los autores comenzaron con ?
- ¿Cómo sigue la última línea?