Estoy leyendo un libro de texto Proceso Gaussiano para Aprendizaje Automático por CE Rasmussen y CKI Williams y tengo algunos problemas para entender qué significa la distribución sobre las funciones . En el libro de texto, se da un ejemplo, que uno debería imaginar una función como un vector muy largo (de hecho, ¿debería ser infinitamente largo?). Así que imagino que una distribución sobre funciones es una distribución de probabilidad dibujada "por encima" de tales valores vectoriales. ¿Sería entonces una probabilidad de que una función tome este valor particular? ¿O sería una probabilidad de que una función tome un valor que esté en un rango dado? ¿O es la distribución sobre funciones una probabilidad asignada a una función completa?
Citas del libro de texto:
Capítulo 1: Introducción, página 2
Un proceso gaussiano es una generalización de la distribución de probabilidad gaussiana. Mientras que una distribución de probabilidad describe variables aleatorias que son escalares o vectores (para distribuciones multivariadas), un proceso estocástico gobierna las propiedades de las funciones. Dejando a un lado la sofisticación matemática, uno puede pensar libremente en una función como un vector muy largo, cada entrada en el vector especifica el valor de la función f (x) en una entrada particular x. Resulta que, aunque esta idea es un poco ingenua, sorprendentemente está cerca de lo que necesitamos. De hecho, la cuestión de cómo lidiar computacionalmente con estos objetos de dimensiones infinitas tiene la resolución más agradable imaginable: si solo pregunta por las propiedades de la función en un número finito de puntos,
Capítulo 2: Regresión, página 7
Hay varias formas de interpretar los modelos de regresión del proceso gaussiano (GP). Uno puede pensar en un proceso gaussiano como la definición de una distribución sobre funciones , y la inferencia que tiene lugar directamente en el espacio de funciones, la vista del espacio de funciones.
De la pregunta inicial:
Hice esta imagen conceptual para tratar de visualizar esto por mí mismo. No estoy seguro si la explicación que hice para mí es correcta.
Después de la actualización:
Después de la respuesta de Gijs , actualicé la imagen para que fuera más conceptual: