¿La comunidad de aprendizaje automático está abusando de "condicionado" y "parametrizado por"?

Digamos que depende de . Hablando rigurosamente $X$ $\alpha$

si y son variables aleatorias, podríamos escribir ; $X$ $\alpha$ $p(X\mid\alpha)$
sin embargo, si es una variable aleatoria y es un parámetro, tenemos que escribir . $X$ $\alpha$ $p(X; \alpha)$

Noté varias veces que la comunidad de aprendizaje automático parece ignorar las diferencias y abusar de los términos.

Por ejemplo, en el famoso modelo LDA, donde es el parámetro Dirichlet en lugar de una variable aleatoria. $\alpha$

ingrese la descripción de la imagen aquí

¿No debería ser ? Veo que muchas personas, incluidos los autores originales del artículo de LDA, lo escriben como . $p(\theta;\alpha)$ $p(\theta\mid\alpha)$

machine-learning terminology

— Sibbs Gambling
fuente

Hablando matemáticamente, siempre puedes condicionar una constante, ya que este es un caso limitante de variable aleatoria. Desde un punto de vista bayesiano, todas las incógnitas se tratan como variables aleatorias, por lo que tiene sentido utilizar la notación de condicionamiento por todas partes.

— Xi'an

X

$X$

θ

$\theta$

X \sim C a t (θ)

$X\sim Cat(\theta)$

p (X ∣ θ)

$p(X\mid\theta)$

θ

$\theta$

p (X; θ)

$p(X;\theta)$

p (X ∣ θ)

$p(X\mid\theta)$

Creo que esto se trata más de estadísticas bayesianas / no bayesianas que de aprendizaje automático vs .. estadísticas.

$X,\alpha$ $p(X \mid \alpha)$ $X$ $\alpha$ $\alpha$ $\alpha$ $p(X; \alpha)$ $p(X \mid \alpha)$ $p(\alpha)$ $\alpha$ $\alpha$ $\alpha$

$p(X ; \alpha)$ $p(X \mid \alpha)$ $p$ $\mid$

— Juho Kokkala
fuente