Diferentes transformaciones de densidad de probabilidad debido al factor jacobiano

En Bishop's Pattern Recognition and Machine Learning leí lo siguiente, justo después de que se introdujera la densidad de probabilidad : $p(x\in(a,b))=\int_a^bp(x)\textrm{d}x$

Bajo un cambio no lineal de variable, una densidad de probabilidad se transforma de manera diferente a una función simple, debido al factor jacobiano. Por ejemplo, si consideramos un cambio de variables , entonces una función convierte en . Ahora considere una densidad de probabilidad que corresponde a una densidad con respecto a la nueva variable , donde los denotan el hecho de que y son densidades diferentes. Las observaciones que caen en el rango , para valores pequeños de , se transformarán en el rango $x = g(y)$ $f(x)$ $\tilde{f}(y) = f(g(y))$ $p_x(x)$ $p_y(y)$ $y$ $p_x(x)$ $p_y(y)$ $(x, x + \delta x)$ $\delta x$ $(y, y + \delta y$ ) donde , y por tanto . $p_x(x)\delta x \simeq p_y(y)δy$ $p_y(y) = p_x(x) |\frac{dx}{dy}| = p_x(g(y)) | g\prime (y) |$

¿Cuál es el factor jacobiano y qué significa exactamente todo (tal vez cualitativamente)? Bishop dice que una consecuencia de esta propiedad es que el concepto del máximo de una densidad de probabilidad depende de la elección de la variable. ¿Qué significa esto?

Para mí, todo esto surge de la nada (considerando que está en el capítulo de introducción). Agradecería algunos consejos, gracias!

machine-learning probability

— ste
fuente

La "explicación intuitiva de la densidad de una variable transformada" podría ser útil. Con respecto a "jacobiano", busque en nuestro sitio .

— whuber

Para una gran descripción del factor jacobiano, vea el video tutorial de la Academia Khan sobre el determinante jacobiano. khanacademy.org/math/multivariable-calculus/…

— JStrahl el

Le sugiero que lea la solución de la Pregunta 1.4 que proporciona una buena intuición.

En pocas palabras, si tiene una función arbitraria y dos variables e que están relacionadas entre sí por la función , entonces puede encontrar el máximo de la función analizando directamente : o la función transformada : . No es sorprendente que y estarán relacionados con cada uno como (aquí supuse que . $f(x)$ $x$ $y$ $x = g(y)$ $f(x)$ $\hat{x} = argmax_x(f(x))$ $f(g(y))$ $\hat{y} = argmax_y(f(g(y))$ $\hat{x}$ $\hat{y}$ $\hat{x} = g(\hat{y})$ $\forall{y}: g^\prime(y)\neq0)$

Este no es el caso de las distribuciones de probabilidad. Si tiene una distribución de probabilidad y dos variables aleatorias que están relacionadas entre sí por . Entonces no hay una relación directa entre y . Esto sucede debido al factor jacobiano, un factor que muestra cómo una función como Cambia relativamente el volumen . $p_x(x)$ $x=g(y)$ $\hat{x} = argmax_x(p_x(x))$ $\hat{y}=argmax_y(p_y(y))$ $g(.)$

— MajidL
fuente