Los jacobianos, los determinantes absolutos del cambio de la función variable, parecen formidables y pueden ser complicados. Sin embargo, son una parte esencial e inevitable del cálculo de un cambio de variable multivariante. Parece que no hay nada más que escribir una matriz de derivadas por k + 1 y hacer el cálculo.k+1k + 1
Hay una mejor manera Se muestra al final en la sección "Solución". Debido a que el propósito de esta publicación es presentar a los estadísticos lo que puede ser un método nuevo para muchos, gran parte está dedicado a explicar la maquinaria detrás de la solución. Este es el álgebra de las formas diferenciales . (Las formas diferenciales son las cosas que uno integra en múltiples dimensiones). Se incluye un ejemplo detallado y trabajado para ayudar a que esto se vuelva más familiar.
Antecedentes
Hace más de un siglo, los matemáticos desarrollaron la teoría del álgebra diferencial para trabajar con las "derivadas de orden superior" que ocurren en la geometría multidimensional. El determinante es un caso especial de los objetos básicos manipulados por tales álgebras, que típicamente son formas multilineales alternas . La belleza de esto radica en cuán simples pueden ser los cálculos.
Aquí está todo lo que necesitas saber.
Un diferencial es una expresión de la forma " ". Es la concatenación de " d " con cualquier nombre de variable.dxid
Una forma única es una combinación lineal de diferenciales, como o incluso x 2 d x 1 - exp ( x 2 ) d x 2 . Es decir, los coeficientes son funciones de las variables.reX1+ dX2X2reX1- exp( x2) dX2
Las formas se pueden "multiplicar" usando un producto de cuña , escrito . Este producto es anti-conmutativo (también llamado alternativo ): para cualquiera de las dos formas únicas ω y η ,∧ωη
ω ∧ η= - η∧ ω .
Esta multiplicación es lineal y asociativa: en otras palabras, funciona de manera familiar. Una consecuencia inmediata es que , lo que implica que el cuadrado de cualquier forma única siempre es cero. ¡Eso hace que la multiplicación sea extremadamente fácil!ω ∧ ω = - ω ∧ ω
Para manipular los integrandos que aparecen en los cálculos de probabilidad, una expresión como puede entenderse como | d x 1 ∧ d x 2 ∧ ⋯ ∧ d x k + 1 | .reX1reX2⋯ dXk + 1El | reX1∧ dX2∧ ⋯ ∧ dXk + 1El |
Cuando es una función, entonces su diferencial está dado por la diferenciación:y=g(x1,…,xn)
dy=dg(x1,…,xn)=∂g∂x1(x1,…,xn)dx1+⋯+∂g∂x1(x1,…,xn)dxn.
La conexión con los jacobianos es esta: el jacobiano de una transformación es, hasta el signo, simplemente el coeficiente de d x( y1, ... , ynorte) = F( x1, ... , xnorte) = ( f1( x1, ... , xnorte),…,fn(x1,…,xn)) que aparece en informáticadx1∧⋯∧dxn
dy1∧⋯∧dyn=df1(x1,…,xn)∧⋯∧dfn(x1,…,xn)
después de expandir cada uno de los como una combinación lineal de d x j en la regla (5).dfidxj
Ejemplo
La simplicidad de esta definición de jacobiano es atractiva. ¿Aún no estás convencido de que valga la pena? Considere el conocido problema de convertir integrales bidimensionales de coordenadas cartesianas a coordenadas polares ( r , θ ) , donde ( x , y ) = ( r cos ( θ ) , r sin ( θ ) ) . La siguiente es una aplicación completamente mecánica de las reglas anteriores, donde " ( ∗ )(x,y)(r,θ)(x,y)=(rcos(θ),rsin(θ))(∗)"se usa para abreviar expresiones que obviamente desaparecerán en virtud de la regla (3), lo que implica .dr∧dr=dθ∧dθ=0
dxdy=|dx∧dy|=|d(rcos(θ))∧d(rsin(θ))|=|(cos(θ)dr−rsin(θ)dθ)∧(sin(θ)dr+rcos(θ)dθ|=|(∗)dr∧dr+(∗)dθ∧dθ−rsin(θ)dθ∧sin(θ)dr+cos(θ)dr∧rcos(θ)dθ|=|0+0+rsin2(θ)dr∧dθ+rcos2(θ)dr∧dθ|=|r(sin2(θ)+cos2(θ))dr∧dθ)|=r drdθ.
El punto de esto es la facilidad con la que se pueden realizar tales cálculos, sin perder el tiempo con matrices, determinantes u otros objetos multiindiciales. Simplemente multiplica las cosas, recordando que las cuñas son anti-conmutativas. Es más fácil de lo que se enseña en álgebra de secundaria.
Preliminares
Veamos este álgebra diferencial en acción. En este problema, el PDF de la distribución conjunta de es el producto de los PDF individuales (porque se supone que X i es independiente). Para manejar el cambio a las variables Y i debemos ser explícitos sobre los elementos diferenciales que se integrarán. Estos forman el término d x 1 d x 2 ⋯ d x k + 1(X1,X2,…,Xk+1)XiYidx1dx2⋯dxk+1. Incluir el PDF da el elemento de probabilidad
fX(x,α)dx1⋯dxk+1∝(xα1−11exp(−x1))⋯(xαk+1−1k+1exp(−xk+1))dx1⋯dxk+1=xα1−11⋯xαk+1−1k+1exp(−(x1+⋯+xk+1))dx1⋯dxk+1.
(The normalizing constant has been ignored; it will be recovered at the end.)
Staring at the definitions of the Yi a few seconds ought to reveal the utility of introducing the new variable
Z=X1+X2+⋯+Xk+1,
giving the relationships
Xi=YiZ.
This suggests making the change of variables xi→yiz in the probability element. The intention is to retain the first k variables y1,…,yk along with z and then integrate out z. To do so, we have to re-express all the dxi in terms of the new variables. This is the heart of the problem. It's where the differential algebra takes place. To begin with,
dxi=d(yiz)=yidz+zdyi.
Note that since Y1+Y2+⋯+Yk+1=1, then
0=d(1)=d(y1+y2+⋯+yk+1)=dy1+dy2+⋯+dyk+1.
Consider the one-form
ω=dx1+⋯+dxk=z(dy1+⋯+dyk)+(y1+⋯+yk)dz.
It appears in the differential of the last variable:
dxk+1=zdyk+1+yk+1dz=−z(dy1+⋯+dyk)+(1−y1−⋯yk)dz=dz−ω.
The value of this lies in the observation that
dx1∧⋯∧dxk∧ω=0
because, when you expand this product, there is one term containing dx1∧dx1=0 as a factor, another containing dx2∧dx2=0, and so on: they all disappear. Consequently,
dx1∧⋯∧dxk∧dxk+1=dx1∧⋯∧dxk∧z−dx1∧⋯∧dxk∧ω=dx1∧⋯∧dxk∧z.
Whence (because all products dz∧dz disappear),
dx1∧⋯∧dxk+1=(zdy1+y1dz)∧⋯∧(zdyk+ykdz)∧dz=zkdy1∧⋯∧dyk∧dz.
The Jacobian is simply |zk|=zk, the coefficient of the differential product on the right hand side.
Solution
The transformation (x1,…,xk,xk+1)→(y1,…,yk,z) is one-to-one: its inverse is given by xi=yiz for 1≤i≤k and xk+1=z(1−y1−⋯−yk). Therefore we don't have to fuss any more about the new probability element; it simply is
(zy1)α1−1⋯(zyk)αk−1(z(1−y1−⋯−yk))αk+1−1exp(−z)|zkdy1∧⋯∧dyk∧dz|=(zα1+⋯+αk+1−1exp(−z)dz)(yα1−11⋯yαk−1k(1−y1−⋯−yk)αk+1−1dy1⋯dyk).
That is manifestly a product of a Gamma(α1+⋯+αk+1) distribution (for Z) and a Dirichlet(α) distribution (for (Y1,…,Yk)). In fact, since the original normalizing constant must have been a product of Γ(αi), we deduce immediately that the new normalizing constant must be divided by Γ(α1+⋯+αk+1), enabling the PDF to be written
fY(y,α)=Γ(α1+⋯+αk+1)Γ(α1)⋯Γ(αk+1)(yα1−11⋯yαk−1k(1−y1−⋯−yk)αk+1−1).