Aclaración en la geometría de la información.

Esta pregunta se refiere al documento Geometría diferencial de familias exponenciales curvas: curvas y pérdida de información de Amari.

El texto es el siguiente.

Sea una variedad dimensional de distribuciones de probabilidad con un sistema de coordenadas , donde se supone ... $S^n=\{p_{\theta}\}$ $n$ $\theta=(\theta_1,\dots,\theta_n)$ $p_{\theta}(x)>0$

Podemos considerar cada punto de como portador de una función de ... $\theta$ $S^n$ $\log p_{\theta}(x)$ $x$

Sea el espacio tangente de en , que, en términos generales, se identifica con una versión linealizada de un pequeño vecindario de en . Sea la base natural de asociada con el sistema coordinado ... $T_{\theta}$ $S^n$ $\theta$ $\theta$ $S^n$ $e_i(\theta), i=1,\dots,n$ $T_{\theta}$

Ya que cada punto de lleva una función de , es natural considerar que en representa la función $\theta$ $S^n$ $\log p_{\theta}(x)$ $x$ $e_i(\theta)$ $\theta$

e_{i} (θ) = \frac{\partial}{\partial θ_{i}} \log p_{θ} (x) .

$e_i(\theta)=\frac{\partial}{\partial\theta_i}\log p_{\theta}(x).$

No entiendo la última declaración. Esto aparece en la sección 2 del documento mencionado anteriormente. ¿Cómo se da la base del espacio tangente en la ecuación anterior? Sería útil si alguien en esta comunidad familiarizado con este tipo de material me puede ayudar a entender esto. Gracias.

Actualización 1:

Aunque estoy de acuerdo en que (de @aginensky) si son linealmente independientes entonces también son linealmente independientes, en primer lugar no está muy claro cómo son estos miembros del espacio tangente. Entonces, ¿cómo se puede considerar como base para el espacio tangente. Cualquier ayuda es apreciada. $\frac{\partial}{\partial\theta_i}p_{\theta}$ $\frac{\partial}{\partial\theta_i}\log p_{\theta}$ $\frac{\partial}{\partial\theta_i}\log p_{\theta}$

Actualización 2:

@aginensky: En su libro, Amari dice lo siguiente:

Consideremos el caso donde , el conjunto de todas las medidas de probabilidad (estrictamente) positivas en , donde consideramos como un subconjunto de . De hecho, es un subconjunto abierto del espacio afín . $S^n=\mathcal{P}(\mathcal{X})$ $\mathcal{X}=\{x_0,\dots,x_n\}$ $\mathcal{P}(\mathcal{X})$ $\mathbb{R}^{\mathcal{X}}=\{X\big|X:\mathcal{X}\to \mathbb{R}\}$ $\mathcal{P}(\mathcal{X})$ $\{X\big |\sum_x X(x)=1\}$

Entonces el espacio tangente de en cada punto puede identificarse naturalmente con el subespacio lineal . Para la base natural de un sistema coordiante , tenemos . $T_p(S^n)$ $S^n$ $\mathcal{A}_0=\{X\big |\sum_x X(x)=0\}$ $\frac{\partial}{\partial\theta_i}$ $\theta=(\theta_1,\dots,\theta_n)$ $(\frac{\partial}{\partial\theta_i})_{\theta}=\frac{\partial}{\partial\theta_i}p_{\theta}$

Luego, tomemos otra incrustación e identifiquemos con el subconjunto de . Un vector tangente se representa por el resultado de operar a , que denotamos con . En particular tenemos . Es obvio que y que $p\mapsto \log p$ $S^n$ $\log S^n:=\{\log p\big |p\in S^n\}$ $\mathbb{R}^{\mathcal{X}}$ $X\in T_p(S^n)$ $X$ $p\mapsto \log p$ $X^{(e)}$ $(\frac{\partial}{\partial\theta_i})_{\theta}^{(e)}=\frac{\partial}{\partial\theta_i}\log p_{\theta}$ $X^{(e)}=X(x)/p(x)$

T_{p}^{(e)} (S^{n}) = {X^{(e)} | X \in T_{p} (S^{n})} = {A \in R^{X} | \sum_{x} A (x) p (x) = 0} .

$T_p^{(e)}(S^n)=\{X^{(e)}\big |X\in T_p(S^n)\}=\{A\in \mathbb{R}^{\mathcal{X}}\big |\sum_x A(x)p(x)=0\}.$

Mi pregunta: si tanto como son la base del espacio tangente, entonces esto no contradeciría el hecho de que y son distintos y ? $\frac{\partial}{\partial\theta_i}$ $(\frac{\partial}{\partial\theta_i})^{(e)}$ $T_p$ $T_p^{(e)}$ $\frac{\partial}{\partial\theta_i}^{(e)}\in T_p^{(e)}$

Supongo que parece haber una asociación entre ( ) y . Si puede aclarar esto, sería de gran ayuda. Puedes darlo como respuesta. $S^n,T_p$ $(\log S^n,T_p^{(e)})$

— Ashok
fuente

Personalmente, entiendo tu confusión. Parece p no natural usar las coordenadas " " para el espacio tangente. Su pregunta es local, por lo que podemos tomar como coordenadas locales. Las coordenadas habituales para el espacio tangente son . Dadas condiciones razonables en de suavidad, derivado no desaparecido, etc., entonces, por la regla de la cadena, uno está tomando la base estándar del espacio tangente y multiplicándolo por funciones, que en general, seguirán siendo una base .

e_{i} (θ) = \frac{\partial}{\partial θ_{i}} \log p_{θ} (x)

$e_i(\theta)=\frac{\partial}{\partial\theta_i}\log p_{\theta}(x)$

θ_{i}

$\theta_{i}$

\frac{\partial}{\partial θ_{i}}

$\frac{\partial}{\partial\theta_i}$

p_{θ}

$p_{\theta}$

— meh

Traté de editar mi comentario para mayor claridad y no me lo permitieron. Avísame si quieres más detalles.

— meh

Gracias @aginensky: Quieres decir, porque , esto también es una base para el espacio tangente, ¿verdad?

\frac{\partial}{\partial θ_{i}} \log p_{θ} (x) = 1 / p_{θ} (x) \frac{\partial}{\partial θ_{i}} p_{θ} (x)

$\frac{\partial}{\partial\theta_i}\log p_{\theta}(x)=1/p_{\theta}(x)\frac{\partial}{\partial\theta_i}p_{\theta}(x)$

— Ashok

La declaración final es una versión (corrupta) de una definición de un espacio tangente. Estrictamente hablando, el espacio tangente en un punto de una variedad diferenciable es el (espacio vectorial) dual al espacio de derivaciones de gérmenes de funciones diferenciables en una vecindad de ese punto. Una base para el dual es y, por definición , el es su base dual. Una referencia estándar en este material es el Volumen 1 de Geometría diferencial de Michael Spivak , amazon.com/… .

{d θ_{i}}

$\{d\theta_i\}$

{\frac{\partial}{\partial θ_{i}}}

$\{\frac{\partial}{\partial\theta_i}\}$

— whuber

@ Ashok: sí. Consideraría que lo que escribí se basa en una versión concisa de una definición de espacio tangente. Por supuesto, dado que el espacio cotangente es dual al espacio tangente, uno podría argumentar igualmente que es la verdadera base dual. En cualquier caso, mientras el no desaparezca, creo que eres bueno.

d θ

$d\theta$

p_{θ}

$p_{\theta}$

— meh

Mis comentarios son tan largos que los estoy poniendo como respuesta.

Creo que la pregunta es más filosófica que matemática en este momento. A saber, ¿qué quieres decir con un espacio, y en este caso, una variedad? La definición típica de un múltiple no implica una incrustación en un espacio afín. Este es el enfoque 'moderno' (¿150 años?). Por ejemplo, para Gauss, una variedad era una variedad con una incrustación específica en un espacio afín específico ( ). Si uno tiene una variedad con una incrustación en un específico , entonces el espacio tangente (en cualquier punto de la variedad) es isomorfo a un subespacio específico del espacio tangente a en ese punto. Tenga en cuenta que el espacio tangente a en cualquier punto se identifica con el 'mismo' . $R^n$ $R^n$ $R^n$ $R^n$ $R^n$

Creo que el punto es que en el artículo de Amari, el espacio al que se refiere como viene con una incrustación 'natural' en un espacio afín con coordenadas para las cuales se puede considerar como coordenadas en el espacio tangente de . Podría agregar que solo está claro si la función es 'general' en algún sentido; para degenerar , esto fallará. Por ejemplo, si la función no involucra todas las variables . El punto principal es que esta incrustación de la variedad en un específico , da lugar a una identificación específica del espacio tangente con el $S^n$ $\theta_{i}$ $p_{\theta}$ $S^n$ $p$ $p$ $\theta_{i}$ $R^n$ $p_{\theta}$ . Su siguiente punto es que, debido a las propiedades de , puede asignar su múltiple utilizando la función de registro a otro espacio afín en el que el espacio tangente tiene una identificación diferente en términos de las nuevas coordenadas (los registros y sus derivadas). Luego dice que debido a las propiedades de su situación, las dos variedades son isomorfas y el mapa induce un isomorfismo en los espacios tangentes. Eso lleva a una identificación (es decir, isomorfismo) de los dos espacios tangentes. $p$

La idea clave es que los dos espacios tangentes no son los mismos conjuntos, sino que son isomórficos (que es básicamente griego para "lo mismo") después de la identificación correcta. Por ejemplo, ¿el grupo de todas las permutaciones de el 'mismo' grupo que el grupo de todas las permutaciones de ? Como un simple experimento mental, considere , el mapeo de reales positivos a , todos los reales bajo el registro del mapa. Elija su número real favorito y considere cuál es el mapa en espacios tangentes. ¿Finalmente estoy entendiendo tu pregunta? Una advertencia está en orden, a saber, que la geometría diferencial no es mi área principal de especialización. Creo que he acertado, pero no dudes en criticar o aún cuestionar esta respuesta. $\{1,2,3\}$ $\{a,b,c\}$ $R^{+}$ $R$ $>0$

— meh
fuente

Su significado de "isomorfo" no está completamente claro, pero parece ser muy débil; a saber, el dado por el avance de un mapa diferenciable invertible, que es solo una transformación lineal invertible. La idea clave para hacer geometría es obtener una métrica de Riemanninan significativa y útil definida en el múltiple. El sentido relevante de "isomorfismo" sería isometría : es decir, el mapa entre los espacios tangentes debe preservar la distancia.

f_{*}

$f_{*}$

— whuber

@whuber. De hecho, mis comentarios son solo sobre la geometría diferencial de la situación y el espacio tangente. No tengo nada claro sobre qué condiciones en la serían necesarias para hacer que el mapa sea una isometría. Pero como entendí la pregunta, realmente estaba llegando a cuál era la diferencia entre una identificación ('la misma') y un isomorfismo.

p

$p$

— meh

@whuber: La métrica riemanniana relevante aquí viene dada por , donde . ¿Esto sugiere que también puede considerarse como vectores tangentes?

G = [g_{i, j}]

$G=[g_{i,j}]$

g_{i, j} = \sum_{x} \partial_{i} p_{θ} (x) \partial_{j} \log p_{θ} (x)

$g_{i,j}=\sum_x\partial_i p_{\theta}(x)~\partial_j\log p_{\theta}(x)$

\partial_{j} \log p_{θ}

$\partial_j\log p_{\theta}$

— Ashok