Intuición gráfica de estadísticas en una variedad

En esta publicación , puedes leer la declaración:

Los modelos generalmente están representados por puntos $\theta$ en una variedad dimensional finita.

Sobre Geometría diferencial y estadística de Michael K Murray y John W Rice, estos conceptos se explican en prosa legible incluso ignorando las expresiones matemáticas. Lamentablemente, hay muy pocas ilustraciones. Lo mismo ocurre con esta publicación en MathOverflow.

Quiero pedir ayuda con una representación visual que sirva como mapa o motivación para una comprensión más formal del tema.

¿Cuáles son los puntos en la variedad? Esta cita de este hallazgo en línea , aparentemente indica que pueden ser los puntos de datos o los parámetros de distribución:

Las estadísticas sobre los múltiples y la geometría de la información son dos formas diferentes en que la geometría diferencial cumple con las estadísticas. Mientras que en las estadísticas sobre múltiples, los datos están en un múltiple, en la geometría de la información los datos están en $R^n$ , pero la familia parametrizada de las funciones de densidad de probabilidad de interés se trata como un múltiple. Tales variedades se conocen como variedades estadísticas.

He dibujado este diagrama inspirado en esta explicación del espacio tangente aquí :

[ Edite para reflejar el comentario a continuación sobre : $C^\infty$ ] En una variedad, , el espacio tangente es el conjunto de todas las derivadas posibles ("velocidades") en un punto asociado con cada curva posible en el múltiple que pasa por Esto puede verse como un conjunto de mapas de cada curva que cruza a través de es decir definida como la composición $(\mathcal M)$ $p\in \mathcal M$ $(\psi: \mathbb R \to \mathcal M)$ $p.$ $p,$ $C^\infty (t)\to \mathbb R,$ , dondedenota una curva (función desde la línea real hasta la superficie del múltiple ) que atraviesa el puntoy se representa en rojo en el diagrama de arriba; yque representa una función de prueba. Laslíneas de contorno blancas"iso-" se asignan al mismo punto en la línea real y rodean el punto. $\left(f \circ \psi \right )'(t)$ $\psi$ $\mathcal M$ $p,$ $f,$ $f$ $p$

La equivalencia (o una de las equivalencias aplicadas a las estadísticas) se discute aquí , y estaría relacionada con la siguiente cita :

Si el espacio de parámetros para una familia exponencial contiene un conjunto abierto dimensional, entonces se llama rango completo. $s$

Una familia exponencial que no es de rango completo generalmente se llama una familia exponencial curva, ya que típicamente el espacio del parámetro es una curva en de dimensión menor que $\mathcal R^s$ $s.$

Esto parece hacer la interpretación de la trama de la siguiente manera: los parámetros de distribución (en este caso de las familias de distribuciones exponenciales) se encuentran en la variedad. Los puntos de datos en se asignarían a una línea en el múltiple a través de la función en el caso de un problema de optimización no lineal deficiente en el rango. Esto sería paralelo al cálculo de la velocidad en física: buscando la derivada de la función largo del gradiente de las líneas "iso-f" (derivada direccional en naranja): La función $\mathbb R$ $\psi: \mathbb R \to \mathcal M$ $f$ $\left(f \circ \psi \right)'(t).$ jugaría el papel de optimizar la selección de un parámetro de distribución a medida que la curva viaja a lo largo de las líneas de contorno de en el múltiple. $f: \mathbb M \to \mathbb R$ $\psi$ $f$

FONDO AGREGADO

Es de destacar que creo que estos conceptos no están inmediatamente relacionados con la reducción de dimensionalidad no lineal en ML. Parecen más parecidos a la geometría de la información . Aquí hay una cita:

$R^n$ $n$

La siguiente información de Estadísticas sobre manifiestos con aplicaciones para modelar deformaciones de formas de Oren Freifeld :

$M$ $TpM$ $p \in M$ $TpM$ $M$ $TpM$ $p$ $M$ $TpM$ $M$ $p$ $M$ yace completamente en uno de los lados. Los elementos de TpM se denominan vectores tangentes.

[...] En múltiples, los modelos estadísticos a menudo se expresan en espacios tangentes.

[...]

$M$

$D_L = \{p_1, \cdots , p_{NL}\} \subset M$

$D_S = \{q_1, \cdots , q_{NS}\} \subset M$

Let y representan dos, posiblemente desconocida, en los puntos . Se supone que los dos conjuntos de datos satisfacen las siguientes reglas estadísticas: $µ_L$ $µ_S$ $M$

$\{\log_{\mu L} (p_1), \cdots , \log_{\mu L}(p_{NL})\} \subset T_{\mu L}M, \quad \log_{\mu L}(p_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_L)$ $\{\log_{\mu S} (q_1), \cdots , \log_{\mu S}(q_{NS})\} \subset T_{\mu S}M, \quad \log_{\mu S}(q_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_S)$

[...]

En otras palabras, cuando se expresa (como vectores tangentes) en el espacio tangente (a ) en , puede verse como un conjunto de muestras iid de un Gaussiano de media cero con covarianza . Del mismo modo, cuando se expresa en el espacio tangente en se puede ver como un conjunto de muestras iid de un Gaussiano de media cero con covarianza . Esto generaliza el caso euclidiano. $D_L$ $M$ $\mu_L$ $\Sigma_L$ $D_S$ $\mu_S$ $\Sigma_S$

En la misma referencia, encuentro el ejemplo más cercano (y prácticamente solo) en línea de este concepto gráfico sobre el que estoy preguntando:

¿Esto indicaría que los datos se encuentran en la superficie de la variedad expresada como vectores tangentes y que los parámetros se mapearían en un plano cartesiano?

— Antoni Parellada
fuente

¿Qué está tratando de hacer aquí? Dibujar múltiples? La mayoría de ellos son demasiado aburridos para dibujar. Por ejemplo, intente la distribución gaussiana.

— Aksakal

Normalmente pensaría en los espacios de parámetros como espacios vectoriales, por ejemplo, . Si tuviera que pensar en "múltiples" paramétricos, lo primero que me viene a la mente sería "sistemas de restricción", por ejemplo, . De lo contrario, ¿por qué el espacio no está "completo"? (¿Qué define el subconjunto que es el "múltiple"?)

θ \in R^{n}

$\theta\in\mathbb{R}^n$

f (θ) = 0

$f(\theta)=0$

— GeoMatt22

Con suerte, @whuber vendrá y explicará los comentarios que estaba haciendo en el chat.

— gung - Restablece a Monica

La respuesta corta a su pregunta editada es "no". El espacio tangente describe las velocidades de todos los caminos suaves en la variedad. Su papel principal en las estadísticas es maximizar las probabilidades, donde la variedad describe una familia finitamente parametrizada. En el "aprendizaje múltiple", se utiliza un múltiple como una aproximación local a los datos: es una versión curva del "espacio de columnas" en regresión lineal. Allí, el espacio tangente está incrustado dentro del espacio euclidiano ambiental. Localmente, describe las "direcciones" de los datos y su paquete normal proporciona las direcciones de "error".

— whuber

Sí: el espacio cotangente en puede definirse como las derivaciones de gérmenes de funciones alrededor de . El espacio tangente en (¡por lo tanto!) Es simplemente su dual. y adquirir una topología - es decir, admitir una noción de dos espacios tangentes y estar "cerca" - por medio de las tablas de coordenadas en . Esto reduce la definición (y el problema de visualización) a la definición del espacio tangente . Este es el conjunto de todos los vectores que se originan en . Spivak, en Cálculo sobre Colectores

T_{p}^{*} M

$T_p^{*}M$

p

$p$

p

$p$

p

$p$

T^{*} M

$T^{*}M$

T M

$TM$

T_{p} M

$T_pM$

T_{q} M

$T_qM$

M

$M$

T_{x} R^{n}

$T_x\mathbb{R}^n$

x

$x$ , proporciona una definición clara y elemental de este tipo.

— whuber

Respuestas:

Una familia de distribuciones de probabilidad puede analizarse como los puntos en una variedad con coordenadas intrínsecas correspondientes a los parámetros de la distribución. La idea es evitar una representación con una métrica incorrecta: Gaussianos univariados se pueden trazar como puntos en la variedad euclidiana como en el lado derecho del diagrama a continuación con la media en el eje la DE en el eje (mitad positiva en el caso de graficar la varianza): $(\Theta)$ $\mathcal N(\mu,\sigma^2),$ $\mathbb R^2$ $x$ $y$

Sin embargo, la matriz de identidad (distancia euclidiana) no podrá medir el grado de (dis-) similitud entre los individuales : en las curvas normales a la izquierda del gráfico anterior, dado un intervalo en el dominio, el área sin superposición (en azul oscuro) es mayor para las curvas gaussianas con menor varianza, incluso si la media se mantiene fija. De hecho, la única métrica de Riemann que "tiene sentido" para múltiples estadísticas es la métrica de información de Fisher . $\mathrm{pdf}$

En la distancia de información de Fisher: una lectura geométrica , Costa SI, Santos SA y Strapasson JE aprovechan la similitud entre la matriz de información de Fisher de las distribuciones gaussianas y la métrica en el modelo de disco Beltrami-Pointcaré para obtener una fórmula cerrada.

El cono "norte" del hiperboloide convierte en una variedad no euclidiana, en la que cada punto corresponde a una desviación estándar y media (espacio de parámetros), y la distancia más corta entre por ejemplo, y en el diagrama a continuación, es una curva geodésica, proyectada (mapa de la carta) en el plano ecuatorial como líneas rectas hiperparabólicas, y que permite medir distancias entre través de un tensor métrico - la métrica de información de Fisher : $x^2 + y^2 - x^2 = -1$ $\mathrm {pdf's,}$ $P$ $Q,$ $\mathrm{pdf's}$ $g_{\mu\nu}\;(\Theta)\;\mathbf e^\mu\otimes \mathbf e^\nu$

D (P (x; θ_{1}), Q (x; θ_{2})) = min_{θ (t) | θ (0) = θ_{1}, θ (1) = θ_{2}} \int_{0}^{1} \sqrt{{(\frac{d θ}{d t})}^{⊤} I (θ) \frac{d θ}{d t} d t}

$D\,\left ( P(x;\theta_1)\,,\,Q(x;\theta_2) \right)=\min_{\theta(t)\,|\,\theta(0)=\theta_1\;,\;\theta(1)=\theta_2}\;\int_0^1 \; \sqrt{\left(\frac{\mathrm d\theta}{\mathrm dt} \right)^\top\;I(\theta)\frac{\mathrm d \theta}{\mathrm dt}dt}$

con

I (θ) = \frac{1}{σ^{2}} [\begin{matrix} 1 & 0 \\ 0 & 2 \end{matrix}]

$I(\theta) = \frac{1}{\sigma^2}\begin{bmatrix}1&0\\0&2 \end{bmatrix}$

La divergencia Kullback-Leibler está estrechamente relacionada, aunque carece de la geometría y la métrica asociada.

Y es interesante notar que la matriz de información de Fisher se puede interpretar como la entropía de Hesse de Shannon :

g_{i j} (θ) = - E [\frac{\partial^{2} \log p (x; θ)}{\partial θ_{i} \partial θ_{j}}] = \frac{\partial^{2} H (p)}{\partial θ_{i} \partial θ_{j}}

$g_{ij}(\theta)=-E\left[ \frac{\partial^2\log p(x;\theta)}{\partial \theta_i \partial\theta_j} \right]=\frac{\partial^2 H(p)}{\partial \theta_i \partial \theta_j}$

con

H (p) = - \int p (x; θ) \log p (x; θ) d x .

$H(p) = -\int p(x;\theta)\,\log p(x;\theta) \mathrm dx.$

Este ejemplo es similar en concepto al mapa terrestre estereográfico más común .

El incrustación multidimensional de ML o el aprendizaje múltiple no se aborda aquí.

— Antoni Parellada
fuente

Hay más de una forma de vincular las probabilidades con la geometría. Estoy seguro de que has oído hablar de distribuciones elípticas (por ejemplo, gaussiana). El término en sí implica enlace de geometría y es obvio cuando dibuja su matriz de covarianza. Con múltiples, simplemente coloca cada valor de parámetro posible en el sistema de coordenadas. Por ejemplo, un múltiple gaussiano estaría en dos dimensiones: . Puede tener cualquier valor de pero solo variaciones positivas . Por lo tanto, la variedad gaussiana sería la mitad de todo el espacio . No tan interesante $\mu,\sigma^2$ $\mu\in R$ $\sigma^2>0$ $R^2$

— Aksakal
fuente

¿Supongo que pensé que se supone que un "múltiple" tiene una dimensión inferior a su espacio de inclusión? ¿Entonces un medio espacio no contaría?

— GeoMatt22

Con Gaussian ni siquiera es múltiple, ¿verdad? Necesita restricciones, por lo que se convierte en una especie de avión o línea

— Aksakal

Estoy tratando de entender las implicaciones de su respuesta ... ¿Quiere decir " un enlace de geometría"? Además, acabo de encontrar esta publicación relacionada en MathOverflow .

— Antoni Parellada

Se vuelve más interesante con una métrica apropiada ... como la de Fisher-Rao, y luego se convierte en el medio lugar hiperbólico de Poincare en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model

— mic

Para todos: (1) las variedades que describen familias paramétricas son variedades intrínsecas : no necesitan estar incrustadas en ningún espacio vectorial. (2) Son más que simples variedades diferenciables: la información de Fisher les otorga una métrica riemanniana, una distancia local, que les permite ser estudiados geométricamente. Esto convierte la "mitad del espacio completo " en una superficie curva.

R^{2}

$\mathbb{R}^2$

— whuber