Generar ruido uniforme a partir de una bola de la norma p (

Estoy tratando de escribir una función que genere ruido distribuido uniformemente que proviene de una bola de la norma p de dimensiones: $n$

El | El | X El | {El |}_{pag} \leq r

$\begin{equation} ||x||_p \leq r \end{equation}$

Encontré posibles soluciones para los círculos ( ) ( http://mathworld.wolfram.com/DiskPointPicking.html ), sin embargo, tengo problemas para extender esto para diferentes valores de . $p = 2$ $p$

He intentado hacerlo simplemente extrayendo una muestra aleatoria de una distribución uniforme y redibujándola cuando no cumple con la restricción dada. Sin embargo, además de ser una solución fea, también se vuelve computacionalmente inviable para grandes dimensiones.

simulation noise

— Taeke de Haan
fuente

La respuesta se puede encontrar aquí para una esfera con n dimensiones usando la distancia euclidiana (p = 2) math.stackexchange.com/questions/87230/… Sin embargo, todavía no estoy seguro de cómo usar esto para diferentes normas p, ¿puedo? ¿simplemente cambia la distancia euclidiana utilizada en una relación diferente para la distancia?

— Taeke de Haan

Hay muchos documentos, pero la mayoría están detrás de paywall: link.springer.com/article/10.1007/s00184-011-0360-x o visite google.com/…

— kjetil b halvorsen el

¿"Uniforme" con respecto a qué métrica de volumen? Después de todo, si está utilizando una bola

, ¿por qué sería interesante el volumen euclidiano ?

p

$p$

— whuber

@whuber Sinceramente, no estoy seguro, ya que esto no se indica claramente en la asignación, pero esperaría en la norma p ya que cualquier otra métrica parece ser arbitraria en este caso.

— Taeke de Haan

El problema proviene de una tarea de Machine Learning; "El problema es un problema de clasificación de dos clases en 204 dimensiones. El pequeño conjunto de entrenamiento etiquetado tiene un tamaño de 50 muestras por clase. Los datos no etiquetados proporcionan 20,000 muestras adicionales. Sin embargo, estas muestras han sufrido algún tipo de corrupción. La única información adicional que tenemos con respecto a esta corrupción es que es un ruido uniforme aditivo y que el ruido proviene de una bola de norma p fija,

, donde tanto

como el radio

son desconocidos ". Necesito obtener la tasa de error más baja en los datos sin etiquetar.

| | x | |_{p} \leq r

$||x||_p \leq r$

p

$p$

r

$r$

— Taeke de Haan

Respuestas:

Encontré la solución completa en un documento según lo sugerido por kjetil b halvorsen ( https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=758215 ). Sinceramente, tengo problemas para comprender las matemáticas detrás de esto, pero el algoritmo eventual es bastante simple. si tenemos dimensiones, un radio y la norma que: $n$ $r$ $p$

1) generan escalares reales aleatorias independientes , donde es la distribución generalizada de Gauss (con una potencia diferente en el exponente en vez de solo ) $n$ $\varepsilon_i = \bar{G}(1/p, p)$ $\bar{G}(\mu, \sigma^2)$ $e^{−|x|^p}$ $p=2$

2) construya el vector de los componentes , donde son signos aleatorios independientes $x$ $s_i * \varepsilon_i$ $s_i$

3) Genere , donde es una variable aleatoria distribuida uniformemente en el intervalo [0, 1]. $z = w^{1/n}$ $w$

4) devuelve $y = r z \frac{x}{||x||_p}$

— Taeke de Haan
fuente

Para completar, ¿podría decir cuál es

en su respuesta?

G

$G$

— Stéphane Laurent

Ha sido actualizado

— Taeke de Haan

G es la distribución gaussiana generalizada (con una potencia diferente en el exponente

lugar de solo

). Esto hará que la distribución para el vector

, compuesta de múltiples variables distribuidas gaussianas generalizadas independientes

, que es el producto de los pdf individuales, dependa de la norma p.

e^{- | x |^{p}}

$e^{-|x|^p}$

p = 2

$p=2$

x

$\mathbf{x}$

x_{i}

$x_i$

f (x) \propto e^{- | x |_{p}^{pag}}

$f(\mathbf{x}) \propto e^{-\vert \mathbf{x} \vert_p^p}$

— Sextus Empiricus

@MartijnWeterings Muchas gracias, se ha actualizado.

— Taeke de Haan

Gracias. Para obtener información, hay una muestra de esta distribución en el paquete R pgnorm .

— Stéphane Laurent

Utilizando variables multivariadas distribuidas homogéneamente

Taeke proporciona un enlace a un artículo que el texto a continuación hace más intuitivo al explicar específicamente los casos de 2 y 1 norma.

2-norma $\Vert x \Vert_2 \leq r$

dirección de muestra

Puede usar este resultado http://mathworld.wolfram.com/HyperspherePointPicking.html

Una variable distribuida gaussiana multivariada (con matriz de covarianza de identidad) depende solo de la distancia o suma de cuadrados. $X$

F (X_{1}, X_{2}, . . ., X_{norte}) = \prod_{1 \leq yo \leq norte} \frac{1}{\sqrt{2 π}} {mi}^{\frac{1}{2} X_{yo}^{2}} = \frac{1}{\sqrt{2 π}} {mi}^{\frac{1}{2} \sum_{1 \leq yo \leq norte} X_{yo}^{2}}

$f(X_1,X_2,...,X_n) = \prod_{1\leq i \leq n} \frac{1}{\sqrt{2\pi}}e^{\frac{1}{2}x_i^2} = \frac{1}{\sqrt{2\pi}}e^{\frac{1}{2}\sum_{1 \leq i \leq n} x_i^2}$

Así se distribuye uniformemente en la superficie de la hiperesfera n-dimensional. $\frac{X}{\Vert X \Vert_2}$

distancia de muestra

Para completar solo necesita muestrear la distancia, para cambiar la distribución homogénea en la esfera a una distribución homogénea en una bola. (que es más o menos similar a su ejemplo vinculado para la selección de puntos de disco)

Si simplemente muestreara como una distribución uniforme, entonces tendría una densidad relativamente mayor cerca del centro (el volumen se escala como por lo que una fracción de los puntos terminaría en un volumen , que es más denso cerca del centro y no significaría una distribución uniforme) $r$ $r^n$ $r$ $r^n$

Si, por el contrario, utiliza la raíz -ésima de una variable muestreada a partir de una distribución uniforme, obtendrá una distribución uniforme. $n$

$\Vert x \Vert_1 \leq r$

dirección

$X$ $\frac{X}{\vert X \vert_1}$

No tengo pruebas formales, solo intuición

^{$f(x) dV$ $f(x) dA$}

pero las pruebas con simulaciones se ven bien.

library(rmutil)
x <- abs(rlaplace(20000))
y <- abs(rlaplace(20000))
z <- abs(rlaplace(20000))
rn <- abs(x)+abs(y)+abs(z)

xi <- (x/rn)
yi <- (y/rn)
zi <- (z/rn)
plot(sqrt(0.5)*(xi-yi),
     sqrt((0.5-0.5*(xi+yi))^2+zi^2),
     pc=21,bg=rgb(0,0,0,0.02), col=rgb(0,0,0,0),cex=1)

distancia

$r^n$

$\Vert x \Vert_p \leq r$

$f(x) \propto e^{\vert x \vert^p}$ $G()$

— Sexto empírico
fuente

p

$p$

n

$n$

r

$r$

p

$p$

z = w^{1 / n}

$z = w^{1/n}$

w

$w$

y = r z \frac{x}{| | x | |_{p}}

$y = r z \frac{x}{||x||_p}$

Generar ruido uniforme a partir de una bola de la norma p (

Utilizando variables multivariadas distribuidas homogéneamente

2-norma ∥ x ∥2≤ r‖x‖2≤r\Vert x \Vert_2 \leq r

dirección de muestra

distancia de muestra

∥ x ∥1≤ r‖X‖1≤r\Vert x \Vert_1 \leq r

dirección

distancia

∥ x ∥pag≤ r‖X‖pag≤r\Vert x \Vert_p \leq r

2-norma $\Vert x \Vert_2 \leq r$

$\Vert x \Vert_1 \leq r$

$\Vert x \Vert_p \leq r$