Análogos de detección comprimida

22

$x \in \mathbb{R}^n$ $\|x\|_0 < k$ $Ax$ $A$ $R$ $n$ $R \ll n$ $A$ $k$ -parte $x$ con $R$ tan pequeño como $O(k n^{o(1)})$ . Puede que no tenga los parámetros más conocidos, pero esta es la idea general.

Mi pregunta es: ¿hay fenómenos similares en otros entornos? Lo que quiero decir es que la señal de entrada podría provenir de una "familia de baja complejidad" de acuerdo con una medida de complejidad que no es necesariamente escasa. Entonces queremos algoritmos de compresión y descompresión, no necesariamente mapas lineales, que sean eficientes y correctos. ¿Se conocen estos resultados en un contexto diferente? ¿Cuál sería su suposición para una teoría más "general" de la detección comprimida?

(Por supuesto, en las aplicaciones de detección comprimida, la linealidad y la escasez son cuestiones importantes. La pregunta que hago aquí es más "filosófica").

ds.algorithms ds.data-structures compressed-sensing

— arnab
fuente

21

Su pregunta aborda el problema de recuperación "exacto" (queremos recuperar un k-sparse $x$ exactamente dado $Ax$ ). En lo siguiente, sin embargo, me centraré en la versión "robusta", donde $x$ es un vector arbitrario y el objetivo del algoritmo de recuperación es encontrar una aproximación $k$ dispersa $x'$ a $x$ (esta distinción realmente importa para parte de la discusión a continuación ) Formalmente desea resolver el siguiente problema ( $P_1$ ):

Diseño $A$ tal que para cualquier $x$ uno pueda recuperar $x'$ donde $\|x-x'\|_L \le$

$\min_{x"} C \|x-x"\|_R$ , donde extiende sobre todos los vectores dispersos. $x"$ $k$

Ahora a algunos de los análogos y generalizaciones.

Base arbitraria. Primero, observe que cualquier esquema que satisfaga la definición anterior puede usarse para resolver un problema más general, donde la señal recuperada es escasa en una base arbitraria (digamos, wavelet de Fourier), no solo el estándar. Sea la matriz base. Formalmente, un vector es disperso en base si donde es disperso. Ahora podemos considerar el problema generalizado ( ): $x'$ $B$ $u$ $k$ $B$ $u=Bv$ $v$ $k$ $P_B$

Diseñe tal manera que dado , uno pueda recuperar where $A_B$ $A_B x$ $x'$ $\|x-x'\|_L \le$

$\min_{x"} C \|x-x"\|_R$ , donde rangos de más de todos los vectores que son opción -sparse en . $x"$ $k$ $B$

Se puede reducir este problema al problema anterior cambiando la base, es decir, utilizando una matriz de medición . Si tenemos una solución para en la norma (es decir, las normas izquierda y derecha iguales a ), también obtenemos una solución para en la norma . Si usa otras normas, resolvemos en aquellas normas modificadas cambiando la base. $P_1$ $A_B = A B^{-1}$ $P_1$ $\ell_2$ $\ell_2$ $P_B$ $\ell_2$ $P_1$ $P_B$

Una advertencia en lo anterior es que en el enfoque anterior, necesitamos conocer la matriz para definir . Tal vez resulte sorprendente, si permitimos que la aleatorización ( no es fijo, sino que elige al azar), es posible elegir de la una distribución fija que es independiente de . Esta es la llamada propiedad de universalidad . $B$ $A_B$ $A_B$ $A_B$ $B$

Diccionarios La siguiente generalización se puede obtener eliminando el requisito de que es una base. En cambio, podemos permitir que tenga más filas que columnas. Dichas matrices se denominan diccionarios (sobrecompletos). Un ejemplo popular es la matriz de identidad en la parte superior de la matriz de Fourier. Otro ejemplo es una matriz donde las filas son los vectores característicos de todos los intervalos en {1 ... n}; en este caso, el conjunto { } contiene todos los " -histogramas", es decir, funciones constantes por partes sobre {1 ... n} con como máximo piezas. $B$ $B$ $Bu: \mbox{u is k-sparse}$ $k$ $k$

Hasta donde sé, no existe una teoría general para tales diccionarios arbitrarios, aunque ha habido una buena cantidad de trabajo sobre este tema. Véase, por ejemplo, Candes-Eldar-Needell'10 o Donoho-Elad-Temlyakov, IEEE Transactions on Information Theory, 2004 .

El bosquejo de histogramas se investigó ampliamente en la transmisión y la literatura de bases de datos, por ejemplo, Gilbert-Guha-Indyk-Kotidis-Muthukrishnan-Strauss, STOC 2002 o Thaper-Guha-Indyk-Koudas, SIGMOD 2002 .

Modelos. (también mencionado por Arnab). Una generalización diferente es introducir restricciones en los patrones de dispersión. Sea un subconjunto de -subconjuntos de {1 ... n}. Decimos que es opción -sparse si el apoyo de está incluido en un elemento de . Ahora podemos plantear el problema ( ): $M$ $k$ $u$ $M$ $u$ $M$ $P_M$

Diseño tal que para cualquier uno pueda recuperar donde $A$ $x$ $x'$ $\|x-x'\|_L \le$

$\min_{x"} C \|x-x"\|_R$ , donde extiende sobre todos los vectores dispersos. $x"$ $M$

Por ejemplo, los elementos de podrían tener la forma , donde cada corresponde a un "subbloque" de {1 ... n} de cierta longitud , es decir, es de la forma {jb + 1 ... (j + 1) b} para algunos . Este es el llamado modelo de "dispersión de bloques". $M$ $I_1 \cup \ldots \cup I_k$ $I_i$ $b$ $I_i$ $j$

Los beneficios de los modelos es que se puede ahorrar en el número de mediciones, en comparación con el enfoque genérico de espacialidad. Esto se debe a que el espacio de las señales dispersas es más pequeño que el espacio de todas las señales dispersas, por lo que la matriz necesita preservar menos información. Para obtener más información, consulte Baraniuk-Cevher-Duarte-Hegde, IEEE Transactions on Information Theory, 2010 o Eldar-Mishali, IEEE Transactions on Information Theory, 2009 . $k$ $M$ $k$ $A$

Espero que esto ayude.

— Piotr
fuente

11

Hay una generalización de la detección comprimida a la configuración no conmutativa llamada terminación de matriz . En la configuración exacta, se le da una matriz desconocida que, en lugar de la dispersión, se sabe que tiene un rango bajo . Su objetivo es reconstruir los valores singulares y los vectores singulares de esta matriz muestreando solo los coeficientes de la matriz, en lugar de como se requiere en el peor de los casos. $m \times n$ $M$ $r \ll m,n$ $r$ $\tilde{O}(rm+rn)$ $O(mn)$

Si los vectores singulares son suficientemente "incoherentes" (más o menos, no muy bien alineados) con la base en la que está muestreando los elementos de la matriz, entonces puede tener éxito con alta probabilidad resolviendo un programa convexo, similar a la detección comprimida estándar. En este caso, debe minimizar la norma Schatten 1, es decir, la suma de los valores singulares.

Este problema también tiene muchas aplicaciones, por ejemplo, para dar recomendaciones de libros a un cliente de una librería en línea al conocer solo las pocas calificaciones que otros clientes han generado. En este contexto, las filas y columnas de están etiquetadas por los libros y los clientes, respectivamente. Los pocos elementos de matriz visibles son las calificaciones de los clientes de los libros que compraron previamente. Se espera que la matriz sea de rango bajo porque creemos que, por lo general, solo unos pocos factores primarios influyen en nuestras preferencias. Al completar , el proveedor puede hacer predicciones precisas sobre qué libros es probable que desee. $M$ $M$ $M$

Un buen comienzo es este artículo de Candés y Recht, Exact Matrix Completion via Convex Optimization . También hay una generalización realmente genial donde se le permite muestrear de forma arbitraria para el espacio de la matriz. Este documento de David Gross, Recuperando matrices de bajo rango de pocos coeficientes en cualquier base, utiliza esta generalización para simplificar sustancialmente las pruebas de terminación de matriz, y para algunas bases también puede eliminar el supuesto de incoherencia. Ese documento también contiene los mejores límites hasta la fecha en la complejidad del muestreo. Puede sonar extraño muestrear de forma arbitraria, pero en realidad es bastante natural en la configuración de la mecánica cuántica, véase, por ejemplo, este documento, Tomografía de estado cuántico mediante detección comprimida .

— Steve Flammia
fuente

9

Existe una detección comprimida basada en múltiples, en la que la condición de escasez se reemplaza por la condición de que los datos se encuentran en un submanifold de baja dimensión del espacio natural de señales. Tenga en cuenta que la dispersión puede expresarse como acostada en un colector particular (de hecho, una variedad secante).

Ver, por ejemplo, este documento y las referencias en su introducción. (Es cierto que no sé si este documento es representativo del área; estoy más familiarizado con el tema relacionado de los clasificadores basados en múltiples a la Niyogi-Smale-Weinberger ).

— Joshua Grochow
fuente

papel interesante No estaba al tanto de este trabajo.

— Suresh Venkat

dicho sea de paso, como Candes señaló en su charla invitada de SODA 10, la escasez no es lo mismo que ser de baja dimensión. es bastante fácil tener uno sin el otro

— Suresh Venkat

¡Gracias! Un trabajo interesante citado por el artículo vinculado es "Detección de compresión basada en modelos". Creo que muestra que el número de mediciones se puede reducir incluso más que en CS normal si se promete que la señal de entrada proviene de un pequeño conjunto de subespacios de dimensiones K.

— arnab

8

Supongo que, en el nivel de generalidad en el que he planteado la pregunta, el documento "Compresión de fuentes muestreables" de Trevisan, Vadhan y Zuckerman (2004) también califica como una posible respuesta. Muestran que, en muchos casos, si la fuente de las cadenas de entrada es de baja complejidad (p. Ej., Puede ser muestreada por máquinas de espacio de registro), se puede comprimir y descomprimir, en tiempo polinómico, para alargar una constante aditiva lejos de la entropía de la fuente.

Sin embargo, no sé realmente si la detección comprimida se puede incluir en una teoría más amplia de la compresión.

— arnab
fuente

3

Un análogo de la detección compresiva es el aprendizaje automático cuando intenta estimar un vector de peso dimensional alto (p. Ej., En clasificación / regresión) a partir de un tamaño de muestra muy pequeño. Para tratar con sistemas subdeterminados de ecuaciones lineales en tales configuraciones, uno típicamente aplica la dispersión (a través de la penalización l0 o l1) en el vector de peso que se está aprendiendo. Para ver la conexión, considere el siguiente problema de clasificación / regresión del aprendizaje automático:

Representa los N ejemplos de dimensiones D cada uno (D >> N) como una matriz NxD X. Representa las respuestas N (una para cada ejemplo) como un vector Nx1 Y. El objetivo es resolver un vector Dta theta a través de la siguiente ecuación : Y = X * theta

Ahora aquí está la analogía de este problema con la detección de compresión (CS): desea estimar / medir theta que es un vector D dimensional (similar a una "señal" desconocida en CS). Para estimar esto, utiliza una matriz X (similar a la matriz de diseño en CS) y N 1-D mediciones Y (similar a la señal comprimida en CS, ya que D >> N).

— spinxl39
fuente

2

Ver: http://www.damtp.cam.ac.uk/user/na/people/Anders/Inf_CS43.pdf