¿De qué sirven las matrices densas en estadística?

OK, no soy un estadístico (ni siquiera cerca). Soy un investigador de computación de alto rendimiento y quería algunos casos de prueba para matrices densas grandes (mayores de 5000x5000). Había preguntado aquí y en algunos otros lugares, pero nunca recibí respuesta de un estadístico. Estoy muy interesado en probar mis códigos en un problema de estadísticas. ¿Podría sugerir una aplicación en estadística donde uno necesita resolver para x donde es denso y cuadrado? $Ax=b$ $A$

Le agradecería mucho que también me pudiera dar aplicaciones donde A no tiene estructura, es decir, sin simetría, sin definición positiva, etc. Pero eso no es del todo necesario. Basta una gran matriz densa con una buena aplicación.

Lo siento si esta pregunta parece abierta o vaga, pero no puedo imaginar un mejor lugar para hacerla.

large-data matrix

— Comunidad
fuente

Un ejemplo bastante básico que me viene a la mente es el paquete lme4 de R para el modelado de efectos mixtos, que se basa en matrices de diseño dispersas para manejar muchos efectos aleatorios. Sin embargo, siento que estás más interesado en la escasa aportación, ¿estoy en lo cierto?

— chl

No, quiero una matriz densa A. Idealmente, debería ser casi densa sin simetría

Cuando dice 'resolver para densa ', ¿quiere decir 'resolver para , donde es denso'?

A x = b

$Ax=b$

A

$A$

A x = b

$Ax=b$

x

$x$

A

$A$

— parada

Si. Perdón por los malos atajos. Eso es lo que quiero decir. Por ejemplo, A = rand (5000,5000); b = rand (5000,1); resolver (A, x, b); Suponga que rand da una distribución uniforme entre 1 y 2

Hay generadores de problemas de regresión, por ejemplo, en scikit-learn samples_generator , y seguramente hay otros. Pero, corrígeme , es bastante rápido con Lapack y similares; Creo que hay más mercado para métodos robustos, sistemas grandes / escasos sobre / subdeterminados, ... De todos modos, también puede preguntar metaoptimizar .

A x = b

$Ax = b$

— denis

Respuestas:

Puede encontrar útil el Java Matrix Benchmark . El Mercado de la matriz no parecen tener lo que quieres, aunque tiene muchos ejemplos.

— Jean-Victor Côté
fuente

Aunque esto no respondió completamente a mi pregunta, me llevó a una posible respuesta: math.nist.gov/MatrixMarket/data/misc/xlatmr/xlatmr.html

Aquí es grande, aunque no estoy seguro de si es lo suficientemente denso para ti. De http://www.grouplens.org/node/73

MovieLens 100k: consta de 100,000 clasificaciones de 1000 usuarios en 1700 películas.
MovieLens 1M: consta de 1 millón de valoraciones de 6000 usuarios en 4000 películas.
MovieLens 10M: consta de 10 millones de calificaciones y 100,000 aplicaciones de etiquetas aplicadas a 10,000 películas por 72,000 usuarios.

— Jack Tanner
fuente

1. La densidad es de importancia primordial y dudo que la matriz formada sea densa. 2. ¿Cómo es esto relevante para Ax = b? Necesito aplicaciones estadísticas, no grandes estadísticas aleatorias.

La aplicación estadística es el filtrado colaborativo: dada una matriz de usuarios x películas, predice la calificación que un usuario dará a una película que aún no ha visto. Piense en las recomendaciones de productos al estilo de Amazon.com. Las matrices grandes de tales preferencias de elementos de usuario tienden a ser escasas, pero podría cortar las cosas realmente largas.

— Jack Tanner

"Las matrices grandes de tales preferencias de elementos de usuario tienden a ser escasas" La densidad es de primordial importancia No estoy seguro de lo que es la cola larga, pero no obstante, dudo que conduzca a una matriz densa completa no estructurada.

No estoy seguro de que la aplicación que busca tenga sentido en un contexto estadístico. Lo que le interesa es un análisis de regresión lineal. es una matriz de mediciones en la que cada fila es una sola medición de variables. Me vienen a la mente dos posibles aplicaciones con posiblemente . 1) análisis de microarrays de ADN y 2) análisis de datos de resonancia magnética funcional. En cualquier caso, será difícil encontrar conjuntos de datos con personas (mediciones). $A\in R^{m\times n}$ $m$ $n$ $n>5000$ $m>5000$

Sin embargo, su requerimiento de restringe el sentido de dicho análisis de una manera principal. Después de que todas las estadísticas se trata de inferir algo subyacente, digamos, la verdad a partir de datos ruidosos , es decir, el modelo estadístico implícito en su pregunta es donde es una medida única, son los parámetros asumidos que intenta encontrar con su análisis y es alguna forma de ruido. Ahora usted dice que debe ser invertible, es decir, tiene que ser de rango completo, es decir, las mediciones no deben repetirse, es decir, solo tiene una única observación de ruido corrompido por $m=n$

b = a^{T} x + ϵ

$b=a^Tx + \epsilon$

a

$a$

x

$x$

ϵ

$\epsilon$

A

$A$

a

$a$

b

$b$

a

$a$ y esa es una situación muy mala para tratar de estimar los parámetros , especialmente, en el caso en que el número de parámetros excede (o es igual) al número de mediciones. Luego, su modelo simplemente se ajusta al ruido en los datos que se denomina sobreajuste.

x

$x$

— sbitzer
fuente