Conjunto de datos libre para clasificación dimensional muy alta [cerrado]

35

¿Cuáles son los conjuntos de datos disponibles gratuitamente para la clasificación con más de 1000 características (o puntos de muestra si contiene curvas)?

Ya existe un wiki comunitario sobre conjuntos de datos gratuitos: ubicación de muestras de datos disponibles gratuitamente

Pero aquí, sería bueno tener una lista más enfocada que pueda usarse de manera más conveniente , también propongo las siguientes reglas:

Una publicación por conjunto de datos
Sin enlace al conjunto de conjunto de datos
cada conjunto de datos debe estar asociado con
- un nombre (para averiguar de qué se trata) y un enlace al conjunto de datos (los conjuntos de datos R se pueden nombrar con el nombre del paquete)
- el número de características (digamos que es p ) el tamaño del conjunto de datos (digamos que es n ) y el número de etiquetas / clase (digamos que es k )
- una tasa de error típica de su experiencia (indique el algoritmo utilizado en palabras) o de la literatura (en este último caso, enlace el documento)

— robin girard
fuente

+1, pero los de NIPS2003 solo tienen train.labels: el documento de NIPS2003 dice claramente que "las etiquetas de validación y prueba se retienen".

— denis

Gracias. El comentario sobre NIPS es para la respuesta de @mbq.

— robin girard

¿Alguien aquí tiene un conjunto de datos de alta dimensión con más de dos etiquetas de clase?

— hlin117

3

Dorothea
n = 1950
p = 100000 (0.1M, la mitad es ruido agregado artificialmente)
k = 2 (~ 10x desequilibrado)
De NIPS2003 .

— revs usuario88
fuente

¿Puedes explicar cómo se trata de 100000 características? Miro los datos de entrenamiento y cada línea tiene quizás 2500 enteros por línea.

— JeremyKun

Es una matriz dispersa, entero N significa que el valor del atributo N es 1.

3

Gisette
n = 13500
p = 5000 (la mitad es ruido añadido artificialmente)
k = 2 (equilibrado)
De NIPS2003 .

— usuario88
fuente

3

Dexter
n = 2600
p = 20000 (10k + 53 es ruido artificial)
k = 2 (balanceado)
De NIPS2003 .

— revs usuario88
fuente

No entiendo ... ¿un juego por persona?

@robin & @mbq Sugeriría mantener un conjunto de datos por publicación. Esto puede indicar que la gente con los votos a cuál de los sugeridos también sugieren / soporte

— Peter Smit

@ Peter, OK, sigo tu idea, he cambiado la pregunta en consecuencia.

— robin girard

3

Arcene
n = 900
p = 10000 (3k es ruido añadido artificialmente)
k = 2 (~ balanceado)
De NIPS2003 .

— usuario88
fuente

2

Prostate (gene expression array)

k=2
n=48+52
p=6033

Available via (among other) R package spls name of the dataset: prostate

tasa de error = 3/102 (ver aquí ) también creo que hay documentos que muestran la tasa de error 1/102. Yo diría que este es un caso de prueba fácil.

— robin girard
fuente