Sugerir conjuntos de datos de entrenamiento de clasificadores de texto

9

¿Qué conjuntos de datos disponibles libremente puedo usar para entrenar un clasificador de texto?

Estamos tratando de mejorar la participación de nuestros usuarios recomendando el contenido más relacionado para él, por lo que pensamos que si clasificamos nuestro contenido en función de una bolsa de palabras predefinida, podemos recomendarle contenido atractivo al obtener sus comentarios sobre un número aleatorio de publicaciones ya clasificadas antes de.

Podemos usar esta información para recomendarle pulsos etiquetados con esas clases. Pero descubrimos que si utilizamos una bolsa de palabras predefinida que no está relacionada con nuestro contenido, el vector de características estará lleno de ceros, también las categorías pueden no ser relevantes para nuestro contenido. entonces, por esas razones, probamos otra solución que agrupará nuestro contenido sin clasificarlo.

Gracias :)

— Abdelmawla
fuente

1

Creo que se necesitan más detalles sobre su problema antes de que alguien pueda recomendar un conjunto de datos.

— Neil Slater

3

¿Con qué propósito? ¿Filtrado de spam? ¿Análisis de los sentimientos? Sin un propósito claro, es muy difícil sugerir un conjunto de datos.

— lsdr

@lsdr Mirando las respuestas, parece que la pregunta no necesariamente necesita más detalles.

— Amir Ali Akbari

@AmirAliAkbari Creo que vinieron después de una edición. Me retraje de mi voto cerrado, de todos modos.

— Rubens

Un lugar más apropiado para esta pregunta es opendata.stackexchange.com

— sheldonkreger

14

Algunos conjuntos de datos estándar para la clasificación de texto son el grupo 20-News, Reuters (con 8 y 52 clases) y WebKb. Puedes encontrarlos todos aquí .

— Debasis
fuente

Gracias :), que ya ha visitado antes, pero lo encontré de clasificaciones son lo suficientemente débil como no abstracto o que pueden no relacionados con el contenido de mi

— Abdelmawla

7

Una de las colecciones de pruebas más utilizadas para la investigación de categorización de texto (enlace a continuación). Lo he usado muchas veces. Disfruta tu exploración :)

http://www.daviddlewis.com/resources/testcollections/reuters21578/ o http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

— Hammam
fuente

5

Aquí hay un montón de conjuntos de datos gratuitos que UC Irvine puede jugar . Entre esos conjuntos de datos, hay unas pocas docenas de conjuntos de datos textuales que pueden ayudarlos con su tarea.

Esos son tipos de conjuntos de datos genéricos, por lo que, dependiendo de su propósito, no deberían usarse como los únicos datos para entrenar sus modelos, o su modelo, aunque podría funcionar, no producirá resultados de calidad.

— lsdr
fuente

1

Además de las sugerencias anteriores, hay un pdf extremadamente útil: Benchmarking Text Collections for Classification and Clustering Tasks que contiene varios conjuntos de datos junto con los puntos de referencia para probar nuestros modelos. Esto incluye 20ng Collection, Reuters y muchos de los conjuntos de datos sugeridos anteriormente. ¡Espero que ayude!

— Hima Varsha
fuente