¿Dónde encontrar un corpus de texto grande? [cerrado]


16

Estoy buscando un corpus de texto grande (> 1000) para descargar. Preferiblemente con noticias mundiales o algún tipo de informes . Solo he encontrado uno con patentes. ¿Alguna sugerencia?


Este hilo parece estar fuera de tema. Ver meta.stats.stackexchange.com/questions/1032/… .
whuber

Esta pregunta parece estar fuera de tema porque se trata de encontrar un conjunto de datos, en lugar de hacer un análisis estadístico
Peter Flom - Restablecer a Monica

2
Bueno, eso es incómodo, porque este Q&A es realmente útil.
Sideshow Bob el

@guaka, por favor, no publique publicaciones tan antiguas para ediciones menores, especialmente una publicación que está cerrada. Es cierto que nuestra preferencia de estilo no es tener "gracias", pero por algo tan menor, simplemente lo dejamos.
gung - Restablece a Monica

Respuestas:




6

El corpus de texto reuters es un clásico en el campo, y se puede encontrar aquí


No es el corpus más interesante (o diverso). La licencia también es restrictiva en relación con Wikileaks (documentos de dominio público de EE. UU.) O wikinoticias.
ariddell

@ariddell estoy de acuerdo, pero se usa comúnmente en ejemplos introductorios de PNL, y es lo suficientemente grande como para ser útil en el aprendizaje, pero lo suficientemente pequeño como para ser analizado en una buena computadora portátil.
richiemorrisroe



Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.