Estoy buscando un corpus de texto grande (> 1000) para descargar. Preferiblemente con noticias mundiales o algún tipo de informes . Solo he encontrado uno con patentes. ¿Alguna sugerencia?
Estoy buscando un corpus de texto grande (> 1000) para descargar. Preferiblemente con noticias mundiales o algún tipo de informes . Solo he encontrado uno con patentes. ¿Alguna sugerencia?
Respuestas:
¿No te convienen los textos de Wikileaks?
¿Qué hay de wikinoticias ? Aquí está el último volcado de base de datos que pude encontrar: http://dumps.wikimedia.org/enwikinews/20111120/
Probablemente desee la opción "Todas las páginas, solo versiones actuales".
El corpus de texto reuters es un clásico en el campo, y se puede encontrar aquí
http://endb-consolidated.aihit.com/datasets.htm contiene 10K compañías con descripciones textuales
Si lo reciente no es un problema, puedes intentar
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
y hay muchos otros conjuntos de datos similares en infochimp dependiendo de su presupuesto.
Saludos, Andy.
Si desea n-gramas precalculadas, puede probar el archivo de google books: