Conjunto de datos para el reconocimiento de entidades con nombre en texto informal

18

Actualmente estoy buscando conjuntos de datos etiquetados para entrenar un modelo para extraer entidades nombradas del texto informal (algo similar a los tweets). Debido a que a menudo faltan mayúsculas y gramática en los documentos de mi conjunto de datos, estoy buscando datos fuera del dominio que sean un poco más "informales" que el artículo de noticias y las entradas de diario que son muchos de los sistemas de reconocimiento de entidades de vanguardia actuales. entrenado en.

¿Alguna recomendación? Hasta ahora solo he podido localizar 50k tokens de Twitter publicados aquí .

dataset nlp

— Madison May
fuente

2

Recomiendo preguntar en opendata.stackexchange.com

— Air

@Madison May. ¿Encontraste un conjunto de datos? Estoy buscando algo similar Gracias.

— ahoffer

Tuve que arreglármelas con el twitter ner corpus de U. Washington (vinculado en la publicación original).

— Madison May

FYI Corpus de texto etiquetado (periódicos en inglés o cualquier texto etiquetado)

— Franck Dernoncourt

¿Tienes algún buen corpus anotado inglés relacionado?

— Achyuta nanda sahoo

6

Según tengo entendido, estas son las propiedades que está buscando en un conjunto de datos de muestra:

Datos de texto
Debe ser informal, es decir, tener errores tipográficos, jerga y, básicamente, algo no editado profesionalmente
Algo más que Twitter (no te culpo, Twitter es una fuente de datos de ejemplo útil pero muy utilizada en la minería de texto)

Aquí hay algunas recomendaciones:

Correos electrónicos del corpus SpamAssassin : tenga en cuenta que están disponibles los conjuntos de datos "no deseados" y no deseados
Conjunto de datos de microblogPCU de UCI, que son datos extraídos de los microblogs de los usuarios de Sina Weibo. Tenga en cuenta que los datos de texto sin procesar son una mezcla de chino e inglés (puede realizar la traducción automática del chino, filtrar solo al inglés o usarlo como es)
Amazon Commerce revisa el conjunto de datos de UCI
Dentro del conjunto de datos bag-o-words , intente usar los correos electrónicos de Enron
El conjunto de datos de veinte grupos de noticias
Esta bonita colección de spam por SMS
Siempre puede raspar (extraer) sus propios datos de texto de Internet; No estoy seguro de cuál o cuáles han paquete estadístico que está utilizando, pero los paquetes basados en XPath están disponibles en R ( rvest, scrapeR, etc.) y Python para lograr esto

— Hack-R
fuente

1

¿Alguno de estos conjuntos de datos está anotado con entidades nombradas? Creo que eso es lo que OP estaba buscando.

— Sr. Phil

3

Comprueba estos:

Repositorio de dominios de prueba para extracción de información: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( espejo )

Enlace actualizado:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
fuente

1

Actualice estos enlaces ya que ninguno de ellos funciona más.

— Sr. Phil

0

Algunas de las fuentes que he usado:

El clásico CONLL Corpus: CONLL Dataset
Una fuente de Kaggle que vale la pena probar: Kaggle NER Corpus
OntoNotes Release 5.0: sobre notas
Tarea de reconocimiento de entidad biológica: entidades biológicas
Otro conjunto de datos relacionados con el correo electrónico: Conjunto de datos de correo electrónico de Enron

Creo que estos conjuntos de datos serán de gran ayuda para su tarea.

— Gyan Ranjan
fuente