Actualmente estoy buscando conjuntos de datos etiquetados para entrenar un modelo para extraer entidades nombradas del texto informal (algo similar a los tweets). Debido a que a menudo faltan mayúsculas y gramática en los documentos de mi conjunto de datos, estoy buscando datos fuera del dominio que sean un poco más "informales" que el artículo de noticias y las entradas de diario que son muchos de los sistemas de reconocimiento de entidades de vanguardia actuales. entrenado en.
¿Alguna recomendación? Hasta ahora solo he podido localizar 50k tokens de Twitter publicados aquí .