Teniendo muchos documentos de texto (en lenguaje natural, no estructurado), ¿cuáles son las posibles formas de anotarlos con algunos metadatos semánticos? Por ejemplo, considere un documento corto:
I saw the company's manager last day.
Para poder extraer información de él, debe anotarse con datos adicionales para que sea menos ambiguo. El proceso de búsqueda de estos metadatos no está en duda, por lo tanto, suponga que se hace manualmente. La pregunta es cómo almacenar estos datos de manera que se puedan realizar análisis adicionales de manera más conveniente / eficiente.
Un posible enfoque es usar etiquetas XML (ver más abajo), pero parece demasiado detallado, y tal vez haya mejores enfoques / pautas para almacenar dichos metadatos en documentos de texto.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.