¿Relación y diferencia entre recuperación de información y extracción de información?


11

De Wikipedia

La recuperación de información es la actividad de obtener recursos de información relevantes para una necesidad de información de una colección de recursos de información. Las búsquedas pueden basarse en metadatos o en indización de texto completo.

De Wikipedia

La extracción de información (IE) es la tarea de extraer automáticamente información estructurada de documentos no estructurados y / o semiestructurados legibles por máquina. En la mayoría de los casos, esta actividad se refiere al procesamiento de textos en lenguaje humano mediante el procesamiento del lenguaje natural (PNL). Las actividades recientes en el procesamiento de documentos multimedia, como la anotación automática y la extracción de contenido de imágenes / audio / video, podrían verse como extracción de información.

¿Cuáles son las relaciones y diferencias entre la recuperación de información y la extracción de información?

¡Gracias!

Respuestas:


9

La recuperación de información se basa en una consulta : usted especifica qué información necesita y se devuelve en forma humana entendible.

La extracción de información se trata de estructurar información no estructurada: dadas algunas fuentes, toda la información (relevante) está estructurada de una forma que será fácil de procesar. Esto no necesariamente será en forma humana entendible, puede ser solo para el uso de programas de computadora.

Algunas fuentes:


7

http://gate.ac.uk/ie/ ofrece una distinción muy agradable y concisa:

La extracción de información no es recuperación de información: la extracción de información difiere de las técnicas tradicionales en que no recupera de una colección un subconjunto de documentos que esperamos sean relevantes para una consulta, basados ​​en la búsqueda de palabras clave (tal vez aumentada por un tesauro). En cambio, el objetivo es extraer de los documentos (que pueden estar en una variedad de idiomas) hechos relevantes sobre tipos de eventos, entidades o relaciones previamente especificados. Estos hechos generalmente se ingresan automáticamente en una base de datos, que luego se puede utilizar para analizar los datos en busca de tendencias, para dar un resumen en lenguaje natural o simplemente para servir para el acceso en línea.

Para decirlo gráficamente:

La recuperación de información obtiene conjuntos de documentos relevantes:

ingrese la descripción de la imagen aquí

La extracción de información saca datos de los documentos:

ingrese la descripción de la imagen aquí


2

Desde el punto de vista del modelado, la recuperación de información es un campo profundo basado en varias disciplinas, incluidas las estadísticas, las matemáticas, la lingüística, la inteligencia artificial y ahora la ciencia de los datos. En la práctica, estos modelos se aplican contra texto dentro de corpus para descubrir patrones en los datos. Los modelos IR no solo se superponen en su uso, sino que pueden "asociarse" con otros modelos como k-means o k-vecino más cercano, sino que otros modelos pueden aplicarse desde el punto de vista de la lingüística computacional como LDA / LDI y modelado de temas Entonces, el juego final es una especie de visualización de información de este descubrimiento, después de clasificar, agrupar y agregar el trabajo. La recuperación de información puede parecer una disciplina críptica, pero un esfuerzo serio, que es muy apreciado, se va a abrir el área para una comprensión más profunda de cada modelo y la interacción entre modelos. Cito la serie "Conferencias de síntesis sobre conceptos de información, recuperación y servicios" como el mejor lugar para profundizar en una base para IR.

Si bien no separo completamente IR y extracción de información, quizás un subconjunto de IE, extracción a nivel de concepto, sí aplica patrones IR junto con reglas de inferencia basadas en IA para extraer ontologías relacionadas. La naturaleza gráfica de estas relaciones se está mejorando con el modelado de ontología en OWL y RDF, y con bases de datos de gráficos, que permiten un conjunto de modelos de relaciones menos estricto o riguroso, y permiten que surjan más relaciones, en lugar de ser controladas per se. La capacidad de aumentar la extracción de información de forma dinámica mantiene su "disciplina" muy interesante para los investigadores.

Tanto IR como IE se desarrollan en nuestras propias "entidades del momento" significativas, algunas han llamado "ontologías dinámicas", algunas son Palantir, necesitamos los patrones, modelos, simulaciones y visualizaciones de esas entidades significativas para hacer negocios en la cara de transformar nuevas fuentes de información y cambiar la información existente. El modelo conceptual, relacional, definitorio, de patrones y ontológicos tiene que ser flexible y sus visualizaciones iguales. El trabajo pesado de los motores de IA como Watson en los campos de extracción de información e inferencia ha puesto el foco en los campos de IE y francamente IR. También la ubicuidad del procesamiento del lenguaje natural y el aprendizaje automático están llamando la atención sobre los modelos y motores de IR e IE. El impacto de los modelos IR en la búsqueda y el SEO, y en el modelado semántico web es uno de esos "


1

La recuperación de información se trata de devolver la información relevante para una consulta o campo de interés específico. Tenga en cuenta que esta información también puede ser en forma de documentos generales, por supuesto, los motores de búsqueda son un ejemplo notable de dicha tarea. Diría que las entidades más importantes reconocibles para la recuperación de información son el conjunto inicial de documentos / información y la consulta que especifica "qué buscar".

Por otro lado, la extracción de información se trata más de extraer (o inferir) conocimiento general (o relaciones) de un conjunto de documentos o información. Tenga en cuenta que aquí todo el contenido de los documentos podría considerarse como un corpus de datos completo del que se extrae el conocimiento. Por supuesto, también para este caso puede especificar de alguna manera qué desea extraer, pero se trata más de propiedades / relaciones que temas / temas específicos. Las propiedades son más específicas del dominio, mientras que las relaciones generalmente cubren escenarios más genéricos.

Una vez más, con los motores de búsqueda está solicitando obtener los sitios que tienen más probabilidades de contener información sobre ese tema específico. Este es un ejemplo de recuperación de información .

Para la extracción de información , podría, por ejemplo, solicitar extraer todos los nombres de ciudades o direcciones de correo electrónico que aparecen en un corpus de documentos. Incluso podría ser mucho más genérico, simplemente pidiendo extraer conocimiento. Como puede ver, esto es realmente genérico, pero se puede lograr, por ejemplo, obteniendo trillizos de la forma sujeto-acción-objeto para cada oración válida de un texto (esto es más adecuado para textos en lenguaje natural).

Si está interesado, estos (y otros) temas se explican en detalle en el capítulo Procesamiento del lenguaje natural del libro Inteligencia artificial: un enfoque moderno .

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.