Uso de herramientas de minería de texto / procesamiento de lenguaje natural para econometría

No estoy seguro de si esta pregunta es totalmente apropiada aquí, de lo contrario, elimínela.

Soy un estudiante graduado en economía. Para un proyecto que investiga problemas en seguros sociales, tengo acceso a una gran cantidad de informes de casos administrativos (> 200k) que se ocupan de las evaluaciones de elegibilidad. Estos informes posiblemente pueden vincularse a información administrativa individual. Quiero extraer información de estos informes que pueda usarse en análisis cuantitativo, e idealmente más que simples búsquedas de palabras clave / expresiones regulares usando grep/ awketc.

¿Qué tan útil es el procesamiento del lenguaje natural para esto? ¿Cuáles son otros enfoques útiles de minería de texto? Por lo que entiendo, este es un gran campo, y lo más probable es que algunos de los informes tengan que ser transformados para ser utilizados como un corpus. ¿Vale la pena invertir algún tiempo para familiarizarse con la literatura y los métodos? ¿Puede ser útil y se ha hecho algo similar antes? ¿Vale la pena en términos de recompensas, es decir, puedo extraer información potencialmente útil utilizando PNL para un estudio empírico en economía?

Posiblemente haya fondos para contratar a alguien para leer y preparar algunos de los informes. Este es un proyecto más grande y existe la posibilidad de solicitar más fondos. Puedo proporcionar más detalles sobre el tema si es estrictamente necesario. Una posible complicación es que el idioma es alemán, no inglés.

Con respecto a las calificaciones, en su mayoría estoy capacitado en econometría y tengo algunos conocimientos sobre estadísticas computacionales a nivel de Hastie et al. libro. Conozco Python, R, Stata, y probablemente podría familiarizarme con Matlab rápidamente. Dadas las bibliotecas, supongo que Python es la herramienta de elección para esto. No hay capacitación en absoluto en métodos cualitativos si esto es relevante, pero conozco a algunas personas con las que puedo comunicarme.

Me complace cualquier comentario sobre esto, es decir, si esto es potencialmente útil, si es así, dónde comenzar a leer y en qué herramientas centrarse en particular.

— ilprincipe
fuente

LASSO, la regresión de ángulo mínimo y el análisis logístico son algunas herramientas potencialmente relevantes. Es posible que desee ver cómo abordé un problema similar para mi Ph.D. tesis aquí y mi blog sobre las herramientas de PNL en economía aquí . Si llegaste a algún lado con esto, sería genial saber sobre tu progreso o cualquier desafío que puedas haber encontrado.

— gradstudent

Creo que le beneficiaría definir qué información desea extraer de los datos. Las búsquedas simples de palabras clave / expresiones regulares en realidad pueden ser muy fructíferas para usted. Trabajo en seguros y usamos este tipo de minería de texto con bastante frecuencia: es posiblemente ingenuo y definitivamente imperfecto, pero es un comienzo relativamente bueno (o una aproximación cercana) a lo que generalmente nos interesa.

Pero para mi punto principal, para determinar si su método elegido es apropiado, recomendaría definir exactamente qué desea extraer de los datos; Esa es la parte más difícil, en mi opinión.

Puede ser interesante encontrar las palabras únicas dentro de todas las cadenas y hacer una frecuencia de las 1000 palabras más o menos. Esto puede ser computacionalmente costoso (dependiendo de su RAM / procesador) pero puede ser interesante de ver. Si estuviera explorando los datos sin mucho conocimiento al respecto, aquí es donde comenzaría (otros pueden ofrecer diferentes puntos de vista).

Espero que ayude.

— Francisco Arceo
fuente

gracias, definitivamente estaba pensando en comenzar con algo como esto. Sé que mi pregunta es vaga, pero en general estoy interesado en qué tipo de información podría extraer con otros métodos. Admito que no estoy seguro de si es posible responder esto sin conocer el contexto específico.

— ilprincipe

Creo que ese es siempre el desafío con cualquier trabajo / profesión relacionada con los datos. Probablemente recomiendo mirar algunos de sus datos, si hay variables con descripciones sobre los datos o el evento del seguro, lea un par de docenas: obtenga una idea de los datos. Recuerde, todo lo que intentamos hacer es modelar el proceso subyacente de los datos y realmente hacer un gran trabajo de eso, debe conocer los datos.

— Francisco Arceo