No estoy seguro de si esta pregunta es totalmente apropiada aquí, de lo contrario, elimínela.
Soy un estudiante graduado en economía. Para un proyecto que investiga problemas en seguros sociales, tengo acceso a una gran cantidad de informes de casos administrativos (> 200k) que se ocupan de las evaluaciones de elegibilidad. Estos informes posiblemente pueden vincularse a información administrativa individual. Quiero extraer información de estos informes que pueda usarse en análisis cuantitativo, e idealmente más que simples búsquedas de palabras clave / expresiones regulares usando grep
/ awk
etc.
¿Qué tan útil es el procesamiento del lenguaje natural para esto? ¿Cuáles son otros enfoques útiles de minería de texto? Por lo que entiendo, este es un gran campo, y lo más probable es que algunos de los informes tengan que ser transformados para ser utilizados como un corpus. ¿Vale la pena invertir algún tiempo para familiarizarse con la literatura y los métodos? ¿Puede ser útil y se ha hecho algo similar antes? ¿Vale la pena en términos de recompensas, es decir, puedo extraer información potencialmente útil utilizando PNL para un estudio empírico en economía?
Posiblemente haya fondos para contratar a alguien para leer y preparar algunos de los informes. Este es un proyecto más grande y existe la posibilidad de solicitar más fondos. Puedo proporcionar más detalles sobre el tema si es estrictamente necesario. Una posible complicación es que el idioma es alemán, no inglés.
Con respecto a las calificaciones, en su mayoría estoy capacitado en econometría y tengo algunos conocimientos sobre estadísticas computacionales a nivel de Hastie et al. libro. Conozco Python, R, Stata, y probablemente podría familiarizarme con Matlab rápidamente. Dadas las bibliotecas, supongo que Python es la herramienta de elección para esto. No hay capacitación en absoluto en métodos cualitativos si esto es relevante, pero conozco a algunas personas con las que puedo comunicarme.
Me complace cualquier comentario sobre esto, es decir, si esto es potencialmente útil, si es así, dónde comenzar a leer y en qué herramientas centrarse en particular.