Tenga en cuenta que estoy haciendo todo en R.
El problema es el siguiente:
Básicamente, tengo una lista de currículums (CV). Algunos candidatos tendrán experiencia laboral antes y otros no. El objetivo aquí es: en función del texto en sus CV, quiero clasificarlos en diferentes sectores de trabajo. Soy particular en esos casos, en los que los candidatos no tienen ninguna experiencia / es estudiante, y quiero hacer una predicción para clasificar a qué sectores laborales pertenecerá este candidato después de la graduación.
Pregunta 1: Conozco algoritmos de aprendizaje automático. Sin embargo, nunca antes había hecho PNL. Me encontré con la asignación de Dirichlet Latente en Internet. Sin embargo, no estoy seguro de si este es el mejor enfoque para abordar mi problema.
Mi idea original: hacer de esto un problema de aprendizaje supervisado . Supongamos que ya tenemos una gran cantidad de datos etiquetados, lo que significa que hemos etiquetado correctamente los sectores de trabajo para una lista de candidatos. Entrenamos el modelo utilizando algoritmos ML (es decir, el vecino más cercano ...) y alimentamos esos datos no etiquetados , que son candidatos que no tienen experiencia laboral / son estudiantes, y tratamos de predecir a qué sector laboral pertenecerán.
Pregunta de actualización 2: ¿Sería una buena idea crear un archivo de texto extrayendo todo en un currículum e imprimiendo estos datos en el archivo de texto, de modo que cada currículum esté asociado con un archivo de texto, que contiene cadenas no estructuradas, y luego ¿aplica técnicas de minería de texto a los archivos de texto y hace que los datos se vuelvan estructurados o incluso crear una matriz de frecuencia de términos utilizados en los archivos de texto? Por ejemplo, el archivo de texto puede verse así:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
Esto es lo que quise decir con 'no estructurado', es decir, contraer todo en una sola cadena de línea.
¿Es este enfoque incorrecto? Corrígeme si crees que mi enfoque es incorrecto.
Pregunta 3: La parte difícil es: ¿cómo identificar y extraer las palabras clave ? ¿Usando el tm
paquete en R? ¿En qué algoritmo se tm
basa el paquete? ¿Debo usar algoritmos de PNL? En caso afirmativo, ¿qué algoritmos debería mirar? Por favor, muéstrame algunos buenos recursos para ver también.
Cualquier idea sería genial.