Un enfoque tradicional de construcción de características para la minería de texto es el enfoque de bolsa de palabras, y puede mejorarse usando tf-idf para configurar el vector de características que caracteriza un documento de texto dado. En la actualidad, estoy tratando de usar el modelo de lenguaje bi-gram o (N-gram) para construir el vector de características, pero ¿no sé cómo hacerlo? ¿Podemos seguir el enfoque de la bolsa de palabras, es decir, calcular el recuento de frecuencia en términos de bi-gramo en lugar de palabras, y mejorarlo utilizando el esquema de ponderación tf-idf?