Estoy trabajando en una aplicación para ayudar a las personas a aprender inglés como segundo idioma. He validado que las oraciones ayudan a aprender un idioma al proporcionar un contexto adicional. Lo hice realizando una pequeña investigación en un aula de 60 estudiantes.
He extraído más de cien mil oraciones de Wikipedia para varias palabras en inglés (incluidas las palabras de Barrons'800 y las 1000 palabras en inglés más comunes)
Toda la información está disponible en https://buildmyvocab.in
Para mantener la calidad del contenido, filtré las oraciones que tenían más de 160 caracteres, ya que podrían ser difíciles de entender.
Como siguiente paso, quiero poder automatizar el proceso de clasificación de este contenido en el orden de la facilidad de comprensión. Yo mismo soy un hablante de inglés no nativo. Quiero saber qué características puedo usar para separar oraciones fáciles de las difíciles.
Además, ¿crees que esto es posible?