¿Cómo determinar la complejidad de una oración en inglés?

Estoy trabajando en una aplicación para ayudar a las personas a aprender inglés como segundo idioma. He validado que las oraciones ayudan a aprender un idioma al proporcionar un contexto adicional. Lo hice realizando una pequeña investigación en un aula de 60 estudiantes.

He extraído más de cien mil oraciones de Wikipedia para varias palabras en inglés (incluidas las palabras de Barrons'800 y las 1000 palabras en inglés más comunes)

Toda la información está disponible en https://buildmyvocab.in

Para mantener la calidad del contenido, filtré las oraciones que tenían más de 160 caracteres, ya que podrían ser difíciles de entender.

Como siguiente paso, quiero poder automatizar el proceso de clasificación de este contenido en el orden de la facilidad de comprensión. Yo mismo soy un hablante de inglés no nativo. Quiero saber qué características puedo usar para separar oraciones fáciles de las difíciles.

Además, ¿crees que esto es posible?

— BuildMyVocab
fuente

Si. Hay varias métricas, como el índice fogg. Textacy en python tiene una buena lista e implementaciones.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}

— GrimSqueaker
fuente

También puede ver la entropía o el porcentaje de palabras únicas, pero las métricas anteriores son más relevantes.

— GrimSqueaker