¿En qué circunstancias la lematización no es un paso aconsejable cuando se trabaja con datos de texto?

Sin tener en cuenta las posibles restricciones computacionales, ¿existen aplicaciones generales en las que la lematización sería un paso contraproducente al analizar datos de texto?

Por ejemplo, ¿sería la lematización algo que no se hace cuando se construye un modelo sensible al contexto?

Como referencia, la lematización por dictinory.com es el acto de agrupar las formas flexionadas de (una palabra) para su análisis como un solo elemento.

Por ejemplo, la palabra 'cocinar' es el lema de la palabra 'cocinar'. El acto de lematización es, por ejemplo, reemplazar la palabra cocinar con cocinar después de haber tokenizado sus datos de texto. Además, la palabra 'peor' tiene 'malo' como lema, y como el ejemplo anterior reemplaza la palabra 'peor' por 'malo' es la acción de la lematización.

nlp data-cleaning

— Zer0k
fuente

Creo que esta pregunta se mejoraría con una breve descripción de lo que es la lematización

— kbrose

@kbrose Muy bien, puedo agregar una breve descripción. Gracias por la sugerencia.

— Zer0k

¡Gracias! Interesante pregunta. Hay cosas simples como parte del etiquetado del discurso que definitivamente se verían perjudicadas por la lematización. Curioso por ver si hay más

— kbrose

Tareas de PNL que se verían perjudicadas por la lematización:

1) Clasificación del tiempo

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

La secuencia de caracteres al final de los verbos puede ayudar en esta tarea. Los verbos cocinados y cocineros difieren en los últimos caracteres ed y s respectivamente.

Con la lematización, esta información se pierde. Ambos verbos se convierten en cocinero , haciendo que ambas oraciones parezcan (en este caso) en tiempo presente.

2) identificación del autor

Dado

un conjunto de documentos escritos por el autor , $\mathcal{P}$ $a$
un conjunto de documentos escritos por el autor , $\mathcal{Q}$ $b$
un conjunto de documentos escritos por el autor o , $\mathcal{S}$ $a$ $b$

clasificar si un documento está escrito por el autor o . $s\in\mathcal{S}$ $a$ $b$

Una forma de lograr esto es mirar el histograma de las palabras presentes en y compararlo con los documentos de y y seleccionar el más similar. $s$ $\mathcal{P}$ $\mathcal{Q}$

Esto funciona porque diferentes autores usan ciertas palabras con diferentes frecuencias. Sin embargo, al usar la lematización, distorsiona estas frecuencias perjudicando el rendimiento de su modelo.

— Bruno Lubascher
fuente

Básicamente, cuando la estructura y el estilo de la oración / documento son relevantes, la lematización es algo perjudicial. ¿Entendí esto correctamente?

— Zer0k

@ Zer0k, correcto. Cuando las características importantes son granulares en las palabras, no desea la lematización. Si tiene tareas de nivel superior, por ejemplo, análisis de sentimientos, no necesita esta granularidad. "Este es el peor restaurante" o "Este es el restaurante malo ", ambos le darán un sentimiento negativo .

— Bruno Lubascher

Me temo que no estoy de acuerdo con el ejemplo de identificación de autor. Especialmente con textos cortos, la lematización ayuda mucho. De lo contrario, los vectores de características son demasiado escasos.

— Claude

@Claude, ¿puedes ampliar un poco eso? ¿Qué define como texto breve?

— Zer0k

@ Zer0k 200 tokens o hasta 1000 más o menos.

— Claude