¿Qué investigaciones se han realizado en el dominio de "Identificar el sarcasmo en el texto"?


17

Identificar el sarcasmo se considera uno de los problemas abiertos más difíciles en el dominio de ML y NLP.

Entonces, ¿se realizó alguna investigación considerable en ese frente? En caso afirmativo, ¿cómo es la precisión? Explique también brevemente el modelo de PNL.



Aah, pregunta interesante (!)
ABcDexter

Respuestas:


5

El siguiente artículo de la encuesta de investigadores de IIT Bombay resume los avances recientes en la detección de sarcasmos: enlace Arxiv .

En referencia a su pregunta, no creo que se considere extraordinariamente difícil o abierto. Si bien introduce una ambigüedad que las computadoras aún no pueden manejar, los humanos pueden comprender fácilmente el sarcasmo y, por lo tanto, pueden etiquetar conjuntos de datos para la detección del sarcasmo.


2

Ha habido un trabajo reciente en el mismo dominio donde las redes neuronales (CNN para ser precisos) se utilizan para el mismo propósito. Alguna información. sobre la investigación es:

Para conocer ese contexto, el documento describe un método mediante el cual la red neuronal encuentra las "incrustaciones" del usuario, es decir, señales contextuales como el contenido de tweets anteriores, intereses y cuentas relacionadas, etc. Utiliza estos diversos factores para trazar al usuario con otros, y (idealmente) descubre que forman grupos relativamente bien definidos.

Por lo tanto, el documento utiliza CNN, incrustaciones de palabras y usuarios para detectar el sarcasmo en el texto. También hay un artículo de Techcrunch sobre eso.

El documento utiliza el sentimiento del tweet y se compara con el de otros tweets similares:

Si el sentimiento del tweet parece estar en desacuerdo con la mayor parte de lo expresado por usuarios similares, existe una buena posibilidad de que se esté empleando el sarcasmo.

Enlace al papel

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.