Datos de sentimiento para Emoji

Para experimentar, nos gustaría usar el Emoji incorporado en muchos Tweets como datos de verdad / entrenamiento básicos para un simple análisis cuantitativo de opiniones. Los tweets generalmente no están estructurados para que la PNL funcione bien.

De todos modos, hay 722 Emoji en Unicode 6.0, y probablemente se agregarán otros 250 en Unicode 7.0.

¿Existe una base de datos (como, por ejemplo, SentiWordNet) que contenga anotaciones de opinión para ellos?

(Tenga en cuenta que SentiWordNet también permite significados ambiguos . Considere, por ejemplo , gracioso , lo que no solo es positivo: "esto sabe gracioso" probablemente no sea positivo ... lo mismo ocurrirá, ;-)por ejemplo. Pero no creo que esto sea más difícil para Emoji que para palabras comunes ...)

Además, si tiene experiencia con su uso para el análisis de sentimientos, me interesaría saberlo.

machine-learning classification parsing

— Erich Schubert
fuente

¡No creas que algo como esto existe actualmente, pero me encantaría si pusieras algo junto para esto!

— indico

Erich Schubert, estoy buscando exactamente lo mismo. ¿Tuviste alguna oportunidad de encontrar un recurso útil para ello?

— saeed mehrabi

Respuestas:

Un total de 972 emoji no es realmente tan grande para no poder etiquetarlos manualmente, pero dudo que funcionen como una buena verdad básica. Fuentes como Twitter están llenas de ironía, sarcasmo y otras configuraciones difíciles donde los símbolos emocionales (como emoji o emoticon) significan algo diferente de la interpretación normal. Por ejemplo, alguien puede escribir "xxx engañó a sus clientes, ¡y ahora se engañan a sí mismos! Ja ja ja!: D". Este es definitivamente un comentario negativo, pero el autor se alegra de ver a la compañía xxx en problemas y, por lo tanto, agrega un emoticón positivo. Estos casos no son tan frecuentes, pero definitivamente no son adecuados para la verdad básica.

Un enfoque mucho más común es utilizar el emoticón como semilla para recopilar un conjunto de datos real . Por ejemplo, en este artículo, los autores usan emoticones y etiquetas de hash emocionales para obtener un léxico de palabras útiles para una clasificación adicional.

— amigo
fuente

En realidad no estoy de acuerdo. Dado que al autor le gusta que estén en problemas, es un sentimiento positivo allí. Es un comentario negativo sobre la compañía, pero sin embargo, es un sentimiento positivo del autor. En este escenario más simple (no digo que este sea el objetivo completo), predecir qué emojis agregaría un usuario a su publicación me parece una tarea razonable. De hecho, puede construir muchos casos en los que el emoji será esencial. Considere "Got f_cked :-)" en lugar de "Got f_cked. :-("

— Erich Schubert

En caso de que trate de estimar la emoción de la persona en lugar de la actitud de la persona hacia un tema, entonces sí, este ejemplo no funciona. Pero hay muchos otros. El sarcasmo es un caso común. Considera la oración "oh sí, eres un verdadero 'maestro';)". Los humanos pueden atrapar el contexto negativo, pero el emoticón positivo apuntará a la emoción positiva. Pero realmente no lo tengo: ¿quieres extraer información subjetiva de los tweets o simplemente predecir posibles emojis? Aunque suenen similares, la segunda tarea no se trata realmente del análisis de sentimientos. No directamente, al menos.

— amigo

El smiley "guiño" generalmente no se considera "positivo", sino "irónico" ... por lo que un buen diccionario como SentiWordNet tiene sentido. Si te ves divertido en SentiWordNet, ¡también tiene más de un significado! sentiwordnet.isti.cnr.it/search.php?q=funny (Por lo tanto, no es trivial anotarlos manualmente, porque no es tan simple como positivo / negativo; pero debe hacer la validación habitual de acuerdo entre evaluadores, etc.)

— Erich Schubert

Ahora veo tu idea. Pero realmente no creo que funcione, solo porque (la mayoría) de los emojis realmente no me parecen buenos predictores, y explícitamente no quieres usar otras funciones. De todos modos, esta es solo una opinión basada en mi experiencia, solo los datos pueden dar respuestas reales. ¡Buena suerte!

— amigo

¿Quién dijo que no quiero usar otras funciones? Pero para estos he visto bases de datos ...

— Erich Schubert

Encontré este repositorio de Github útil (un buen comienzo): https://github.com/wooorm/emoji-emotion Lista de emoji clasificados para valencia con un número entero entre menos cinco (negativo) y más cinco (positivo).

Consulte la lista de emojis unicode compatibles: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

Tenga en cuenta que algunos emoji reciben polaridades posiblemente confusas, como stuck_out_tongue_closed_eyes (0), debido a que se usan tanto para emociones positivas como negativas.

— Tal Weiss
fuente