Tengo la impresión de que gran parte de lo que se está haciendo aquí es extremadamente heurístico. De hecho, la mayoría de las personas parecen aplicar esto a los <120 caracteres de las declaraciones de Twitter. Probablemente los resultados (aunque no se calculan de esta manera) no son mucho mejores que contar palabras "positivas" y "negativas" con una pequeña información de posición ("A mejor que B" = positivo para A, negativo para B)
Cuando ves empresas comprando un feed completo de Twitter (¿cuántos mbit por segundo?) Y afirmando hacer un análisis de opinión al respecto, esto en serio me hace preguntarme si hay alguna validez estadística aquí. No es de extrañar, por ejemplo, Yahoo falló gravemente al predecir las preelecciones para Carolina del Sur: http://www.technologyreview.com/web/39487/
La gente es manera de orgullo y afilado en sólo estar en absoluto capaz de procesar la cantidad de datos, que parecen totalmente a la negligencia validar correctamente su rendimiento.
Lamento ser tan pesimista sobre el estado del arte.