Probablemente, esta es una pregunta muy básica, pero parece que no puedo encontrar una respuesta sólida para ella. Espero aquí, puedo.
Actualmente estoy leyendo documentos como preparación para mi propia tesis de maestría. Actualmente, estoy leyendo un artículo que investiga la relación entre los tweets y las características del mercado de valores.
En una de sus hipótesis, proponen que "un mayor volumen de tweets está asociado con un aumento en el volumen de operaciones".
Yo esperaría que ellos, en las correlaciones por pares, que se correlaciona tweetVolume
con tradingVolume
, pero en cambio, el informe utilizando versiones logged: LN(tweetVolume)
y LN(tradingVolume)
.
Para mi tesis, he replicado esta parte de su artículo. He recopilado tweets de aproximadamente 100 empresas durante más de 6 meses ( tweetVolume
) y el volumen de negociación de acciones durante el mismo período de tiempo. Si correlaciono las variables absolutas, encuentro, r=.282, p.000
pero cuando uso las versiones registradas, encuentror=.488, p=.000
.
No entiendo porque investigadores a veces usan versiones registradas de sus variables y por qué la correlación parece mucho mayor si lo hace. ¿Cuál es el razonamiento aquí y por qué está bien usar variables registradas?
Tu ayuda es muy apreciada :-)